Подскажите как можно регулярками вычестить текст

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Паршу текст со страницы, он примерно такого вида:
<div style="display: block;" id="tab-description" class="tab-content"><p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст</font></font></font></p>

<p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст!</font></font></font></p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст&nbsp;</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;" align="JUSTIFY">русский текст</p>
</div>
Но ничего не получаеться... Как можно парсить такой текст, с учетом того что на многих страницах еще структура стилей текста будет отличаться.. размер шрифта и стиль.. Пробывал регулярками разными вариантами в ДОМе... Но не выходит, в тесте вроде захватывает нужное, а в переменную ложит не весь найденный регулярками текст.. Или к примеру попытаться заменить Все англ. буквы на пробел, а потом както дальше заменами.. по пробывал [a-z] на пробел заменить.. не вышло... Как быть?
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 652
Баллы
113
замени <[^<].+?> на пустоту используя замену по регулярке
 

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Ничего не произошло, как было так и осталось :(
 

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
К примеру делаю замену > и < Ha \n - а дальше как можно?
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 652
Баллы
113


ну рас ничего не происходит, что поделать(
 
  • Спасибо
Реакции: keltuzhaknut

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Оо, благодарю, я не поставил рег. выражение, текст стоял... :-)!!!
 

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Ситуация ухудшилась, теперь нужно чистить вот такую структуру
<div style="display: block;" id="tab-description" class="tab-content"><p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст</font></font></font></p>

<p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст!</font></font></font></p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст&nbsp;</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;" align="JUSTIFY">русский текст</p>
</div>
<p>текст</p>

<ul>
<li><a href="http://sitе.ru/index.php?route=product/category&amp;path=3_7"><span style="color:#0033ff;">анкор</span></a></li>
<li><a href="http://sitе.ru/index.php?route=product/product&amp;path=1&amp;product_id=301">анкор</a></li>
</ul>

<p><strong>Состав</strong>:<br>
текст<br>
текст<br>
текст</p>
</div>
<div style="display: none;" id="tab-attribute" class="tab-content">

Помогите с регуляркой для такой формы, вычестить весь ХТМЛ оставив текст без ссылок...
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 442
Благодарностей
10 000
Баллы
113
Ситуация ухудшилась, теперь нужно чистить вот такую структуру
<div style="display: block;" id="tab-description" class="tab-content"><p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст</font></font></font></p>

<p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст!</font></font></font></p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст&nbsp;</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;" align="JUSTIFY">русский текст</p>
</div>
<p>текст</p>

<ul>
<li><a href="http://sitе.ru/index.php?route=product/category&amp;path=3_7"><span style="color:#0033ff;">анкор</span></a></li>
<li><a href="http://sitе.ru/index.php?route=product/product&amp;path=1&amp;product_id=301">анкор</a></li>
</ul>

<p><strong>Состав</strong>:<br>
текст<br>
текст<br>
текст</p>
</div>
<div style="display: none;" id="tab-attribute" class="tab-content">

Помогите с регуляркой для такой формы, вычестить весь ХТМЛ оставив текст без ссылок...
через замену на пустоту по регулярке <[^>]*>

upload_2016-3-1_1-19-32.png
 
  • Спасибо
Реакции: keltuzhaknut и doc

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 652
Баллы
113
  • Спасибо
Реакции: keltuzhaknut

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 442
Благодарностей
10 000
Баллы
113
я протупил, точку прописал. Но сейчас он просит удаление линков с анкорами. Как по мне, пора как-то самому регулярки учится составлять
тогда можно попробовать в 2 захода:

1. замена на пустоту по регулярке <a\ href[\w\W]*?</a>
2. замена на пустоту по регулярке <[^>]*>
 
  • Спасибо
Реакции: keltuzhaknut

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Благодарю, все получилось!! :-)
В 2-ва захода буду)))
Согласен, регулярками нужно заняться изучить их, листал тему в разделе конкурсных статй.. в ДОМ пробывал, но туго очень... Со временем вникну и будет получаться, пока на первых порах сложно...
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 139
Баллы
113
  • Спасибо
Реакции: doc и keltuzhaknut

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Чудесно, благодарю за помощь! Возьму на пользование:-)!
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 652
Баллы
113
тогда можна самом деле 1 заход с объединением этих регулярокно попробовать в 2 захода:

1. замена на пустоту по регулярке <a\ href[\w\W]*?</a>
2. замена на пустоту по регулярке <[^>]*>
на самом деле 1 заход с объединением этих регулярок
 
  • Спасибо
Реакции: keltuzhaknut

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
А мне всегда вот этой хватало)
<.*?>
 
  • Спасибо
Реакции: keltuzhaknut

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 652
Баллы
113

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)