Подскажите как можно регулярками вычестить текст

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Паршу текст со страницы, он примерно такого вида:
<div style="display: block;" id="tab-description" class="tab-content"><p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст</font></font></font></p>

<p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст!</font></font></font></p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст&nbsp;</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;" align="JUSTIFY">русский текст</p>
</div>
Но ничего не получаеться... Как можно парсить такой текст, с учетом того что на многих страницах еще структура стилей текста будет отличаться.. размер шрифта и стиль.. Пробывал регулярками разными вариантами в ДОМе... Но не выходит, в тесте вроде захватывает нужное, а в переменную ложит не весь найденный регулярками текст.. Или к примеру попытаться заменить Все англ. буквы на пробел, а потом както дальше заменами.. по пробывал [a-z] на пробел заменить.. не вышло... Как быть?
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 642
Баллы
113
замени <[^<].+?> на пустоту используя замену по регулярке
 

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Ничего не произошло, как было так и осталось :(
 

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
К примеру делаю замену > и < Ha \n - а дальше как можно?
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 642
Баллы
113


ну рас ничего не происходит, что поделать(
 
  • Спасибо
Реакции: keltuzhaknut

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Оо, благодарю, я не поставил рег. выражение, текст стоял... :-)!!!
 

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Ситуация ухудшилась, теперь нужно чистить вот такую структуру
<div style="display: block;" id="tab-description" class="tab-content"><p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст</font></font></font></p>

<p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст!</font></font></font></p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст&nbsp;</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;" align="JUSTIFY">русский текст</p>
</div>
<p>текст</p>

<ul>
<li><a href="http://sitе.ru/index.php?route=product/category&amp;path=3_7"><span style="color:#0033ff;">анкор</span></a></li>
<li><a href="http://sitе.ru/index.php?route=product/product&amp;path=1&amp;product_id=301">анкор</a></li>
</ul>

<p><strong>Состав</strong>:<br>
текст<br>
текст<br>
текст</p>
</div>
<div style="display: none;" id="tab-attribute" class="tab-content">

Помогите с регуляркой для такой формы, вычестить весь ХТМЛ оставив текст без ссылок...
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 562
Благодарностей
9 177
Баллы
113
Ситуация ухудшилась, теперь нужно чистить вот такую структуру
<div style="display: block;" id="tab-description" class="tab-content"><p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст</font></font></font></p>

<p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст!</font></font></font></p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст&nbsp;</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст</p>

<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;" align="JUSTIFY">русский текст</p>
</div>
<p>текст</p>

<ul>
<li><a href="http://sitе.ru/index.php?route=product/category&amp;path=3_7"><span style="color:#0033ff;">анкор</span></a></li>
<li><a href="http://sitе.ru/index.php?route=product/product&amp;path=1&amp;product_id=301">анкор</a></li>
</ul>

<p><strong>Состав</strong>:<br>
текст<br>
текст<br>
текст</p>
</div>
<div style="display: none;" id="tab-attribute" class="tab-content">

Помогите с регуляркой для такой формы, вычестить весь ХТМЛ оставив текст без ссылок...
через замену на пустоту по регулярке <[^>]*>

upload_2016-3-1_1-19-32.png
 
  • Спасибо
Реакции: keltuzhaknut и doc

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 642
Баллы
113
  • Спасибо
Реакции: keltuzhaknut

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 562
Благодарностей
9 177
Баллы
113
я протупил, точку прописал. Но сейчас он просит удаление линков с анкорами. Как по мне, пора как-то самому регулярки учится составлять
тогда можно попробовать в 2 захода:

1. замена на пустоту по регулярке <a\ href[\w\W]*?</a>
2. замена на пустоту по регулярке <[^>]*>
 
  • Спасибо
Реакции: keltuzhaknut

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Благодарю, все получилось!! :-)
В 2-ва захода буду)))
Согласен, регулярками нужно заняться изучить их, листал тему в разделе конкурсных статй.. в ДОМ пробывал, но туго очень... Со временем вникну и будет получаться, пока на первых порах сложно...
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 125
Баллы
113
  • Спасибо
Реакции: doc и keltuzhaknut

keltuzhaknut

Client
Регистрация
24.02.2016
Сообщения
221
Благодарностей
3
Баллы
18
Чудесно, благодарю за помощь! Возьму на пользование:-)!
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 642
Баллы
113
тогда можна самом деле 1 заход с объединением этих регулярокно попробовать в 2 захода:

1. замена на пустоту по регулярке <a\ href[\w\W]*?</a>
2. замена на пустоту по регулярке <[^>]*>
на самом деле 1 заход с объединением этих регулярок
 
  • Спасибо
Реакции: keltuzhaknut

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
А мне всегда вот этой хватало)
<.*?>
 
  • Спасибо
Реакции: keltuzhaknut

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 642
Баллы
113

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)