- Регистрация
- 24.02.2016
- Сообщения
- 221
- Благодарностей
- 3
- Баллы
- 18
Паршу текст со страницы, он примерно такого вида:
<div style="display: block;" id="tab-description" class="tab-content"><p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст</font></font></font></p>
<p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст!</font></font></font></p>
<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст </p>
<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст</p>
<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;" align="JUSTIFY">русский текст</p>
</div>
Но ничего не получаеться... Как можно парсить такой текст, с учетом того что на многих страницах еще структура стилей текста будет отличаться.. размер шрифта и стиль.. Пробывал регулярками разными вариантами в ДОМе... Но не выходит, в тесте вроде захватывает нужное, а в переменную ложит не весь найденный регулярками текст.. Или к примеру попытаться заменить Все англ. буквы на пробел, а потом както дальше заменами.. по пробывал [a-z] на пробел заменить.. не вышло... Как быть?
<div style="display: block;" id="tab-description" class="tab-content"><p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст</font></font></font></p>
<p style="margin-bottom: 0cm; line-height: 100%" align="JUSTIFY"><font color="#333333"><font face="Times New Roman, serif"><font size="4">русский текст!</font></font></font></p>
<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст </p>
<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;">русский текст</p>
<p style="color: rgb(51, 51, 51); font-family: sans-serif, Arial, Verdana, 'Trebuchet MS'; font-size: 13px; line-height: 20.8px;" align="JUSTIFY">русский текст</p>
</div>
Но ничего не получаеться... Как можно парсить такой текст, с учетом того что на многих страницах еще структура стилей текста будет отличаться.. размер шрифта и стиль.. Пробывал регулярками разными вариантами в ДОМе... Но не выходит, в тесте вроде захватывает нужное, а в переменную ложит не весь найденный регулярками текст.. Или к примеру попытаться заменить Все англ. буквы на пробел, а потом както дальше заменами.. по пробывал [a-z] на пробел заменить.. не вышло... Как быть?