Парсинг определенных строк

Ivanыч

Новичок
Регистрация
31.10.2011
Сообщения
6
Благодарностей
0
Баллы
0
Приветствую!

Есть примерно такой исходный код:

Код:
<tr style="bla bla"><td>*</td><td>1</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td></td><td>2</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td></td><td>3</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td>*</td><td>4</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td>*</td><td>5</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td></td><td>6</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td></td><td>7</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
прим. на 1, 4, 5 строке есть звездочки

Задача составить список из "еще бла бла бла", где есть звездочка. Как выбрать эти строки и сохранить в файл?
 

shifu

Client
Регистрация
04.04.2011
Сообщения
168
Благодарностей
23
Баллы
18
получить исходный текст страницы > параметры \<tr.*\*.*tr\>
 

shinigami

Client
Регистрация
01.05.2011
Сообщения
164
Благодарностей
91
Баллы
0
Сделал это двумя регвырами. Первый выделяет все строки со звездочкой, а второй дергает из них "еще бла бла"
Приложил шаблон
Посмотреть вложение couple_regexps.xml
 
  • Спасибо
Реакции: Ivanыч

Ivanыч

Новичок
Регистрация
31.10.2011
Сообщения
6
Благодарностей
0
Баллы
0
shinigami, огромнейшее спасибо! буду изучать)


Эм.. извиняюсь, я не указал, что около звездочки могут быть (а могут и не быть) разные значения:

Код:
<tr style="bla bla"><td>363*</td><td>1</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td></td><td>2</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td></td><td>3</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td>87*</td><td>4</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td>*</td><td>5</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td></td><td>6</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
<tr style="bla bla"><td></td><td>7</td><td>бла бла бла</td><td>еще бла бла бла</td></tr>
Т.е. интересует именно само наличие этой звездочки в строке, а не повторяющийся код...
 

shinigami

Client
Регистрация
01.05.2011
Сообщения
164
Благодарностей
91
Баллы
0
немного поправил регвыр:-)
 
  • Спасибо
Реакции: Ivanыч

Ivanыч

Новичок
Регистрация
31.10.2011
Сообщения
6
Благодарностей
0
Баллы
0
shinigami, эм.. а где он, подправленный шаблон? :-) что-то не вижу...
 

shinigami

Client
Регистрация
01.05.2011
Сообщения
164
Благодарностей
91
Баллы
0

Ivanыч

Новичок
Регистрация
31.10.2011
Сообщения
6
Благодарностей
0
Баллы
0
Спасибо!

Теперь мне нужно это все спарсить с сайта и сохранить в файл.

Я делаю так:
1 ветвь: Переход на страницу
2 ветвь: Получение исходного кода результата ветви 1
3 ветвь: Парсинг с помощью "Макрос, парсящий входную строку регулярными выражениями" результата ветви 2
4 ветвь: Сохранение в файл результат ветви 3, с помощью макроса "Записать строку в файл"

Все правильно?
 

shinigami

Client
Регистрация
01.05.2011
Сообщения
164
Благодарностей
91
Баллы
0
да. на шаге 2 может потребоваться брать не исходный текст а DOM текст страницы
 

Ivanыч

Новичок
Регистрация
31.10.2011
Сообщения
6
Благодарностей
0
Баллы
0
увы, ни с исходным кодом, ни DOMом не работает.

на 3м шаге результата нет (хотя регулярное выражение работает, тестировал через конструктор)
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)