Как лучше и правильнее сделать парсинг?

Franky

Client
Регистрация
01.08.2011
Сообщения
4
Благодарностей
1
Баллы
3
Исходные данные: ссылки лент новостей (к примеру ___http://gorod54.ru/ ), ключевые слова ( к примеру: единая Россия, Путин, Медведев)
Берется сначала первое ключевое слово и первая ссылка. Если в тексте страницы (в статьях) встречается ключевое слово - сохраняется ссылка на эту статью.
Парсить надо так несколько раз в день.
Какое решение придумал я: ключей не много (12), поэтому будет 12 шаблонов небольших: открывается рандомной строкой ссылка на ленту новостей, конструктором веток делал проверку на ключ, выбирая оттуда href, и находит, к примеру, три результата (но количество, естественно, может варьироваться).

Внимание вопрос: как сохранить все результаты в конструкторе веток? Абсурдно наверное с точки зрения грамотных людей, но пробовал в поле "№ совпадения" ставить "-|-all" - результата никакого.

Либо если у кого-то имеются более рациональные идеи - подскажите, пожалуйста.
 

step85

Client
Регистрация
19.02.2010
Сообщения
1 839
Благодарностей
287
Баллы
83
Постучитесь мне в аську - есть более простое решение на 1 шаблон, а не 12.
 

tonic

Client
Регистрация
07.08.2011
Сообщения
103
Благодарностей
50
Баллы
28
Проше всего будет сделать так:
-Заходим на страницу
-Проверяем на наличие текста регуляркой единая\ Россия|Путин|Медведев и т.д
-В случае успешного выхода берем URL страницы макросом и сохраняем его в файл
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 708
Баллы
113
Вопрос по поводу слово1|слово2|слово3

Есть текст, нужно выявить в нем наличие одного или более из этих слов и написать логическое выражение для проверки результата.

Можно привести конкретный пример?)
Или шаблон готовый из пары веток.

Я просто не до конца понимаю как работать с ИЛИ.
Какой макрос выполнить при парсинге?
Какой будет результат макроса, если в тексте есть 2 слова из 3, к примеру?

И как потом построить проверку результата парсинга Логической веткой?
В конце нужен только результат true или false.
Есть ли хотя бы одно слово из 3 в этом тексте.
 

lucian

Client
Регистрация
26.10.2011
Сообщения
214
Благодарностей
45
Баллы
0
Если нужно найти хотя бы одно из указанных слов, в результате ветки парсинга будет первое попавшееся совпадение, а логическое сравнение как обычно. Пример Посмотреть вложение temp186.xml
 
  • Спасибо
Реакции: rostonix

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 708
Баллы
113
Если нужно найти хотя бы одно из указанных слов, в результате ветки парсинга будет первое попавшееся совпадение, а логическое сравнение как обычно. Пример Посмотреть вложение 1168

http://gyazo.com/5a296f80adc2aa1e3937a8abe45fbad3

Вот это всегда делал двумя шагами)
Получал исх код - Парсил регуляркой

То есть здесь указываем слова для поиска просто? :D

Вот это больше интересует:

Код:
'{-FieldData.FieldData-|-●1●0●8●8●7●0●-|-tp-3068-}'!=''
Восклицательный знак за что отвечает?)
 

lucian

Client
Регистрация
26.10.2011
Сообщения
214
Благодарностей
45
Баллы
0
!= это не равно
== это равно
 
  • Спасибо
Реакции: rostonix

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 708
Баллы
113
А вот тут в параметрах можно указывать регулярки?

http://gyazo.com/5a296f80adc2aa1e3937a8abe45fbad3

А вот такая штука прокатит? С пробелами и прочее:

Hello|I'm here|Angelina Jolie
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 450
Благодарностей
1 884
Баллы
113

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)