Проверка наличия фразы на странице, переход на следующую вкладку

zenno60

Пользователь
Регистрация
09.05.2016
Сообщения
99
Благодарностей
1
Баллы
8
Требуется проверить несколько сайтов на предмет наличия определённой фразы на первой странице.

ИМЕЕТСЯ
  • список сайтов кол. - тридцать тысяч - пятьдесят тысяч шт;
  • фраза для поиска - печать фотографий;
  • сайт для примера - getfoto.ru.


РЕШЕНИЕ (моё видение)
  • открыть несколько сайтов(100-200 штук);
  • переходить по каждой вкладке:
    • если искомая фраза имеется - переходим на следующую вкладку;
    • если искомая фраза отсутствует - закрываем вкладку и переходим на следующую вкладку;
  • после проверки всех вкладок сайты на которых фраза найдена, сохранить в файл (txt или xlsx)
Поиск фразы сделал, а вот как перейти на следующую вкладку, что-то не могу реализовать.
Прилагаю проект.

Решение задачи сформулировал исходя из своего понимания. Буду признателен, если предложите свои варианты решения задачи.
 

Вложения

  • 13,4 КБ Просмотры: 165

mux76

Client
Регистрация
13.12.2010
Сообщения
259
Благодарностей
119
Баллы
43
А зачем >100 вкладок?
Берем урл - ГЕТ-запрос - парсим содержание - сохраняем, если есть.
 
  • Спасибо
Реакции: zenno60 и doc

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
А зачем >100 вкладок?
Берем урл - ГЕТ-запрос - парсим содержание - сохраняем, если есть.
согласен. Логика проста. Открываешь сайт, ищешь фразу. Если нашёл - записал сайт. Открываешь след сайт. Если не нашёл - Открываешь след сайт
 
  • Спасибо
Реакции: zenno60 и mux76

zenno60

Пользователь
Регистрация
09.05.2016
Сообщения
99
Благодарностей
1
Баллы
8
Если не сложно, можно популярно как это сделать?

Пока только начинаю разбираться, поэтому прошу не обращать внимание на "дурные" идеи.
.. а то что-то начитался, на смотрелся... теперь плутаю в трёх соснах.... а вопрос срочный.
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
Нужно делать в фикле http://zennolab.com/wiki/ru:looping
Брять строчки с адресами сайтов в цикле с удалением, к каждому URL делать GET запрос соответствующим экшеном.
Полученный текст тсраницы проверять вашей логикой. Если найдены данные - Записывать URL в новый список
 
  • Спасибо
Реакции: zenno60

zenno60

Пользователь
Регистрация
09.05.2016
Сообщения
99
Благодарностей
1
Баллы
8
Решение с открытием вкладок вроде получилось…

GET, что -то не могу сообразить как сделать.

Я так понимаю, что логика для решения задачи, описанной в первом сообщении с применением GET запроса, следующая:
  • берём из списка URL, помещаем в переменную;
  • GET переходит (или связывается) по URL из переменной и парсит весь текст со страницы (либо согласно настроек) и перемещает в переменную ;
  • if проверяет наличие в тексе необходимой фразы "печать фотографий"
Правильно ли я понимаю?
Только как проверить на наличие фразы в спасенном тексте?
У меня if вроде только проверят равен ли текст фразе или нет
Требуется ли после каждого цикла удалять значение переменной URL и спарсенного текста?
Если требуется, то как это сделать?

Прилагаю файлы.
Прошу выдать замечания и предложения.
 

Вложения

LiMe

Client
Регистрация
10.12.2015
Сообщения
618
Благодарностей
339
Баллы
63
Решение с открытием вкладок вроде получилось…

GET, что -то не могу сообразить как сделать.

Я так понимаю, что логика для решения задачи, описанной в первом сообщении с применением GET запроса, следующая:
  • берём из списка URL, помещаем в переменную;
  • GET переходит (или связывается) по URL из переменной и парсит весь текст со страницы (либо согласно настроек) и перемещает в переменную ;
  • if проверяет наличие в тексе необходимой фразы "печать фотографий"
Правильно ли я понимаю?
Только как проверить на наличие фразы в спасенном тексте?
У меня if вроде только проверят равен ли текст фразе или нет
Требуется ли после каждого цикла удалять значение переменной URL и спарсенного текста?
Если требуется, то как это сделать?

Прилагаю файлы.
Прошу выдать замечания и предложения.
Вам нужно с помощью GET запроса взять код страницы, потом с помощью регулярного выражение искать нужный вам текст и ложить в переменную, после этого, с помощью IF проверяете. Вы впринципе все правильно сделали, но пропустили обработку кода страницы, т.е. вы получили код страницы, и все, и дальше у вас непонятная проверка.
Напишите пожалуйста что и где вам надо искать, я вам подскажу.
 
  • Спасибо
Реакции: zenno60

zenno60

Пользователь
Регистрация
09.05.2016
Сообщения
99
Благодарностей
1
Баллы
8
Можно более точно как это сделать:
- "с помощью регулярного выражение искать нужный вам текст";
- "обработку кода страницы".
Какими действиями... или экшенами... не знаю как правильно

Ну и не сочтите за наглость если не долго и вам не трудно, то может скорректируйте мой проект... Или хотя бы вставьте то что должно быть для дополнения структуры, а я потом отладку сделаю.
 

zenno60

Пользователь
Регистрация
09.05.2016
Сообщения
99
Благодарностей
1
Баллы
8
В процессе проб пришла мысль, что бы ло бы лучше искать по нескольким фразам

ИЗМ 1 к заданию #1

ИМЕЕТСЯ

  • список сайтов кол. - тридцать тысяч - пятьдесят тысяч шт;
ТРЕБУЕТСЯ
  • взять URL сайт из исходного списка "url_isx.txt";
  • проверить на наличие на первой странице сайта одной из ключевых фраз (фразы для поиска - "печать фотографий" или "при заказе на печать");
  • если одна из фраз имеется на первоq странице сайта, то перенести URL в результирующий список файл "url_rez.txt"
  • проверенные URL сайт из исходного списка "url_isx.txt", после проверки удалять (если это возможно)
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
В процессе проб пришла мысль, что бы ло бы лучше искать по нескольким фразам
ИЗМ 1 к заданию #1
ИМЕЕТСЯ

  • список сайтов кол. - тридцать тысяч - пятьдесят тысяч шт;
ТРЕБУЕТСЯ
  • взять URL сайт из исходного списка "url_isx.txt";
  • проверить на наличие на первой странице сайта одной из ключевых фраз (фразы для поиска - "печать фотографий" или "при заказе на печать");
  • если одна из фраз имеется на первоq странице сайта, то перенести URL в результирующий список файл "url_rez.txt"
  • проверенные URL сайт из исходного списка "url_isx.txt", после проверки удалять (если это возможно)
а теперь с этим ТЗ в раздел рекламы)
 
  • Спасибо
Реакции: zenno60

LiMe

Client
Регистрация
10.12.2015
Сообщения
618
Благодарностей
339
Баллы
63
В процессе проб пришла мысль, что бы ло бы лучше искать по нескольким фразам
ИЗМ 1 к заданию #1
ИМЕЕТСЯ

  • список сайтов кол. - тридцать тысяч - пятьдесят тысяч шт;
ТРЕБУЕТСЯ
  • взять URL сайт из исходного списка "url_isx.txt";
  • проверить на наличие на первой странице сайта одной из ключевых фраз (фразы для поиска - "печать фотографий" или "при заказе на печать");
  • если одна из фраз имеется на первоq странице сайта, то перенести URL в результирующий список файл "url_rez.txt"
  • проверенные URL сайт из исходного списка "url_isx.txt", после проверки удалять (если это возможно)
Пользуйтесь, думаю вы разберетесь как это работает, и объяснения не нужны :-)
Если нужна будет помощь, пишите в ЛС, если смогу, то помогу.
 

Вложения

  • Спасибо
Реакции: zenno60

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)