Мониторинг обновления новостей на сайтах

cpa.king

Client
Регистрация
01.11.2018
Сообщения
5
Благодарностей
0
Баллы
1
Всем привет, несколько дней пытаюсь как-то решить вопрос мониторинга новостей на сотнях сайтов и если часть сайтов с RSS и проблем с мониторингом нет, но вот большинство RSS не имеют и заходить на каждый сайт ежедневно и проверять есть ли новости или нет очень трудозатратно. В идеале бы хотелось собирать новости с указанных сайтов, генерить из них RSS, а его бы я уже забирал в ридер, где всё разбито по категориям.

Пытался приструнить Google Alerts, но он не видит и половины всего что есть на самом деле. Хотелось бы услышать мнение профессионалов по Зенке, на сколько вообще имеет смысл реализовывать подобную задачу при помощи зенопостера? Всем спасибо за помощь!
 

kagorec

Client
Регистрация
24.08.2013
Сообщения
954
Благодарностей
498
Баллы
63
Выберите раздел нужный с отсортировкой по новизне, или это главная страница.
Подгрузите через GET, в полученном коде собрать регуляркой все ссылки в список, отсеять по критерию.
Спарсив информацию по нужной ссылке, потом эту ссылку записать в черный список чтоб дублей не было.
п.с. будет весело при мониторинге сотни файлов))
 

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 225
Баллы
113
При таких объемах данных нужно использовать БД. Запросы - это хорошо, но сайты закрытые скриптами, запросами не победить. И CloudFlare - это еще цветочки.
Ну, а процесс вполне себе описан постом выше.
 

cpa.king

Client
Регистрация
01.11.2018
Сообщения
5
Благодарностей
0
Баллы
1
Выберите раздел нужный с отсортировкой по новизне, или это главная страница.
Подгрузите через GET, в полученном коде собрать регуляркой все ссылки в список, отсеять по критерию.
Спарсив информацию по нужной ссылке, потом эту ссылку записать в черный список чтоб дублей не было.
п.с. будет весело при мониторинге сотни файлов))
На сколько это трудозатратно по времени и сколько в среднем может обойтись из расчёта настройки одной площадки? Плюс можно как-то настроить оповещения об ошибках парсинга, если вдруг на сайте поменяют вёрстку?

Ещё забыл спросить, можно ли настроить проверку появления новых статей по запросам в соцсетях и поисковиках? Спасибо!
 

kagorec

Client
Регистрация
24.08.2013
Сообщения
954
Благодарностей
498
Баллы
63

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)