PM вырубается, как правильно сделать парсер?

ffeniks

Client
Регистрация
03.06.2016
Сообщения
312
Благодарностей
410
Баллы
63
Есть задача парсить n1.ru

вот ссылка на прямую - http://chelyabinsk.n1.ru/search/?rubric=flats&is_newbuilding=true&district=1306611,1306612,1306613,1306614,1306615,1306616,1306617&rooms=1,2,3&rooms_min=4&view=table&limit=100&sort=-date

получается 25 000 объектов. В PM пишу проект, 1 страница (100 объектов) беру ссылки на объекты, после иду на след страницу. (получается 250 страниц). Но PM вырубается уже после 20 страницы видимо из за того что критично расходует память на серваке (так как там зашкаливает выше 1000). При парсинге отключил всё что можно - плагины, картинки css и т.д. Но это не помогло.

Подскажите, как правильно парсить что бы PM не увеличивало память.
Перезагрузка инстанса после каждой стр, тоже не помогает.
 

AloneSlamer

Client
Регистрация
29.01.2013
Сообщения
1 404
Благодарностей
362
Баллы
83

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с AloneSlamer какие-либо сделки.

парси запросами
 

VerBin

Client
Регистрация
28.05.2016
Сообщения
555
Благодарностей
457
Баллы
63
Используй счетчик в файле или в глобальной переменной, это будет номером страницы.
Реализуй обработку одной страницы одним потоком и запусти проект в многопоточном режиме.
 
  • Спасибо
Реакции: arhip1985

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)