Циклы и оперативная память

f1b

Новичок
Регистрация
01.10.2013
Сообщения
5
Благодарностей
0
Баллы
0
Приветствую, я скачал зеннопостер, сижу на дэмке пока что... тестирую, смотрю и т.д.
Понадобилось написать парсер. По скромным подсчетам нужно спарсить информацию с 30к страниц. Конечно, даже близко к этому числу постер не доходит. После примерно часу парсинга, зенно занимает больше 1 гб в оперативной памяти, виснет, а потом крашится.
Уже очищал куки, кеш (кстати если очистить куки, то процесс парсинга сбивается со стороны сайта.. меня тупо кидает обратно на стартовую страницу), уже даже очищал списки и переменные после каждых 100 спаршенных страниц, ничего из этого не помогло.
Читал на форуме, вы там всем советуете инстанс перезагружать (кстати говоря понятия не имею что это такое, а в справке я определения не увидел, может кто-то сможет мне объяснить что это?), но после того как у меня перезагружается инстанс, проект перемещается в "выполненные".
Может у кого-то была схожая проблема? Или просто может сможете дать мне какие-то советы\мысли как такое можно исправить? Спасибо.
 

7make

Client
Регистрация
25.06.2011
Сообщения
1 547
Благодарностей
1 311
Баллы
113

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с 7make какие-либо сделки.

делай парсинг через Get запросы.
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Если честно - парсер большого количества страниц из зенно фиговенький)))) Плюс в том что работает уже с генеренным кодом, и не надо искать откуда там что подгружается, если в теле основной страницы нету
минус в том что если даже парсить через гет запросы можно пойти несколькими путями
1) парсить через один проект циклами - медленно
2) парсить многопоточно, проект превращается в тупо взять строку - GET - REGEX - я хз почему, работает чуть быстрее и активных всегда 1 поток, ну иногда еле еле цепляет второй. Я понимаю что это из за того что проекты быстро выполняются и быстро закрываются, но все равно один хрен по факту идет парсинг в один поток

Специализированный софт для парсинга например КД (кто надо тот узнает) ) ту же самую процедуру выполняет по 36 страниц в секунду в то время как зенно с трудом управляется с одной.
Пы.Сы. это не претензия))) софт шикарный))) как бе логично, что в угоду универсальности приходится чем то жертвовать. Ясен пень что специально заточенный софт лучше справляется с задачей))
 

f1b

Новичок
Регистрация
01.10.2013
Сообщения
5
Благодарностей
0
Баллы
0
делай парсинг через Get запросы.
спасибо, вроде не жрет оперативку...правда пришлось весь проект переделывать..а что насчет инстанса? что это? замечал процесс в диспетчере когда зенно работает.. и все же... за что он отвечает? почему его надо перезапускать? либо дайте ссылку на статью где это написано, потому что сам я не нашел
 

f1b

Новичок
Регистрация
01.10.2013
Сообщения
5
Благодарностей
0
Баллы
0
Специализированный софт для парсинга например КД (кто надо тот узнает) )
контент даунлоадер? да и вообще на сколько я понимаю мой случай получится только 1 потоком парсить... когда я хочу перейти сразу на 10 000 страницу например, то меня кидает на следующую... например если я был на 4 странице, потом в адресной строке изменил переменную с номером страницы на 10000 то меня кинет на 5 страницу... в куки вроде не передается, от реферера тоже не зависит, я понятия не имею как он работает.
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
А вы скажите что за сайт, может подскажу
 

f1b

Новичок
Регистрация
01.10.2013
Сообщения
5
Благодарностей
0
Баллы
0
знал бы я как на этом форуме личные сообщения отправлять... или был бы тут хотя бы хайд, тогда может быть и скинул... а так нет, не скину..
тем более я уже все перепробовал... рефереры менял, от зареганого юзера пробовал, даже выставлял гугловский юзер-агент...там скорее все в движке зашито, что нельзя уходить от текущей страницы больше чем на 12 страниц
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Ну если там так все сурово, то и гет запроы в зеннопостере не помогут. снифайте пакеты, и думаю там хоть будет ясно откуда ноги растут, а так... гет запросы в зеннопостере от гет запросов в кд или гет запросов напрямую из кода - не сильно отличаются))))))))))))))
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 714
Баллы
113
Для массового парсинга обычно применяю логику разбивки на два шаблона. Первый собирает все ссылки.
А втоой уже просто переход на URL - парсинг - завершение.
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)