Вопрос по парсингу

zombie

Client
Регистрация
14.08.2012
Сообщения
480
Благодарностей
119
Баллы
43
Здравия желаю, уважаемые форумчане!

Как поступить если надо спарсить 100 000 пользователей там, где они подргужаются скроллом (все крупные соц. сети). Проблемы:

1. Если долго скроллить, то браузер начинает тормозить. Потом сам Зенно. Потом все медленее и медленее идёт работа. В конце так вообще практически тормоз.
2. Разделять работу не получиться, т.к. каждый раз скроллить нужно заново.

Не знаю как у вас, а у меня парсяться ОД 1000 человек 25 минут при алгоритме: сначала скроллим до конца страницу, потом берём код страницы и собираем все ссылки регуляркой (регулярка не запредельная).

Вот такой вопрос. раньше получалось избегать, но сейчас всё чаще и чаще.
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
Это более чем естественное следствие работы с такой страницей. Откройте обычный браузер и попробуйте проскроллить.
100000 спарсить нереально таким способом. И все рно или поздно зависнет намертво(
 

Wide

Client
Регистрация
04.02.2013
Сообщения
945
Благодарностей
257
Баллы
63
css и картинки отключать. а вообще с такими запросами, нужно оперативы докуя имхо))
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113

zombie

Client
Регистрация
14.08.2012
Сообщения
480
Благодарностей
119
Баллы
43
В Хроме скроллил на прикол до 5к пока сам не лопнул - всё норм, никаких тормозов.
А вообще 100 000 дохрена конечно, но в Зенно и 5к осилить практически нереально.
css и картинки отключать
не особо поможет, а на некоторых сайтах и скролл перестаёт работать.
 

NoN

Пользователь
Регистрация
04.01.2015
Сообщения
183
Благодарностей
22
Баллы
18
возможно, как-то можно удалять уже спарсившие акки через javascript (как тут, на 4 шаге) и дальше скроллить не нагружая браузер большим количеством не нужных ссылок и текста.
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
использовать возможности дополнительной фильтрации а потом все что спарсилось уже проверять на дубли и оставлять уникальные
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)