Не могу спарсить большой список

evgen5131

Client
Регистрация
13.07.2014
Сообщения
73
Благодарностей
2
Баллы
8
Здравствуйте, не могу спарсить в ZennoPoster большой список ссылок анкет участников группы, в ProjectMaker все парсит нормально, а вот ZennoPoster пишет что "ничего не найдено", стоит вот такой экшен для парсинга


Подскажите в чем может быть проблема?
Заранее всем спасибо!
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 117
Баллы
113
Здравствуйте, не могу спарсить в ZennoPoster большой список ссылок анкет участников группы, в ProjectMaker все парсит нормально, а вот ZennoPoster пишет что "ничего не найдено", стоит вот такой экшен для парсинга


Подскажите в чем может быть проблема?
Заранее всем спасибо!
не подходит регулярка, видимо верстка отличается в рабочем прогоне..
регулярку нужно попробовать сделать более универсальной..
или использовать тот же юзер-агент (установить его принудительно через Профиль), что в ПМ при успешном проходе..
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
сохраните Dom текст отдельным экшеном перед парсингом в файл, чтобы потом могли проверить работу регулярки вручную
 

Mutant

Client
Регистрация
19.09.2014
Сообщения
194
Благодарностей
36
Баллы
28
Столкнулся с той же проблемой.
Создал дополнительный Dom с сохранением в файл, до Dom с регуляркой. Вот что получается.
Паршу страницу с ФБ с пользователями по определенному запросу. PM с легкостью "переваривает" несколько десятков экранов вниз.
На выходе файл примерно 30-35 Мб. Переношу проект в ZP - файл пустой. Уменьшаю кардинально количество экранов с которых собираю пользователей. Итог - файл размером 6-7 Мб, шаблон в ZP отрабатывает нормально. Но меня не устраивает количество тех кого он собирает.
Добавляю пяток экранов - файл пустой, шаблон в ошибку. Убираю - все опять работает как нужно.
Знаю, что если кончается оперативка ZP может вести непредсказуемо. Смотрю - на машине 16Ггб, свободно 9Ггб
Кто то подскажет как обойти это ограничение?
 

evgen_po

Client
Регистрация
27.08.2013
Сообщения
848
Благодарностей
532
Баллы
93
Столкнулся с той же проблемой.
Создал дополнительный Dom с сохранением в файл, до Dom с регуляркой. Вот что получается.
Паршу страницу с ФБ с пользователями по определенному запросу. PM с легкостью "переваривает" несколько десятков экранов вниз.
На выходе файл примерно 30-35 Мб. Переношу проект в ZP - файл пустой. Уменьшаю кардинально количество экранов с которых собираю пользователей. Итог - файл размером 6-7 Мб, шаблон в ZP отрабатывает нормально. Но меня не устраивает количество тех кого он собирает.
Добавляю пяток экранов - файл пустой, шаблон в ошибку. Убираю - все опять работает как нужно.
Знаю, что если кончается оперативка ZP может вести непредсказуемо. Смотрю - на машине 16Ггб, свободно 9Ггб
Кто то подскажет как обойти это ограничение?
Попробуйте в настройках ZP увеличить размер буфера обмена
http://joxi.ru/v29415dSG9eMwm
У меня в идентичной ситуации это помогло!
 
  • Спасибо
Реакции: Mutant

Mutant

Client
Регистрация
19.09.2014
Сообщения
194
Благодарностей
36
Баллы
28
Спасибо, ваш совет помог.

Кроме того, развивая тему, был удивлен одной особенностью.
Как я писал ранее я "листал" экраны в ФБ, собирая пользователей. Ивот какая разница получается между PM и ZP
В PM "пролистываю" примерно 50 экранов вниз, Dom сохраненный в файл весит примерно 7Мб, и собирается примерно 250-300 пользователей.
Запускаю этот же шаблон в ZP, с теми же настройками, Dom сохраненный в файл весит уже 35Мб, и пользователей собирается за 2000 человек.
Вот такая странность.
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
Там может несколько по разному отрабатывать загрузка страницы и состояние занятости, учитывая что браузер для PM немного отличается для его функционала от браузера в ZP
В ЯЗ В вашем случае даже лучше все выходит)
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)