A-Parser - продвинутый парсер поисковых систем, WordStat, YouTube, Suggest, PR, etc

  • Автор темы Автор темы Forbidden
  • Дата начала Дата начала
A-Parser - версия 1.0.119

Новый метод уникализации DataBase - не использует оперативную память, 100% точность. Убраны старые методы Dynamic, DynamicHash, 16-64mb как неактуальные, подробности тут

Реализовано лимитирование потоков, в случае превышения потоков в задании парсер выдаст ошибку и не запустит задание. На Windows лимит установлен в 2000 потоков, на Linux в 10000(или меньше если ulimit -n меньше)

Исправлена обработка каптчи в парсере
yandex.png
SE::Yandex. Также теперь можно указать регион поиска в цифровом формате через Extra query string, возможность выбора региона из списка сохраняется

В API добавлена возможность переопределить настройки пресета в методах oneRequest и bulkRequest. Добавлен новый метод getParserPreset - позволяет изучить доступные настройки для каждого парсера. Обновлен модуль AParser.pm

Добавлен парсер новой поисковой системы
duckduckgo.png
SE:: DuckDuckGo

Обновлен список доменов гугла в парсере
google.png
SE::Google. Также теперь парсер гугла может определять ошибочно был введен запрос или нет(результат {misspell})

Исправления:
  • Иногда ссылка на первый ролик в
    youtube.png
    SE::YouTube парсилась некорректно
  • Исправлено падение в некоторых случаях после постановки задания на паузу
  • Исправлен двойной запуск задачи после паузы, баг появился в одной из предыдущих версий
  • При дублировании задания частично пропадали настройки Results Builder
Подробнее тут: 1.0.119
 
A-Parser - версия 1.0.130

Важное улучшение - теперь все парсеры(а их 43) проходят ежедневное автоматическое тестирование, что позволяет оперативно реагировать на изменения в выдаче или работе всех сервисов, с которыми работает A-Parser.

Улучшения:
  • Новый макрос результата {dump} - выводит в удобном виде все результаты получаемые парсером
  • Улучшен парсинг
    se-aol.png
    SE::AOL - теперь необходимо гораздо меньше попыток для успешного парсинга
  • Теперь парсер
    se-bing.png
    SE::Bing парсит до 1000 результатов с каждого запроса
  • В парсере
    se-google-pr.png
    [NOPARSE]SE::Google::PR[/NOPARSE] если у домена или страницы нету PageRank то в результате выведет -1
  • Парсер [NOPARSE]SE::DMOZ [/NOPARSE]переименован в
    rank-dmoz.png
    [NOPARSE]Rank::DMOZ[/NOPARSE]
Исправления:
  • Исправлена работа уникализации результатов в тесте A-Parser'а
  • Исправлено автоматическое удаление временных файлов при работе уникализации
  • rank-alexa.png
    Rank::Alexa в связи с изменением в выдаче
  • se-google-compromised.png
    SE::Google::Compromised в связи с изменением в выдаче
  • se-qip.png
    SE::QIP в связи с изменением в выдаче
  • se-duckduckgo.png
    [NOPARSE]SE::DuckDuckGo[/NOPARSE] в связи с изменением в выдаче
  • se-yandex-wordstat.png
    SE::Yandex::WordStat в связи с изменением в выдаче
  • rank-dmoz.png
    [NOPARSE]Rank::DMOZ [/NOPARSE]ошибка при проверке домена с www.
  • rank-ahrefs.png
    Rank::Ahrefs в связи с изменением в выдаче
Подробнее тут: 1.0.130
 
A-Parser - версия 1.0.148

Новый парсер
se-yandex-direct-frequency.png
SE::Yandex:: Direct::Frequency - проверка частотности ключевых слов через Яндекс.Директ.
Без распознавания каптчи средняя скорость проверки 3000 ключевых слов в минуту при 500 потоках:
XHict.png


На хороших проксях и при большем числе потоков можно добиться скорости более 20000 кеев в минуту

В парсере
html-textextractor.png
HTML::TextExtractor теперь корректно обрабатываются списки(<select>)

Исправления в связи с изменением в выдаче:
  • rank-alexa.png
    Rank::Alexa
  • se-google.png
    SE::Google - определение запросов по которым нет результатов
Другие исправления:
  • Исправлена логика работы Parse all results(Parse to level) совместно с макросами перебора букв(или фраз из файла)
  • При парсинге
    se-youtube.png
    SE::YouTube в некоторых случаях некорректная обработка UTF-8 могла приводить к падению парсера
  • При парсинге
    se-yandex-wordstat-bydate.png
    SE::Yandex::WordStat::ByDate с пустым запросом парсер падал с ошибкой
  • В Perl-модуле AParser.pm исправлено добавление задания с запросами из файла(для пользователей с Enterprise лицензией)
  • Парсер
    se-yandex.png
    SE::Yandex мог прекратить парсинг запроса если прокси вернула некорректный редирект(актуально для паблик-прокси)
  • Исправлено некорректное сохранение данных в UTF-8 во многих парсерах
  • Редактирование задания в очереди приводило к невозможности запустить это задание(с ошибкой о несуществующем файле запросов)
 
A-Parser - версия 1.0.154

В связи с тем что WordStat теперь можно парсить только используя аккаунты появился новый парсер
se-yandex-register.png
SE::Yandex::Register - автоматически регистрирует тысячи аккаунтов используя антигейт.

gC17i.png

На скриншоте пример регистрации 1000 аккаунтов за 15 минут. Скорость ограничена возможностями антигейта.

Парсеры
se-yandex-wordstat.png
SE::Yandex::WordStat и
se-yandex-wordstat-bydate.png
SE::Yandex::WordStat::ByDate теперь поддерживают авторизацию и позволяют парсить миллионы кейвордов и проверять частотность без использования антигейта. Теперь затраты на каптчу только при регистрации аккаунтов!

qVta2.png


Другие улучшения:
  • Теперь A-Parser поддерживает неограниченное число вложенных запросов(при использовании опции Parse to level)
  • Теперь все парсеры позиций сайтов по ключевым словам могут сравнивать искомую позицию по домену, по главному домену и по полной ссылке(опция Match type)
  • В парсер
    se-yandex.png
    SE::Yandex добавлен результат geo, который определяет является ли запрос гео-зависимым(предупреждение о показе результатов для конкретного региона)
Исправления:
  • Исправлен парсер подсказок
    se-google-suggest.png
    SE::Google::Suggest в связи с изменением в выдаче
  • Исправлен парсер
    se-duckduckgo.png
    SE:: DuckDuckGo - в связи с изменением в выдаче некорректно определял последнюю страницу
  • При использовании очень больших файлов запросов парсер мог вылетать при возобновлении работы задания после паузы
Подробнее тут: Версия 1.0.154
 
У меня вопрос к создателям программы перед покупкой: положим я парсю гугл регулярным выражением -нахожу 500 000 ответов -теперь надо собрать ссылки. Мне как простому пользователю дают собрать 300 ссылок. С помощью вашей программы я соберу больше?
 
A-Parser - версия 1.0.180

Парсер Яндекса
se-yandex.png
SE::Yandex:
  • Добавлена опция Parse not found, определяющая парсить ли выдачу если по искомому запросу найдено ноль результатов и предложена выдача по другому запросу
  • Теперь яндекс гораздо реже показывает каптчу
  • Исправлена отправка каптчи в связи с изменением в выдачи
  • В некоторых случаях неверно отправлялся запрос на антигейт о неправильной каптчи
Парсер Яндекс Вордстата
se-yandex-wordstat.png
SE::Yandex::WordStat:
  • Улучшена работа с аккаунтами - неверно определялся заблокированный аккаунт
  • Нельзя было использовать антигейт совместно с аккаунтами
Другие улучшения:
  • Реализована статистика работы по каждому заданию, в текущей версии считает количество успешных запросов, использование проксей, попыток и HTTP-запросов
  • Теперь при просмотре логов неудачные запросы выделяются красным цветом для удобства отладки
  • Небольшие улучшения в скорости работы прокси
Исправления:
  • Исправлен парсер
    se-aol.png
    SE::AOL в связи с изменением в выдачи
  • Исправлен парсер
    rank-ahrefs.png
    Rank::Ahrefs в связи с изменением в выдачи
  • Исправлен парсер
    se-google-trustcheck.png
    SE::Google::TrustCheck в связи с изменением в выдачи
  • Исправлено разделение логов по запросам
Подробнее тут: Изменения в версии 1.0.180
 
У меня вопрос к создателям программы перед покупкой: положим я парсю гугл регулярным выражением -нахожу 500 000 ответов -теперь надо собрать ссылки. Мне как простому пользователю дают собрать 300 ссылок. С помощью вашей программы я соберу больше?

За счет перебора фраз соберет гораздо больше
 
A-Parser - версия 1.0.183 - Русская каптча и эмуляция браузера в Яндексе

Теперь в настройках Антигейта(
util-antigate.png
Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.

Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:
LfYmZ.png


В дополнении к этому в парсере
se-yandex.png
SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):
uZpcl.png


Исправления:
  • Исправлен парсинг сниппетов в парсере
    se-google.png
    SE::Google
Подробнее тут: Изменения в версии 1.0.183
 
A-Parser - версия 1.0.198 - Улучшения в работе с Google, множественные исправления

Улучшения:
  • Улучшения в работе с сессиями в парсере
    se-google.png
    SE::Google - уменьшено использование каптч
  • Улучшения в работе с сессиями в парсере
    se-yandex-wordstat-bydate.png
    SE::Yandex::WordStat::ByDate - уменьшено использование каптч
  • Парсер
    net-http.png
    Net::HTTP теперь возвращает контент для обработки при любых ответах сервера(в т.ч. неудачных)
Исправления:
  • В парсере
    se-google.png
    SE::Google не распознавалась каптча
  • В парсере
    se-yandex.png
    SE::Yandex не сохранялись сессии
  • HTTP прокси с авторизацией не работали в комбинации с некоторыми парсерами(например SE::Yandex)
  • Макрос результата {firstquery} (первый запрос при использовании вложенного парсинга или парсинга с подстановками) не корректно работал с подстановками
  • Исправлено определение количества результатов в выдаче в парсере
    se-google.png
    SE::Google
  • Парсер
    se-yandex-wordstat-bydate.png
    SE::Yandex::WordStat::ByDate не возвращал недельную разбивку, теперь выбор периода разбивки добавлен в настройки
  • Парсер
    se-google-compromised.png
    SE::Google::Compromised в некоторых случаях работал некорректно
  • Исправлен парсер
    se-aol.png
    SE::AOL
  • Исправлен парсер
    rank-opensiteexplorer.png
    Rank::OpenSiteExplorer
Подробнее тут: Версия 1.0.198
 
A-Parser - версия 1.0.201 - обновлен парсер картинок Google, парсинг Bing News

Улучшения
  • Полностью переписан парсер картинок
    se-google-images.png
    SE::Google::Images - теперь он парсит новую выдачу, до 10 страниц по 100 результатов
  • Парсер
    se-bing.png
    SE::Bing теперь поддерживает парсинг Bing News, также теперь можно выбрать время выдачи(за все время, за 24 часа, за неделю или за месяц)
  • Парсер
    html-linkextractor.png
    HTML::LinkExtractor теперь автоматически считает внутренними ссылки с поддоменов www. и ftp., возможность учитывать все поддомены как внутренние оставлена без изменений
Исправления
  • Исправлен парсер
    se-bing-langdetect.png
    SE::Bing::LangDetect в связи с изменением в выдачи
  • Исправлен парсер
    rank-ahrefs.png
    Rank::Ahrefs в связи с изменением в выдачи
  • Парсер
    se-google.png
    SE::Google некорректно работал с каптчей при использовании регионального домена Google
  • Парсер
    se-yandex-wordstat.png
    SE::Yandex::WordStat зацикливался при работе с прокси, что приводило к остановке парсинга
Подробнее: Изменения в версии 1.0.201
 
A-Parser - 1.0.214 - новогоднее обновление, более 30 изменений!

Всех с наступающим Новым годом! Мы заготовили вам большой подарок, включающий более 30 изменений!

4gQyt.png

Интерфейс претерпел множество изменений:
  • Переработано отображение задания в очереди, теперь оно более наглядное и информативное
  • Настройки теперь сгруппированы по закладкам, что сильно упрощает навигацию
  • Появилась возможность перемещать задание непосредственно в начало или в конец очереди
  • Обновлен перевод всех элементов на русский язык
  • В задании отображается прогресс в виде процента выполненных запросов
  • Иконка теперь корректно отображается во всех браузерах
  • Основное окно теперь можно позиционировать в верхний левый угол и масштабировать на всю рабочую область браузера
  • Исправлена ошибка в импорте пресетов
Добавлены новые парсеры, общее число парсеров перевалило за 50:
  • rank-linkpad.png
    Rank::Linkpad - парсер беклинков(линк, анкор, уровень вложенности) и статистики(число беклинков, доноров, iGood и т.д.) с сервиса linkpad.ru(бывший solomono)
  • se-bing-images.png
    SE::Bing::Images - парсер картинок с поисковика Bing(ссылка, размер, разрешение и сниппет)
  • se-yandex-wordstat-byregion.png
    SE::Yandex::WordStat::ByRegion - парсер статистики ключевых слов по регионам и городам в Вордстате
  • se-yandex-webmaster-index.png
    SE::Yandex::Webmaster::Index - быстрая оценка количества проиндексированных страниц в Яндексе
  • se-google-trends.png
    SE::Google::Trends - парсер кейвордов в тренде по версии Google, дополнительно парсит принадлежность кейвордов к группам
  • rank-alexa-api.png
    Rank::Alexa::API - быстрый чекер алексы через API
Улучшения:[NOSMILES]
  • В парсер Яндекса
    se-yandex.png
    SE::Yandex добавлен парсинг ссылки на кэш страницы, также теперь парсер пробует использовать другую прокси если Яндекс принудительно перенаправляет на региональный домен(ua, kz, tr)
  • Теперь можно производить уникализацию, фильтрацию и применять конструктор результатов ко всем результатам созданным пользователем с использованием фукнции Parse custom result(парсинг произвольного контента с помощью регулярных выражений)
  • В настройках теперь возможно указать тип переноса строки используемый по умолчанию(Windows или Linux)
  • Добавлена возможность сохранять неудачные запросы
  • В статистику работы задания добавлен вывод забаненых проксей для каждого используемого парсера
  • Файл с запросами теперь можно выбирать из подпапок
  • В парсер частотности ключевых слов
    se-yandex-direct-frequency.png
    SE::Yandex:: Direct::Frequency добавлен парсинг дополнительных ключевых слов(подсказок)
  • В парсер Вордстата
    se-yandex-wordstat.png
    SE::Yandex::WordStat добавлена возможность выбора сразу нескольких регионов для оценки
Исправления:
  • rank-majesticseo.png
    Rank::MajesticSEO в связи с изменением в выдаче
  • rank-ahrefs.png
    Rank::Ahrefs в связи с изменением в выдаче
  • se-aol.png
    SE::AOL в связи с изменением в выдаче
  • net-whois.png
    Net::Whois - некорректно определял незанятые домены в некоторых зонах
  • Исправлено падение в некоторых случаях при использовании большого файла запросов совместно с уникализацией запросов
Подробнее: Изменения в версии 1.0.214
 
A-Parser - версия 1.0.218

Улучшения
  • Парсер
    net-whois.png
    Net::Whois теперь поддерживает работу с интернациональными доменами(IDN, например яндекс.рф)
  • Для парсера
    se-aol.png
    SE::AOL добавлена опция No results is error - в некоторых случаях аол может вернуть пустую выдачу на вполне нормальный запрос, с этой опцией запросы с пустой выдачей будут перепаршиваться повторно
Исправления
  • Парсер картинок
    se-google-images.png
    SE::Google::Images в связи с изменением в выдаче
  • Парсер
    se-aol.png
    SE::AOL в связи с изменением в выдаче
  • При использовании API после некоторого числа запросов оно переставало отвечать
  • Парсер
    se-baidu.png
    SE::Baidu в связи с изменением в выдаче
  • Исправлена ошибка в обработке списка файлов запросов, что приводило к невозможности выбрать файл запроса из папки queries/
  • Опция Try in Parser Test работала некорректно
  • Исправлена ошибка в интерфейсе при составлении заданий с использованием опций Parse custom result/Results Builder, появившаяся в предыдущей версии

Подробнее: Изменения в версии 1.0.218
 
A-Parser - версия 1.0.223

Новые парсеры:
  • se-yandex-catalog.png
    SE::Yandex::Catalog - парсер сайтов по Яндекс.Каталогу, парсит ссылку, анкор, сниппет, категорию и гео-привязку. Также парсит количество результатов по запросу
  • rank-archive.png
    Rank::Archive - парсит дату первого и последнего кэширования сайта в веб архиве(archive.org), также парсит количество сохраненных копий сайта. Данный парсер будет очень полезен для оценки доменов
Исправления:
  • Парсер
    se-aol.png
    SE::AOL в связи с изменением в выдачи
  • Парсинг связанных кейвордов(related) в парсере
    se-bing.png
    SE::Bing в связи с изменением в выдачи
  • В некоторых случаях могли не передаваться дополнительные параметры к запросу(Extra query string)

Подробнее: Изменения в версии 1.0.223
 
A-Parser - версия 1.0.232 - Новый шаблонизатор результатов, подстановка переменных и многое другое

Поздравляем всех защитников отечества с их профессиональным праздником!
В A-Parser включен шаблонизатор Template Toolkit - мощный инструмент для форматирования результатов, запросов, строк поиска и сравнения и т.д.; его основные особенности:
  • Поддержка переменных, условий, циклов, макросов
  • Множество встроенных функций для строк, массивов и хешей
  • Неограниченные возможности по расширению
  • Подробная документация на русском и английском языках
На данный момент по умолчанию действует старый шаблонный движок, тем самым позволяя использовать все ранее сохраненные настройки. Полный переход на новый движок будет плавный и будет включать следующие этапы:
  • Развернутый пост о преимуществах с примерами на следующей неделе
  • Обновление конфигурации A-Parser с новым синтаксисом формата вывода результатов
  • Выпуск версии с поддержкой нового шаблонизатора по умолчанию
  • Помощь со стороны технической поддержки в адаптации старых проектов
Новый синтаксис применяется если шаблон содержит комбинацию [% ... %], уже сейчас новый синтаксис можно использовать в:
  • Шаблонах форматирования результатов(Result format)
  • Шаблоне имени файла(Result file name)
  • Фильтрах результатов для подстановки переменных данных(запросов, результатов) в условия сравнения
  • Функции поиска по регулярному выражению(Parse custom result) в качестве части регулярного выражения
Другие улучшения:
  • Добавлена функция сохранения исходного кода страниц, с которых осуществляется парсинг, что даёт возможность дополнительной обработки результатов(Raw data results)
  • Подстановка запросов(или результатов) в условия для сравнения в фильтрах и как часть регулярного выражения для Parse custom result
  • Дополнительный параметр к HTTP запросу(Extra query string) теперь подставляется только для главных запросов, от которых ожидаются результаты парсинга. Для вспомогательных запросов(работа с cookie, каптчей, авторизацией) этот параметр не подставляется
Исправления:
  • Исправлена утечка памяти при обработке кодировки некоторых сайтов и сервисов
  • Исправлен парсер
    se-yandex.png
    SE::Yandex - в связи с изменением в выдаче результаты из рекламных блоков считались результатами основной выдачи
  • Парсер
    rank-cms.png
    Rank::CMS не работал при использовании функции логирования долгих регулярных выражений(Log long running regex)
Подробнее тут: Версия 1.0.232
 
  • Спасибо
Реакции: 7make
Новый шаблонизатор в A-Parser

Зачем?
  • Расширение возможностей - старый шаблонизатор был ограничен в возможностях, фактически он не умел ничего кроме вывода переменных и массивов
  • Наглядный пример: используя шаблоны можно результаты парсинга автоматически преобразовать в дорвеи, готовые для загрузки на хостинг! Другой пример: готовый отчет по анализу доменов в виде HTML или CSV файла
  • Лёгкий способ использовать переменные данные(запросы, результаты парсинга) на всех этапах работы парсера(формирование запроса; фильтрация, уникализация, форматирование, дополнительная обработка результатов)
  • Исчерпывающая документация: Template Toolkit - проверенный времен шаблонный движок, который имеет большое сообщество пользователей
Массив? Переменная? Мне нужно программировать?
  • Однозначно нет :) A-Parser рассчитан на широкую аудиторию и из коробки позволяет выполнять все основные задачи без каких либо дополнительных знаний
  • Шаблоны призваны упростить решение сложных комплексных задач, например подсчет количества ссылок в топ10 выдачи Яндекса, в которых встречается исходный запрос в анкоре
  • Шаблон - не язык программирования, он содержит около 5 основных макросов которые легко запомнить и использовать
Читать далее
 
A-Parser - версия 1.0.236 - промежуточный релиз, исправление текущих ошибок

Улучшения:
  • Теперь можно перемещать задания в очереди используя API - добавлен метод moveTask
  • Многократно увеличена скорость при обработке регулярных выражений в Parse custom result
Исправления:
  • Исправлена ошибка в
    se-yandex.png
    SE::Yandex приводящая к падению парсера, ошибка появилась в предыдущей версии
  • Исправлен парсер
    se-youtube.png
    SE::YouTube в связи с изменением в выдаче
  • Парсер мог упасть при использовании неправильного регулярного выражения, ошибка появилась в предыдущей версии
  • Исправлен регистратор аккаунтов в Яндексе
    se-yandex-register.png
    SE::Yandex::Register в связи с изменением в выдаче
  • Исправлен парсер
    se-yahoo.png
    SE::Yahoo в связи с изменением в выдаче
Подробнее тут: Версия 1.0.236
 
A-Parser - 1.0.268 - Бета версия, полный переход на новый шаблонизатор, множество улучшений

Основные улучшения:
  • Переход на систему быстрых обновлений, теперь получить обновление на канале бета-версии можно за пару минут
  • Полный переход на новый шаблонизатор, старый синтаксис более недоступен
  • Все настройки в автоматическом режиме преобразуются под новый синтаксис при первом старте парсера
  • Создан инструмент для тестирования шаблонов, в нем можно проверить форматирование до парсинга
  • В настройках можно указать часто используемые макросы и функции, которые будут доступны в любом месте где используется шаблонизатор
  • Шаблоны также работают в полях Prepend и Append - автоматическое добавление заголовка и окончания для файлов результатов
  • Теперь шаблон можно задавать в удобном многострочном редакторе
  • Увеличена скорость работы конструктора запросов и результатов
  • В парсере
    se-yandex-suggest.png
    SE::Yandex::Suggest теперь можно выбрать произвольный регион, в т.ч. на основе IP адреса
Исправления в связи с изменениями в выдачи:
  • Исправлена опция эмуляции браузера для парсера
    se-yandex.png
    SE::Yandex
  • Исправлен парсинг выдачи
    se-yandex.png
    SE::Yandex при запросах вида url:, а так же исправлен парсинг рекламных блоков
  • Исправлен парсер тИЦ
    se-yandex-tic.png
    SE::Yandex::TIC
  • Исправлен парсер
    rank-ahrefs.png
    Rank::Ahrefs - выдавал неверные данные
  • Исправлен парсинг общего числа результатов в
    se-baidu.png
    SE::Baidu
  • Исправлен парсер
    rank-dmoz.png
    Rank:: DMOZ
  • Исправлен парсер картинок
    se-google-images.png
    SE::Google::Images
  • Исправлен парсинг описаний к видео в
    se-youtube.png
    SE::YouTube
Информация
  • Для обновления необходимо зайти в Members Area, раздел Downloads, в секции A-Parser Beta запросить обновление кликнув по Update
  • Все вопросы по новому синтаксису шаблонов можно задавать в этом топике
  • Для желающих тестировать самые последние версии создан отдельный скайп-чат, подробнее тут
Список всех изменений в версии 1.0.268
 
Новая документация и текущий статус Бета-версии

В скором времени увидит свет A-Parser версии 1.1.0 - результат двух-месячной разработки Бета-версии. На текущий момент Бета-версия абсолютно стабильна и рекомендуется к использованию как новым пользователям, так и всем кто уже имеет лицензию

Ключевой особенностью новой версии парсера является наличие новой документации, в которой мы постарались осветить все возможности и особенности работы A-Parser'а. В документации подробно описаны такие возможности как:
Обсудить новую документацию можно на форуме

Помимо этого текущая бета версия содержит множество исправлений и улучшений, следите за новостями о релизе!
 
Новая версия Lite, автоматическая оплата прокси

  • Добавлена новая лицензия Lite, включающая только парсеры Google и Яндекса
  • Добавлена автоматическая оплата через WebMoney, Yandex.Money, Visa, MasterCard, Paxum, LiqPay, PerfectMoney, W1, Банки, СМС, Терминалы оплаты
  • Оплачивать можно лицензии на A-Parser, A-Poster, прокси, обновления A-Parser и дополнительные лицензии A-Parser
  • Новая сетка цен
  • Последние изменения в бета версии
  • Переработано описание парсера
Мы ждем ваших вопросов :) наши контакты
 
Релиз A-Parser 1.1.0, автоматический прием PayPal, Wire, QIWI

Релиз A-Parser 1.1.0 - результат активной разработки в течении двух месяцев в рамках бета-версии

FaKHz.png


Улучшения
  • Новый парсер
    html-textextractor-langdetect.png
    HTML::TextExtractor::LangDetect - улучшенное определение языка страницы, без использования сторонних сервисов
  • Для парсера
    se-google.png
    SE::Google добавлена возможность указывать локацию поиска - город или регион
  • Новый инструмент - обновление A-Parser, теперь обновления можно устанавливать автоматически через интерфейс, поддерживается два канала обновлений - Stable и Beta
  • Для уникализации результатов теперь используется LevelDB - лучшая скорость и низкое потребление памяти
  • Улучшена работа с битыми кодировками и детектирование кодировки страницы
  • В инструменте тестирования шаблонов теперь доступны предустановленные результаты для всех парсеров
  • Шаблонизатор теперь можно использовать в самих запросах, в формате запроса, а также в Конструкторе результатов
  • Для парсера
    net-http.png
    Net::HTTP при формировании POST запроса добавлена возможность использовать шаблонизатор в теле запроса
  • Добавлена возможность выводить результаты в формате JSON
  • Новая опция Not found is error для парсера
    net-dns.png
    Net:: DNS - позволяет перепроверять ложные ответы от DNS серверов
  • Добавлена возможность удалять неиспользуемые базы данных Keep unique
  • Новые подсказки в интерфейсе, соответствуют новому формату шаблонов
  • Добавлена возможность сбросить пароль доступа к интерфейсу A-Parser
  • Сервер парсера теперь можно выключить или перезапустить через веб-интерфейс
Исправления
  • Исправлен парсер
    se-yandex.png
    SE::Yandex в связи с переходом на новую выдачу
  • Исправлен парсер
    se-aol.png
    SE::AOL в связи с изменением в выдачи
  • Исправлен ошибка, при которой проверка прокси начиналась заново при перезагрузке интерфейса
  • Исправлена медленная работа очереди заданий при большом количестве заданий(более 1000)
  • Исправлен вывод исходного запроса $query.first при многоуровневом парсинге в
    se-yandex-wordstat.png
    SE::Yandex::WordStat
  • net-dns.png
    Net:: DNS - исправлена работа на ОС Windows
  • se-yandex-webmaster-index.png
    SE::Yandex::Webmaster::Index удален в связи с прекращением работы сервиса
  • Исправлено некорректное определение некоторых полей в парсере
    net-whois.png
    Net::Whois
  • Исправлена работа переменной $pagenum в парсере
    net-http.png
    Net::HTTP
  • Исправлена ошибка, при которой парсер мог вылететь при использовании уникализации по простым результам
  • Задания с пустым файлом запросов не завершались автоматически
  • Исправлен парсер
    rank-ahrefs.png
    Rank::Ahrefs в связи с изменением в выдачи
  • Исправлен парсер
    rank-alexa.png
    Rank::Alexa в связи с изменением в выдачи
  • Исправлен парсер
    rank-majesticseo.png
    Rank::MajesticSEO в связи с изменением в выдачи
  • Исправлена работа с кодировкой windows-1251
  • Исправлен подсчет числа простых результатов
  • Исправлена работа метода CONNECT при использовании прокси с авторизацией по логин\паролю
  • Исправлен парсер
    rank-category.png
    Rank::Category в связи с изменением в выдачи
Полный список всех изменений в соответствующем разделе

Также мы рады сообщить что добавили прием PayPal, QIWI и Wire Transfer в автоматическом режиме
 
A-Parser - версия 1.1.20 - обновление парсера Rank::CMS, разные форматы результатов для нескольких файлов

Улучшения
  • Полностью переработан парсер
    rank-cms.png
    Rank::CMS, теперь он определяет движок сайта на основе большой и качественной базы признаков Wappalyzer, также появилась возможность выбрать категорию или конкретные движки для распознавания
  • Появилась возможность сохранять результаты одного задания в разные файлы, с выбором формата результата для каждого файла, к примеру при парсинге Гугла можно сохранять ссылки в один файл и сниппеты в другой
  • Добавлена возможность использовать шаблоны в параметрах Extra query string и User Agent
  • В шаблонах теперь можно использовать инструменты, которые доступны через переменную $tools, первый инструмент - выбор произвольного User Agent: $tools.ua.random(), список агентов хранится в файле files/tools/user-agents.txt
  • Улучшен парсер
    net-dns.png
    Net::DNS при работе через прокси
  • В API появилась возможность запрашивать статус сразу нескольких заданий
  • В API появилась возможность скачивать файл результата
  • Парсер
    se-aol.png
    SE::AOL теперь позволяет выбрать US, UK, FR или DE выдачу
  • В парсере
    rank-ahrefs.png
    Rank::Ahrefs теперь дополнительно парсятся параметры URL Rank и Ahrefs Domain Rank
Исправления
  • Исправлен парсер
    se-youtube.png
    SE::YouTube в связи с изменением в выдачи
  • Исправлен парсинг с блогов в парсере
    se-google.png
    SE::Google в связи с изменением в выдачи
  • Исправлена ошибка при которой парсер мог вылететь если в качестве запроса передать очень длинный URL
 
A-Parser - версия 1.1.41 - новые парсеры MailRu и Dogpile, поддержка многоядерности для чекера CMS

Улучшения
  • Новый парсер
    se-mailru.png
    SE::MailRu - собирает ссылки, анкоры и сниппеты, количество результатов в выдаче
  • Новый парсер
    se-mailru-position.png
    SE::MailRu::position - проверяет позиции сайтов в выдаче go.mail.ru
  • Новый парсер
    se-dogpile.png
    SE::Dogpile - парсер поисковика dogpile.com, собирает ссылки, анкоры и сниппеты, количество результатов в выдаче и связанные ключевые слова
  • Добавлена экспериментальная поддержка многоядерных процессоров для наиболее требовательного к ресурсам процессора парсера
    rank-cms.png
    Rank::CMS
  • Для парсера
    rank-ahrefs.png
    Rank::Ahrefs добавлен парсинг социальных факторов(google+, twitter, facebook), а также возможность выбора режима отчета(ссылка, папка, домен, домен с сабдоменами)
  • Для парсера
    rank-majesticseo.png
    Rank::MajesticSEO добавлена возможность получать данные по полной ссылке
  • Новая опция Emulate browser headers для парсера
    net-http.png
    Net::HTTP - автоматически эмулирует хедеры современных браузеров
  • Для парсера
    se-yandex-position.png
    SE::Yandex::position теперь доступна статистика по использованию каптчи
Исправления
  • Исправлен парсинг рекламных блоков в парсере
    se-google.png
    SE::Google в связи с изменением в выдачи
  • Исправлен парсер
    se-baidu.png
    SE::Baidu в связи с изменением в выдачи
  • Исправлен парсер проверки языка сайта
    se-bing-langdetect.png
    SE::Bing::LangDetect
 
A-Parser - версия 1.1.61 - улучшение очереди заданий, поддержка аккаунтов в парсере Яндекса

Улучшения
  • Появилась возможность ограничивать общее потребление потоков, что позволяет пропускать задания превышающие текущее потребление, давая возможность выполнится заданиям с меньшим числом потоков. Также данный функционал полезен при использовании прокси-сервисов с лимитированным числом подключений, тем самым можно гарантированно не выходить за пределы тарифа
  • В очереди заданий теперь можно удалить все задания разом, отдельно для активной очереди и очереди завершенных заданий
  • Парсер
    se-yandex.png
    SE::Yandex теперь поддерживает работу с аккаунтами(опция Use Accounts)
  • При парсинге рекламы в
    se-google.png
    SE::Google теперь дополнительно можно вывести позицию рекламного блока(сверху или справа), а также номер страницы выдачи, на котором показано рекламное объявление
Исправления
  • Исправлено отображение русских имен файлов запросов и результатов на ОС Linux
  • Исправлено определение ТИц в парсере
    se-yandex-tic.png
    SE::Yandex::TIC
  • Исправлено распознавание каптчи в регистраторе аккаунтов Яндекса
    se-yandex-register.png
    SE::Yandex::Register в связи с изменением в выдачи
  • Исправлена работа с заблокированными аккаунтами в парсере
    se-yandex-wordstat.png
    SE::Yandex::WordStat
 
Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте

Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Определяем CMS для 1000000 доменов за 15 часов

В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа

e273J.png


Немного статистики:
  • Скорость парсинга составила 1100 доменов в минуту
  • Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
  • Определено 126 различных CMS
  • Топ 10 самых популярных CMS, первое значение определяет количество доменов:
Код:
Развернуть Свернуть Копировать
209855 WordPress
23732 Joomla
22945 Drupal
6488 TYPO3 CMS
4917 vBulletin
3726 1C-Bitrix
2515 phpBB
2415 ExpressionEngine
2022 DataLife Engine
1928 Microsoft SharePoint

Читать целиком »

Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
Проверяем словарь Даля на частотность запросов в Яндексе используя парсер
se-yandex-wordstat.png
SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата

Немного статистики:
  • Парсинг 115390 ключевых слов занял всего 40 минут
  • 80208 слов из 115390 имеют ненулевую статистику в Вордстате
  • Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
  • Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц
Читать целиком »

Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
В примере показывается как с помощью парсера
net-http.png
Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake :-)
Пример разделен на 2 части:
  • Сбор ссылок на анкеты из результатов поиска
  • Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"
В результате получаем файл с примерно следующим содержимым:
Код:
Развернуть Свернуть Копировать
http://vk.com/id1492 - none - none - none
http://vk.com/id1485 - п. Сиверский - всё сложно - заходил 15 сентября в 1:34
http://vk.com/id1489 - Ленинград - none - Online
http://vk.com/id1481 - Санкт-Петербург - none - заходила 48 минут назад
http://vk.com/id1482 - град Поднебесный - не женат - Online
http://vk.com/id1493 - none - none - none

Читать целиком »
 
A-Parser - версия 1.1.86 - поддержка многоядерной обработки и фильтрации результатов

В данной версии добавлена поддержка обработки и фильтрации результатов(Parse custom result, Конструкторы результатов и фильтры) на многоядерных процессорах, что в несколько раз увеличивает скорость парсинга при использовании "тяжелых" регулярных выражений, например скорость сбора email адресов со страниц достигает 10000 ссылок в минуту при 2000 потоках(при этом A-Parser обрабатывает поток 130 мбит\с gzip-сжатых данных)

Другие улучшения
  • Добавлена возможность указать сразу несколько форматов для запроса, что позволяет комбинировать множество вариантов подстановок для одних и тех же запросов в одном задании
  • Добавлена возможность использовать формат запроса на всех уровнях вложенного парсинга, например при парсинге ключевых слов с подсказок Google подстановки будут добавляться так же и для новых найденных ключевых слов(как и для исходных запросов)
  • Для парсера
    se-yandex.png
    SE::Yandex добавлена возможность парсить не персонализированную выдачу, что позволяет более точно снимать позиции сайтов
  • В парсере
    net-http.png
    Net::HTTP опция Check next page теперь поддерживает захват следующей ссылки для перехода, она будет использоваться если не указана опция Use pages
Исправления
  • В некоторых случаях могли неверно обрабатываться страницы большого размера с сжатием gzip
  • Парсер
    net-whois.png
    Net::Whois не работал без использования прокси, ошибка появилась в предыдущей версии
  • В конструкторе результатов, при использовании замены по регулярному выражению, некорректно обрабатывалась замена переменных $1 $2...
  • Парсер мог упасть при использовании одинаковой базы Keep unique в двух одновременно работающих заданиях
 
A-Parser - 1.1.108 - улучшения паука сбора ссылок, множество исправлений

Улучшения парсера
html-linkextractor.png
HTML::LinkExtractor

  • Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
  • Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
  • Добавлена корректная обработка тега <base href=
Другие улучшения
  • Теперь парсер автоматически определяет кодировку по содержимому страницы, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
  • При парсинге рекламы в
    se-google.png
    SE::Google теперь дополнительно парсится видимая ссылка на сайт
Исправления
  • Исправлен парсер
    se-yandex.png
    SE::Yandex в связи с изменением в выдачи
  • На платформе Windows при закрытии приложения парсера возникала ошибка
  • В парсере
    net-whois.png
    Net::Whois не был доступен исходный результат $data для пользовательской обработки
  • В парсере
    se-yandex.png
    SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
  • Результат $query мог быть изменен некоторыми парсерами
  • Парсер
    rank-opensiteexplorer.png
    Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
  • Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
  • При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки
 
Чем он круче Content Downloader?
 
Сборник рецептов #2: собираем форумы для (другой софт), парсим email со страниц контактов

Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Парсим базу для (другой софт): 420000 форумов за 9 часов

Учимся быстро собирать большие базы методом перебора

p7pOr.png


За 9 часов работы:
  • Было обработано 525254 запроса на максимальную глубину
  • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
  • Средняя скорость парсинга составила 1000 запросов в минуту
Собираем 1.65 миллиона email со страниц контактов за 2.5 часа

Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса

JVdOG.png


  • Средняя скорость обработки составила 12000 ссылок в минуту
  • ТОП-10 почтовых доменов:
Код:
Развернуть Свернуть Копировать
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net


Сбор перелинкованных топиков

Метод описывает как используя возможности парсера
html-linkextractor.png
HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для (другой софт)

Алгоритм работы:
  • Переходим только по внешним ссылкам
  • Фильтруем ссылки для перехода по признакам форумов
  • Добавляем уникализацию по домену
  • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся

Парсинг форумов по признакам и запросам

Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену

Предыдущие рецепты:
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)