A-Parser - продвинутый парсер поисковых систем, WordStat, YouTube, Suggest, PR, etc

  • Автор темы Автор темы Forbidden
  • Дата начала Дата начала
A-Parser - версия 1.1.135 - множество улучшений и исправлений в связи с изменениями в выдачи

Улучшения
  • Теперь парсер-паук для сбора ссылок
    html-linkextractor.png
    HTML::LinkExtractor основывается на парсере
    net-http.png
    Net::HTTP и поддерживает все его возможности и опции, включая работу с Cookies
  • В парсер
    se-google.png
    SE::Google добавлена возможность подставлять в запросы найденные Related keywords, что позволяет собрать большую базу тематических ключевых слов, которая будет сильно отличаться от подсказок
  • Добавлена возможность выбора текущего пресета для прокси-чекера через API
  • В парсере
    se-google.png
    SE::Google добавлен обход лишнего редиректа на HTTPS
  • Улучшена скорость обработки HTTPS запросов на некоторых сайтах, затрагивает парсер
    se-yandex-wordstat.png
    SE::Yandex::WordStat
  • На ОС Windows x64 парсер может использовать до 3Гб оперативной памяти
  • В интерфейсе добавления заданий появилась возможность сворачивать настройки парсеров
  • Улучшен импорт пресетов: теперь при совпадении названий пресетов настроек парсеров пользователю будет предложено заменить пресет или создать новый с другим именем
Исправления
  • В парсере
    net-http.png
    Net::HTTP исправлена медленная обработка запросов при одновременном использовании опции Emulate browser headers и методе HEAD
  • Исправлена проблема с запуском парсера на некоторых версиях Windows
  • В парсере
    se-google.png
    SE::Google исправлена обработка запросов с нулевым результатом, в связи с изменением в выдачи
  • В парсере
    se-yahoo.png
    SE::Yahoo исправлена работа с региональными доменами, в связи с изменением в выдачи
  • Исправлена ошибка в парсере
    se-google.png
    SE::Google при которой парсер мог вылетать если использовалась опция Location
  • Исправлена ошибка в интерфейсе добавления Конструкторов результата, при которой в списке результатов могли появляться лишние элементы
  • Парсер
    se-baidu.png
    SE::Baidu исправлен в связи с изменением в выдачи
  • В парсере
    se-youtube.png
    SE::YouTube исправлен парсинг общего числа результатов, в связи с изменением в выдачи
  • Неудачные запросы сохранялись в неверной кодировке
  • Исправлена работа опции Raw data results
  • В парсере SE::Google исправлена работа опции Parse not found, в связи с изменением в выдачи
  • В парсере SE::Yandex исправлен парсинг Related keywords, в связи с изменением в выдачи
  • Исправлена работа с доменами в зоне .be для парсера Net::Whois
  • Парсер SE::Yahoo исправлен в связи с изменением в выдачи
  • В парсере SE::Yandex исправлена обработка времени кэширования страниц для некоторых форматов дат
  • В API исправлен метод getTaskResultsFile, в некоторых случаях IP адрес сервера заменялся IP адресом клиента
 
Парсер — парсеру рознь!

Скажу честно – вы не найдете во всем интернете парсер, который будет превосходить A-parser по скорости, многообразии обрабатываемых сайтов, и его универсальности!

Его плюсы:

- Собственный чекер прокси.

1. Редко пропускает рабочие прокси, если у вас хороший интернет и мощное железо (железо для большого кол — во потоков).
2. Очень большая многопоточность (на момент покупки а-парсера, я работал с паблик прокси, которые собирал 10 дней по всему буржнету (Китай, Индия, Usa и.т.д). Общее кол — во всех прокси достигало выборки в 500к. Благодаря этому.. я успевал их обрабатывать менее чем за час и мог парсить гугл без покупных прокси-серверов.

- Большая база ресурсов для парсинга.

1. Единственный парсер, где собрана такая громадная база обрабатываемых ресурсов.
2. Нету таких чекеров-парсеров, которые созданы лишь для видимости и потом не поддерживаются разработчиком. Каждый найдет для себя что-то (от дорвейщика до белого seo-вебмастера).
3. Большой плюс а — парсера, что он позволяет комбинировать результаты своего парсинга.
Например:
Pr, Тиц, кол — во страниц в яше, кол — во страниц в гугл, Alex, частотность по вордстату (любая комбинация по вашему желанию).

- Много полезных фич

1.SE::Yandex::Register — Регистрирует аккаунты в Yandex
2. Rank::CMS — Определение 187 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков
3. Rank::Category: — Автоматически определяет категорию сайта на английском языке
4. SE::Bing::Translator — Переводчик текста через сервис www.bing.com/translator/
5. Check::BackLink — Проверяет нахождение обратной ссылки(ссылок) по базе сайтов

- Скорость парсинга

Если мне нужна по настоящему отпрасить большое кол — во данных и быстро, то я отбрасываю зенку и беру только A-парсер.

Мои результаты:

- За 7 дней чекнуть более 148 мл.доменов на опр.признак.
- Спарсить более 100000 разных комбинация в гугле за несколько часов и с минимальным % бана прокси (другие парсеры быстрее убивают прокси).
- Чекнуть на тиц, pr, alex, dmoz, более 15 миллионов сайтов за 2 дня. (использовалось 5000 покупных прокси с ботнетов)
- Спарсить более 2 миллионов кеев через вордстат и директ за день.

- Собираем свой парсер

Можно также написать свой собственный парсер [только для опытных юзеров]

Например: чекер лайвинтернета или парсинг Google play. Также можно собирать свои чекеры cms по собранными вами фунтпривами.
 
  • Спасибо
Реакции: Andrew Shell и alekwuy
A-Parser - 1.1.162 - новые парсеры Seznam и подсказок AOL, уменьшено потребление памяти на 40%

Улучшения
  • se-seznam.png
    SE::Seznam - парсер чешской поисковой системы seznam.cz
  • se-aol-suggest.png
    SE::AOL::Suggest - парсер подсказок с поисковой системы AOL
  • Уменьшено начальное потребление памяти на 40%
  • В парсере
    net-http.png
    Net::HTTP добавлена возможность указать произвольные заголовки запроса, с поддержкой возможностей шаблонизатора
  • Добавлена опция позволяющая сохранять параметры окна интерфейса A-Parser
  • Добавлена возможность пропускать обновления на определенную версию
  • Улучшено отображение интерфейса при изменении размеров окна и растягивании на весь экран
  • Добавлен параметр командной строки -nofork позволяющий отключить многоядерную обработку результатов
Исправления
  • Исправлено отображение текущий версии A-Parser для пользователей Lite версии
  • Исправлена работа тестового парсинга с некоторыми ресурсами
  • Исправлен парсер
    rank-ahrefs.png
    Rank::Ahrefs в связи с изменением в выдаче
  • Исправлена работа опции Use pages для парсера
    net-http.png
    Net::HTTP при использовании перебора запросов
 
A-Parser - 1.1.177 - Новый модуль SEO::Ping и парсер Rank::Mustat, улучшения в интерфейсе

Улучшения
  • Новый модуль
    seo-ping.png
    SEO::Ping - массовая отправка Ping запросов в сервисы поддерживающие Weblog API(Google Blog Search, Feed Burner, Ping-o-Matic и т.п.)
  • Новый парсер
    rank-mustat.png
    Rank::Mustat - оценка трафика на сайте, также стоимость и рейтинг домена
  • Для парсера
    net-whois.png
    Net::Whois добавлена возможность вручную указать адрес whois-сервера
  • В поле Additional headers парсера
    net-http.png
    Net::HTTP теперь возможно использовать переменные из конструктора запросов
  • Добавлена опция позволяющая перезаписывать файл результата
  • Добавлена возможность поиска пресета задания по названию
  • Автоматическая прокрутка к выбранному элементу во всех списках в интерфейсе парсера
  • В очереди заданий теперь отображаются названия пресетов

Исправления
  • Парсер
    rank-ahrefs.png
    Rank::Ahrefs исправлен в связи с изменением в выдачи
  • Исправлен вывод Raw results для парсера
    net-whois.png
    Net::Whois
  • Исправлен вывод порядкового номера запроса $query.num
  • Исправлена работа метода API bulkRequest
 
Всем привет)
Давненько уже пользуюсь a-parserom, и причем - доволен как слон!
Отличнейший комбайн для сеошников и дорвейщиков и всех тех кто как то связан с заработком/анализом работы в интернете.
Куча готовых решений на форуме и офигенная поддержка 24/7.
Короче - парсит/проверяет все что только можно. Ваша задача - составить задание и идти пить кофе)))
и также рекомендую прокси которые продаются в proxy-shop Forbiddena - взяв 100 потоков, я отчекал примерно 2 ляма кеев за 5 дней, не считая того, что спрасилась большая база для хрума, куча рус и енг текстовки с чисткой от тегов и прочего мусора!
Берите и не пожалеете!
 
А демка этого парсера есть где-то? Все хвалят, а потыкать не могу найти где.
 
Слишком дорогой софт, да ещё без возможности демонстрации, не гуманно однако.
 
  • Спасибо
Реакции: codeby
Слишком дорогой софт, да ещё без возможности демонстрации, не гуманно однако.
После активного пользования, цена кажется бросовой, кто энергично юзает подтвердит :-)
 
  • Спасибо
Реакции: Forbidden
После активного пользования, цена кажется бросовой, кто энергично юзает подтвердит :-)
согласен, но в любом случае демо урезанная дала бы понимание его работы
например зенку я так и купил, пока не "пощупал".

до этого её все хвалили, но на словах непонятно было какую лицуху брать и что с ней делать, а после демки и тестовых шабов стало всё на свои места.
 
Демо планируется, онлайн на наших серверах
 
A-Parser - 1.1.200 - возможность добавлять запросы на основе результатов парсинга, множество исправлений


Улучшения

  • Добавлена возможность добавлять новые запросы на основе результатов парсинга, что позволяет составлять более продвинутые пресеты по сбору данных
  • Парсер
    google-images.png
    SE::Google::Images теперь парсит без https
  • Добавлена возможность ограничить максимальное число соединений на один прокси сервер
  • В API добавлена возможность удалять файл результата
  • Обновлен Perl модуль по работе с API AParser.pm
  • В Конструкторе результатов теперь автоматически подставляются имена результирующих переменных
  • Добавлена возможность использовать запрос $query в настройке Extra query string

Исправления

  • В парсере
    se-yandex.png
    SE::Yandex исправлена обработка каптчи, переход по страницам и парсинг времени кэширования, в связи с изменением в выдачи
  • Исправлена возможность сохранять бинарные данные(скачивать картинки, видео, документы...)
  • Исправлен вывод запроса после форматирования для конкретного парсера, используя конструкцию $p1.query.query
  • Исправлена кодировка при сохранении неудачных запросов
  • Исправлена ошибка, при которой задания могли не удалятся из очереди
  • Исправлена кодировка в именах файлов результатов
  • В парсере
    html-linkextractor.png
    HTML::LinkExtractor исправлена работа при переходе одновременно по внутренним и внешним ссылкам
  • При использовании нескольких парсеров и опции Parse to level в некоторых случаях могли накапливаться запросы что приводило к утечке памяти
  • Исправлен вылет парсера при использовании некоторых регулярных выражений
  • Исправлена обработка относительных путей в парсере
    net-http.png
    Net::HTTP при использовании опции Next Page Regex
  • Исправлен парсинг количества результатов в парсере
    se-google.png
    SE::Google при использовании арабской локализации
  • Исправлена блокировка файла после завершения задачи при использовании нескольких файлов результатов
  • Исправлен парсер
    rank-ahrefs.png
    Rank::Ahrefs в связи с изменением в выдачи
  • Исправлена ошибка работы с исходным кодом страницы в парсере
    se-google.png
    SE::Google
 
A-Parser - 1.1.200 - возможность добавлять запросы на основе результатов парсинга, множество исправлений


Улучшения

  • Добавлена возможность добавлять новые запросы на основе результатов парсинга, что позволяет составлять более продвинутые пресеты по сбору данных
  • Парсер
    google-images.png
    SE::Google::Images теперь парсит без https
  • Добавлена возможность ограничить максимальное число соединений на один прокси сервер
  • В API добавлена возможность удалять файл результата
  • Обновлен Perl модуль по работе с API AParser.pm
  • В Конструкторе результатов теперь автоматически подставляются имена результирующих переменных
  • Добавлена возможность использовать запрос $query в настройке Extra query string

Исправления

  • В парсере
    se-yandex.png
    SE::Yandex исправлена обработка каптчи, переход по страницам и парсинг времени кэширования, в связи с изменением в выдачи
  • Исправлена возможность сохранять бинарные данные(скачивать картинки, видео, документы...)
  • Исправлен вывод запроса после форматирования для конкретного парсера, используя конструкцию $p1.query.query
  • Исправлена кодировка при сохранении неудачных запросов
  • Исправлена ошибка, при которой задания могли не удалятся из очереди
  • Исправлена кодировка в именах файлов результатов
  • В парсере
    html-linkextractor.png
    HTML::LinkExtractor исправлена работа при переходе одновременно по внутренним и внешним ссылкам
  • При использовании нескольких парсеров и опции Parse to level в некоторых случаях могли накапливаться запросы что приводило к утечке памяти
  • Исправлен вылет парсера при использовании некоторых регулярных выражений
  • Исправлена обработка относительных путей в парсере
    net-http.png
    Net::HTTP при использовании опции Next Page Regex
  • Исправлен парсинг количества результатов в парсере
    se-google.png
    SE::Google при использовании арабской локализации
  • Исправлена блокировка файла после завершения задачи при использовании нескольких файлов результатов
  • Исправлен парсер
    rank-ahrefs.png
    Rank::Ahrefs в связи с изменением в выдачи
  • Исправлена ошибка работы с исходным кодом страницы в парсере
    se-google.png
    SE::Google
 
  • Спасибо
Реакции: 7make
Демо версия A-Parser

Рады представить онлайн демо версию A-Parser, в которой можно ознакомиться со всеми возможностями перед покупкой парсера или перед переходом на новую версию

Демо версия предоставляет доступ к A-Parser установленному на нашем сервере, период тестирования - 6 часов, по истечению этого времени все настройки автоматически будут сброшены

Ограничения демо версии:
  • Результаты парсинга не доступны для загрузки
  • Максимальное число потоков - 100
  • Парсинг возможен только с использованием прокси
 
A-Parser - 1.1.224 - улучшенные возможности по уникализации результатов, множество исправлений

Все возможности новой версии можно протестировать в демо версии A-Parser

Улучшения

  • Добавлена возможность уникализировать результаты созданные с помощью Конструктора результатов
  • Добавлена возможность передавать дополнительные параметры на сервис распознавания каптчи(например специальные настройки для CapMonster)
  • В парсер
    se-bing-images.png
    SE::Bing::Images добавлена возможность отключить безопасный поиск
  • В парсер
    se-youtube.png
    SE::YouTube добавлен фильтр по 4K видео
  • Добавлена возможность применять Конструктор запросов после подстановок запросов
  • В парсер
    se-bing.png
    SE::Bing добавлена возможность парсить связанные кейворды в глубину, автоматически подставляя новые кейворды в запросы(Parse to level)
  • Переработан выбор файлов запросов, теперь вложенные директории отображаются только при клике по ним

Исправления в связи с изменениями в выдачи

  • Исправлен парсер
    se-yandex-wordstat.png
    SE::Yandex::WordStat
  • Исправлен парсер
    se-yahoo.png
    SE::Yahoo
  • Исправлен парсер
    se-aol.png
    SE::AOL
  • Исправлен парсинг связанных ключевых слов в парсере
    se-bing.png
    SE::Bing
  • Исправлен парсинг времени последнего кэширования страницы в парсере
    se-yandex.png
    SE::Yandex
  • Исправлен регистратор аккаунтов
    se-yandex-register.png
    SE::Yandex::Register
  • Исправлен парсинг связанных ключевых слов в парсере
    se-yandex.png
    SE::Yandex


Исправления

  • Некорректно работала опция сохранения переноса строк для Windows (CRLF)
  • Иногда задание могло зависнуть в состоянии pausing/stopping
 
Софт своих денег стоит - адназначна! НИ разу не пожалел что взял, немного разобраться в инструментах и реально можно справляться с неимоверным количеством задач.
Насчет триал версии. Я думаю, что это тот случай, когда можно положиться на чужое мнение. Лично себе покупал исключительно после прочтения обзоров софта.
По поводу работы с прокси. Многие советуют покупать дорогие. Несомненно это сказывается на качестве и скорости парсинга. Но. За неимением горничной, как говориться, брал и недорогие. При этом результаты по скорости и качеству были вполне приемлемыми.
 
A-Parser - 1.1.247 - новые парсеры поисковиков Ask и Comcast, произвольные шаблоны в конструкторе результатов

Улучшения

  • В конструкторе результатов и фильтрах теперь возможно использовать произвольный шаблон в качестве аргумента для преобразования или фильтрации
  • В парсер
    se-yandex.png
    SE::Yandex добавлена возможность выбора домена yandex.com для парсинга
  • Добавлен новый поисковик
    se-ask.png
    SE::Ask с американской выдачей Google
  • Добавлен новый поисковик
    se-comcast.png
    SE::Comcast с американской выдачей Google
  • Добавлена статистика для завершенных заданий, а также отображение общего времени выполнения задания
  • Добавлен объект $request, который доступен при форматировании результата и позволяет извлечь любую информацию о текущем запросе, а также о всех редиректах выполненных перед конечным запросом
Исправления

  • Парсер мог заблокировать файл результата после завершения задания
  • Исправлена некорректная обработка <base href= в некоторых случаях
  • Парсер вылетал при использовании инструмента генерации произвольного User-Agent tools.ua.random() в тестовом парсинге
  • В быстром задании не работал выбор запросов из файла
  • Некорректно обрабатывался редирект с автоматическим выбором схемы(ссылки вида //domain.com/)

Исправления в связи с изменениями в выдачи

  • В парсере
    rank-alexa.png
    Rank::Alexa исправлен парсинг страны и регионального рейтинга
  • Улучшен парсинг тИЦ в парсере
    se-yandex-tic.png
    SE::Yandex::TIC
  • Исправлен парсер
    se-yahoo.png
    SE::Yahoo
  • Исправлено определение блокировки IP-адреса в парсере
    rank-ahrefs.png
    Rank::Ahrefs
  • Исправлен парсер
    se-yandex-wordstat-bydate.png
    SE::Yandex::WordStat::ByDate
  • Парсер
    rank-category.png
    Rank::Category перешел на семантический анализатор от Ашманова
 
Программа LinkAParser - объединение функционала генератора PandoraBox и парсера A-Parser

С помощью данного софта задействованы основные возможности парсера A-Parser при генерации сайтов программой PandoraBox.

Обсуждение на форуме A-Parser'а и ссылка на сайт генератора

Применяет возможности А-Парсера для:
  • Парсинга релевантного текста
  • Парсинга релевантных картинок
  • Парсинга релевантных видео роликов

Понимает какие ключи уже обработаны и не парсит одно и тоже дважды
С программой идут готовые пресеты, которые достаточно импортировать и можно запускать генерацию
Спаршенные данные программа структурировано раскладывает в файлы и папки
Спаршенный текст программа чистит от мусора по множеству признаков

В комплекте с программой идет набор дополнительных макросов:
  • Макрос вывода релевантного текста с подмешанными ключами
  • Макрос вывода релевантного текста без ключей
  • Макрос вывода релевантной картинки
  • Макрос вывода релевантной картинки как локальной(проксирование скриптом)
  • Макрос вывода релевантного видео ролика
Для работы необходима лицензия парсера A-Parser Enterprise
 
Супер софт) Многие проблемы отпали после приобретения!
 
  • Спасибо
Реакции: lexone
Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Итак, продолжаем серию статей с рецептами применения A-parser: комплексные примеры с одновременным использованием различного функционала парсера.

Проверяем наличие мобильной версии для 1000000 сайтов

Работаем с большими объемами данных и учимся искать совпадения в raw data.
WHXyV.png

  • за 8 часов работы данного задания мы узнали что почти 41% самых посещаемых сайтов не имеют мобильных версий. Кто знает, возможно обзаведясь мобильной версией, они стали бы еще более посещаемыми?

По списку запросов получаем страницы, CMS, PR, e-mail из whois

Комплексное задание, выполняемое в 2 этапа, в котором мы учимся работать с несколькими парсерами, регулярными выражениями, а также красиво выводим результаты во многоуровневые каталоги и несколько файлов.
mtDTQ.png

  • на первом этапе используется 1 парсер, на втором - 3
  • в конструкторе результатов используется регулярное выражения для извлечения необходимой информации
  • результаты выводятся в виде вложенных папок и текстовых файлов по следующей схеме:
Код:
Развернуть Свернуть Копировать
PR_1
     \Joomla
           \domain.com
                   contacts.txt
                   cache.txt
      \Drupal
      \WordPress
     \no CMS
PR_2
PR_3

Узнать позиции по кеям, как?

Знакомимся с парсером
se-google-position.png
SE::Google::Position и проверяем на каком месте в поисковой выдачи находится ключевое слово.
fKb8T.png


Детальнее о самом парсере здесь.

Предыдущие сборники:
 
Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Очередной, 4-й выпуск сборника рецептов. Поехали!

Анализ выдачи гугла на наличие ключа в тайтле и дескрипшене

Пользуемся возможностями шаблонизатора Template Toolkit. Используем циклы и поиск. А также сохраняем разные результаты в разные файлы.
dq37k.png

В данном примере осуществляется поиск ключа в анкорах и сниппетах, и в зависимости от результата, сохраняет их в 1 из 3 соответствующих файлов. Все подробности, а также сохранение в 4-ре файла по ссылке выше.

Парсинг товаров с сайта

Парсим интернет-магазин и формируем свою HTML-страницу с результатами.
iIqXK.png

Суть задания заключается в том, чтобы спарсить названия и характеристики товара из интернет-магазина, сохранив привязку к категории и фото товара. Как все это сделать - по ссылке выше.

Скачиваем файлы

Сохраняем на жесткий диск различные документы из поисковой выдачи, с определением их типа, а также возможностью формировать уникальное имя файла.
LQIab.png

Ну а здесь нам необходимо парсить из выдачи Гугла ссылки на документы формата doc, xls и pdf. Так же необходимо скачивать данные документы, при этом обеспечить уникальность имени файла. Детали - по ссылке выше.

Предыдущие сборники:
 
Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта

5-й выпуск сборника рецептов. Здесь мы научимся парсить ссылки из страниц, где их подгружает JS-скрипт, будем собирать паблик прокси и составлять карту сайта.

Подгрузка ссылок через JS
Есть очень много сайтов, где контент загружается специальным скриптом (AJAX). К примеру, это может быть поиск на сайте. И как спарсить с таких сайтов информацию? Ведь если посмотреть код страницы в браузере - то, к примеру, ссылки там есть, а парсер их не видит... Решение есть, и оно довольно не сложное. Как это сделать - по ссылке выше.
u5aRe.png


Сборщик паблик прокси: как лучше и насколько это эффективно
Всем известно, что в интернете есть очень много сайтов, где выкладывают публичные прокси (что это на Википедии). Если возникает необходимость в использовании таких прокси - появляется проблема в их сборе, при этом, естественно нужны только живые. Наверное так же известно, что используя А-парсер, можно их собирать. А вот как это делать и насколько это эффективно - читайте по ссылке выше.
5blGo.jpeg


Карта сайта с помощью A-parser
Карта сайта простыми словами - это XML-файл, который помогает поисковикам лучше индексировать сайт. Некоторые SEOшники считают ее отсутствие грубейшей ошибкой. Существует очень много сервисов и инструментов для создания таких карт, ну а мы попробуем создать ее с помощью A-parser. Что из этого получится, и как это делать - читайте по ссылке выше.
Do5Tj.png


Предыдущие сборники:
 
Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво

6-й выпуск сборника рецептов. Здесь мы попробуем собирать скрытые номера мобильных телефонов из доски объявлений и научимся сохранять результаты работы А-парсера в таблицы с возможностью сортировки.

Парсим базу мобильных телефонов
Базы телефонов могут использоваться по-разному, но основной вид их использования - рассылка смс рекламного характера. А если базу еще и возможно отсортировать по городу, интересу или другим характеристикам, т.е. сделать таргетированную рассылку, то эффективность сильно возрастает. Подобные базы собираются разными способами, мы же поговорим о том, как это сделать с помощью А-парсера.
nS4dz.png


Вывод результатов в таблицу
Бывает, возникает необходимость в красивом и удобном выводе данных, полученных в результате парсинга. И если обычного текстового вида недостаточно, нужно искать другие способы вывода. Об одном таком способе и пойдет речь в статье по ссылке выше.
cGb8L.jpeg



Предыдущие сборники:
 
  • Спасибо
Реакции: lexone
A-Parser - версия 1.1.269 - получение списка задач по API, только мобильные для WordStat

Два месяца у нас работает профессиональный саппорт, который помогает составлять задания любой степени сложности. Доработана документация, регулярно появляются интересные решения на нашем форуме, которые теперь собраны в едином Каталоге примеров. Также создан большой FAQ, в котором собраны ответы на часто задаваемые вопросы.

Версия 1.1.269 является одной из последних в ветке 1.1.х, в скором времени будет доступна бета версия 1.2, которая принесет новый виток развития A-Parser, следите за новостями

Улучшения

  • Теперь по API можно получить список активных заданий, а также опционально список завершенных заданий
  • Для парсера
    se-yandex-wordstat.png
    SE::Yandex::WordStat добавлена возможность получать статистику только для мобильного трафика
  • В парсере
    html-linkextractor.png
    HTML::LinkExtractor теперь обрабатываются только http(s) ссылки
  • При использовании автоопределения языка в парсере
    se-bing-translator.png
    SE::Bing::Translator теперь можно вывести в результат язык исходного текста

Исправления в связи с изменениями в выдачи

  • Исправлен парсер
    se-youtube.png
    SE::YouTube
  • Исправлен парсер
    rank-majesticseo.png
    Rank::MajesticSEO
  • Исправлен парсер
    se-ask.png
    SE::Ask
  • Исправлен парсер
    se-yandex.png
    SE::Yandex
  • Исправлен парсер
    rank-ahrefs.png
    Rank::Ahrefs
  • Исправлен парсинг рекламных объявлений в
    se-google.png
    SE::Google
  • Исправлен парсер
    rank-archive.png
    Rank::Archive

Исправления


  • В парсере
    se-bing-translator.png
    SE::Bing::Translator исправлен парсинг арабского языка
  • Парсер
    net-dns.png
    Net:: DNS не поддерживал кириллические домены
  • Исправлен парсинг подсказок в парсер
    se-google.png
    SE::Google при использовании подстановок
  • Парсер
    se-yahoo.png
    SE::Yahoo использовал много CPU
 
Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

7-й выпуск сборника рецептов. Здесь мы рассмотрим вариант парсинга RSS, будем скачивать картинки в зависимости от их характеристик и научимся фильтровать результат по хедерам.

Парсинг RSS
На сегодняшний день RSS остаются довольно популярным вариантом доставки новостей и контента пользователям. В связи с этим его используют почти на всех сайтах, где бывает более-менее периодическое обновление информации. А для нас это возможность быстро спарсить свежие обновления сайта, не анализируя сам сайт. И один из способов, как это сделать описан по ссылке выше.
PVVNZ.png


Как фильтровать результат по определенным хедерам?
Как известно, А-парсер предназначен для парсинга, в основном, текстовой информации. Но кроме этого им вполне реально парсить и другие обьекты (файлы, картинки и т.п.). При этом существует возможность фильтровать их по заголовкам ответа сервера. Об этом по ссылке выше.
v9C3l.png


Скачивание картинок указанного разрешения и размера
Если выше мы фильтровали результат только по хедерам и рассматривали вариант с документами, то в данной статье мы будем скачивать картинки и фильтровать их по размеру и разрешению. Как это сделать - можно увидеть по ссылке выше.
n58ds.png


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:

 
  • Спасибо
Реакции: limoshkaa
Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

8-й выпуск сборника рецептов. В нем мы будем парсить базу организаций из каталога 2GIS, научимся парсить подсказки из Youtube и напишем кастомный парсер Google translate.

Парсинг 2GIS
2GIS - это довольно большой справочник организаций России (и не только...) с возможностью просмотра их расположения на карте. База содержит более 1580000 организаций в 270 городах России. После парсинга представляет интерес как справочник сайтов, электронных адресов и телефонов организаций.
dgCZZ.png


Парсинг Google Translate
В данной статье рассмотрен способ написания кастомного парсера Google translate на основе
net-http.png
Net::HTTP. Также реализована возможность задавать направление перевода. Можно использовать для пакетного перевода больших обьемов текста.
mpitC.png


Парсинг подсказок Youtube
Парсинг подсказок поисковых систем - довольно популярный способ поиска ключевых слов. В данной статье также используется
net-http.png
Net::HTTP, с помощью которого создается кастомный парсер подсказок Youtube. Реализована возможность задавать язык и страну, а также использовать уже спаршенные подсказки в качестве новых запросов на нужную глубину.
3reXU.png


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:

 
Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

9-й выпуск Сборника рецептов. В нем мы будем работать с ключевыми словами: проверять их сезонность и искать свободные ниши в рунете, проверяя "полезность" ключевиков.

Определение сезонности ключевых слов через Wordstat
Использование нужных ключевых слов в нужное время - один из способов привлечения дополнительного трафика на сайт. Для определения сезонности ключевых слов существует немало различных способов и сервисов. О том, как это делать с помощью А-Парсера - читайте по ссылке выше.
BUR2G.png


Поиск свободных ниш в RU сегменте интернета
Используя на сайте не только сезонные, а и "полезные" ключевые слова, можно значительно повысить шансы попасть в ТОП10 поисковиков. И если о сезонности мы писали ранее, то о "полезности", а точнее о "незанятости" ключевых слов мы поговорим в данной статье. Полезные или незанятые - это такие КС, которые пользователи часто ищут, но конкуренция по которым не очень высокая. Как их искать - читайте по ссылке выше.
cXyrn.png


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:
 
  • Спасибо
Реакции: Bot_Sculptor
A-Parser - 1.1.292 - парсинг JSON, улучшения использования памяти, множество исправлений

Улучшения
  • Поддержка разбора JSON структур в шаблонизаторе
  • Добавлена опция "Конструктор запросов на всех уровнях", позволяющая использовать конструктор запросов на всех уровнях вложенного парсинга
  • При просмотре статистики работы задания теперь отображается общее число HTTP запросов
  • Новый инструмент отладки Gladiator, позволяющий быстро локализовать возможные утечки памяти
Исправления в связи с изменениями в выдачи
  • Исправлено определение наличия каптчи на этапе логина в парсере
    se-yandex-wordstat.png
    SE::Yandex::WordStat
  • Полностью переработан
    rank-ahrefs.png
    Rank::Ahrefs
  • Исправлен парсинг времени кэширования в
    se-yandex.png
    SE::Yandex
  • Исправлен
    se-google-images.png
    SE::Google::Images
  • Исправлен
    se-bing.png
    SE::Bing
  • Исправлен
    se-yahoo-suggest.png
    SE::Yahoo::Suggest
  • Исправлен
    se-aol.png
    SE::AOL
Исправления
  • Исправлен парсер
    se-yandex-tic.png
    SE::Yandex::TIC - ресурсы у которых тИЦ был неопределен отображались как тИЦ = 0, исправлено на тИЦ = -1
  • Исправлено множество утечек памяти
  • При замене в регулярных выражениях не работал символ переноса \n
  • При использовании большого числа переменных в конструкторе запросов или результатов они могли не влезать в видимую область
 
  • Спасибо
Реакции: 7make
Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

10-й выпуск Сборника рецептов. В нем мы сделаем кастомный парсер поисковика search.disconnect.me и научимся парсить категории из сайтов с сохранением иерархии и путей к ним.

Парсер search.disconnect.me или альтернатива inurl Google
В одном из сообщений на форуме был упомянут довольно интересный сервис search.disconnect.me. Также в последнее время все чаще стали появляться сообщения о проблемах при парсинге Гугла с поисковыми операторами. А так как вышеупомянутый сервис позволяет парсить Гугл, при этом не выдавая каптч и без бана прокси, можно попробовать сделать для него парсер на основе [parser]Net::HTTP[/parser]. Что из этого получилось - можно посмотреть по ссылке выше.

6VNYu.png


Парсинг дерева категорий с сохранением структуры
В версии 1.1.292 появилась новая опция Query Builders on all levels. С ее помощью можно регулировать, когда применять Конструктор запросов при парсинге "в глубину". И благодаря этой опции стало возможным парсить дерево категорий из сайтов с сохранением структуры. Как это работает - можно посмотреть по ссылке выше.
XJ2E4.png


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)