A-Parser - продвинутый парсер поисковых систем, WordStat, YouTube, Suggest, PR, etc

tatarin

Client
Регистрация
28.10.2012
Сообщения
805
Благодарностей
137
Баллы
43
Сделайте распродажу вашено софта что ли:-)
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.323 - парсинг с помощью XPath, поддержка JavaScript в шаблонизаторе, тестировщик заданий

Улучшения
  • Добавлен новый Тестировщик заданий, позволяющий тестировать все задание целиком, включая использование нескольких парсеров, конструкторов запросов и результатов. Тестировщик позволяет просматривать результаты по каждому созданному файлу, а также отображает логи выполнения по каждому запросу
  • Для парсера
    Net::Whois добавлена опция Recursive query, которая позволяет получать расширенную версию WHOIS(контактные email адреса и т.п.)
  • Добавлена поддержка XPath запросов, сильно упрощающая разбор HTML документов
  • Добавлен новый инструмент tools.js, позволяющий исполнять JavaScript из шаблонизатора, теперь помимо возможности использовать JavaScript для обработки и вывода результатов стало возможно частично исполнять скрипты встроенные в HTML(Выборочная обработка JavaScript: расшифровка телефонов)



Исправления в связи с изменениями в выдачи
  • Исправлен парсинг рекламных объявлений в
    SE::Google
  • Исправлен парсер
    Rank::Ahrefs
  • Исправлен парсер
    Rank:: DMOZ
Исправления
  • При использовании динамического имени файла append text теперь пишется один раз
  • Исправлена работа с ссылками, которые содержат некоторые символы Юникода в
    Net::HTTP
  • Исправлена обработка каптчи в
    SE::Yandex::Register
  • Исправлен парсинг подсказок в
    SE::Google::Suggest
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3
Сделайте распродажу вашено софта что ли:-)
пока A-Parser пухнет от возможностей мы с трудом удерживаем цены на прежнем уровне :-), о какой распродаже может быть речь?
 
  • Спасибо
Реакции: btr

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
Сборник рецептов #11: парсим Авито, работаем с JavaScript, анализируем тексты и участвуем в акции!

Розыгрыш призов, условия акции смотри в конце!

11-й выпуск сборника рецептов. В нем мы разберем пример парсинга Авито, научимся расшифровывать телефонные номера, скрытые за JS и будем анализировать тексты.

Парсинг Авито
Если просмотреть сайты с вакансиями для фрилансеров, то можно увидеть, что очень часто требуется парсить популярный сайт объявлений avito.ru. Чаще всего в результате нужна база телефонов, реже - списки объявлений и цены. Данная информация может быть необходима маркетологам, для изучения ситуации на рынке, спамерам для рассылки смс и т.д...
Задачу по парсингу Авито можно решить также с помощью А-Парсера. О том как это сделать - читайте по ссылке выше.


Выборочная обработка JavaScript: расшифровка телефонов
Бывает, что при парсинге различных ресурсов можно наткнуться на информацию, которая скрыта скриптом на JavaScript. До недавнего времени A-Parser не умел обрабатывать JS, и такие сайты оставались в "зоне недоступности". Но начиная с версии 1.1.318 A-Parser научился выборочно работать с JS. Поэтому теперь есть возможность более эффективно парсить такие ресурсы и получать нужную информацию.
Как это делать и больше подробностей о поддержке JS в А-Парсере читайте по ссылке выше.


Анализ текста

Иногда возникает необходимость проанализировать спаршенный или написанный текст по различным параметрам (например: тошнота, водность, определить тематику и язык, найти наиболее повторяющиеся слова и т.п.). Для этого существует много различных приложений и онлайн-сервисов. Парсинг одного из таких сервисов будет показан по ссылке выше.


Почти 3 месяца назад у нас появилась Платная услуга по составлению заданий для А-Парсера. Она оказалась очень актуальна среди новых пользователей парсера, а также среди тех, у кого не хватает времени на его изучение. За время ее существования было составлено более 70 заданий, при этом 75% состояли из 2-х и более пресетов. Среднее время на составление одного заказа, от согласования деталей до получения готового набора пресетов, составляет около 4 часов. При этом, каждый пресет тщательно тестируется, а получаемый результат обсуждается с клиентом.

Так как A-Parser - это программа для парсинга различной информации, 26 ноября, во Всемирный день информации, будет разыграно:
  • 5 пакетов прокси (100 потоков на месяц)
  • 3 бесплатных составления 1-го задания для А-Парсера
В акции принимают участие все, кто ретвитнет нашу новость об этой акции в Twitter. Подписывайтесь на наши каналы в Twitter: русскоязычный @a_parser и англоязычный @a_parser_en и следите за новостями на сайте! Победители акции будут определены случайно с помощью сервиса random.org. Видео определения победителей будет выложено вместе с результатами акции.

Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:
 
  • Спасибо
Реакции: CSS

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
Снижение комиссии при оплате PayPro и Итоги акции

В связи с плохой проходимостью платежей в системе Interkassa было принято решение снизить комиссию PayPro до 3%. PayPro теперь является рекомендуемым способом оплаты, который принимает все популярные платежные системы: PayPal, Visa/MasterCard, QIWI, Yandex.Money, Wire Transfer

Напоминаю что всегда доступен прием WebMoney без комиссии

Одновременно с этим мы перевели Members Area на русский язык, добавили систему уведомлений на e-mail, а также готовим инструкцию по использованию нашего магазина

Итоги акции:

Итак, сегодня 26 ноября, а значит пора подводить итоги нашей акции!
Всего участников оказалось не так и много - 14 человек. Поэтому шансы получить 1 из 8-ми призов были довольно велики.
Было проведено определение победителей, видео по ссылке: http://files.a-parser.com/Video/Action_26_11_15.avi



Искренне поздравляем всех счастливчиков! А те, кому не повезло в этот раз - не отчаивайтесь, вскоре будут новые акции! Поэтому следите за нашими новостями на сайте или в Твиттере.

Победители, для уточнения деталей и получения призов, свяжитесь через Твиттер с выигрышных аккаунтов с администрацией А-Парсера @a_parser.
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Paeser - 1.1.355 - улучшения работы с регионами в Google и Яндексе, новые методы API, множество исправлений

Улучшения

  • В парсере
    SE::Yandex теперь также собираются ссылки на колдунщики(внутренние сервисы Яндекса), что позволяет более точно определять позиции сайтов в выдаче
  • В парсере
    SE::Yandex улучшено определение misspell(исправленных) запросов
  • В парсере
    SE::Yandex домен Яндекса теперь выбирается автоматически в зависимости от выбранного региона
  • В парсере
    SE::Google улучшена работа с сессиями
  • В парсере
    SE::Bing добавлен выбор локации
  • В интерфейсе парсера теперь доступен список последних сообщений с форума поддержки
  • Для парсера
    SE::Yandex добавлена поддержка турецкого домена yandex.com.tr
  • В парсере
    Net::HTTP добавлена поддержка шаблонизатора в поле Cookies
  • Теперь у начального текста, формата результата и конечного текста, общее пространство переменных, что позволяет решать задачи по выводу статистики
  • В макрос num добавлена возможность указать шаг итераций, формат {num:START:END:STEP}
  • Добавлен новый метод API getParserInfo - выводит список всех доступных результатов, который может вернуть парсер
  • Добавлен новый метод API update - обновляет исполняемый файл парсера до последней доступной версии, после успешного ответа A-Parser будет автоматически перезапущен
  • Метод API info теперь дополнительно выдает список всех доступных парсеров

Исправления в связи с изменениями в выдаче

  • В
    SE::Google исправлено указание локации
  • В
    SE::Bing исправлен парсинг серпа и связанных ключевых слов
  • В
    SE::Yandex исправлен сбор сниппетов и анкоров
  • В
    SE::Yahoo исправлен парсинг выдачи и работа с региональными доменами
  • Исправлены
    Rank::Category,
    SE::Bing::Images,
    SE::Bing::LangDetect,
    SE::Baidu,
    SE::AOL,
    SE::Google::SafeBrowsing,
    SE::Yandex::Register

Исправления

  • Исправлено игнорирование максимального числа активных заданий
  • В парсере
    HTML::LinkExtractor исправлена обработка относительных ссылок
  • Исправлена перезапись результатов при паузе\старте или при перезапуске парсера и одновременно включенной опции "Перезаписать файл"
  • Исправлена работа функции tools.parseJSON если страница была декодирована в UTF-8
  • Исправлен вывод результатов в Тестировщике заданий
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser: вводный видео урок, обзор возможностей

Денис Бартаев рассказывает о базовых возможностях A-Parser




В выпуске рассматриваются:
  • Основные настройки рядового парсера на примере SE::Yandex

    • Настройки Антигейт
    • Настройки прокси с проверкой статуса и без
    • Основные инструменты тестирования результатов парсинга
    • Базовые методы работы с шаблонизатором результатов, переменные парсеров
    • Примеры создания заданий, и описание процедуры работы с Редактором заданий
Подписывайтесь на наш канал!

A-Parser на СПИК 2015 - запись доклада Леонида Гроховского


A-Parser на СПИК 2015! Почти половина доклада посвящена обзору некоторых возможностей A-Parser

Как использовать парсеры для SEO? Как проверять индексацию страниц, как узнать позиции сайта. Об этом в докладе "Парсеры на службе у SEO-специалистов" рассказывает Леонид Гроховский. Подписывайтесь на его канал https://www.youtube.com/user/Grohovskiy
И на наш https://www.youtube.com/channel/UCvypGICrfCky8tPtebmIvQw


Тезисы:
  • Проверка индексации сайтов
  • Сбор сниппетов
  • Парсинг подсвеченных слов из сниппетов
  • Проверка позиций и входных страниц
  • Сбор запросов и подсказок
  • Определение частотности для списка запросов
  • Парсинг VK
  • Выкачивание базы у любого сайта
  • Взаимодействие с A-Parser через API
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.370 - планировщик заданий, улучшения в парсерах Google и Яндекса

В новой версии добавлен планировщик заданий, позволяющий легко запланировать выполнение задач, требующих периодичного исполнения, например такие как анализ позиций сайтов или ссылочных показателей



Другие улучшения

  • В опции Check next page для парсера
    Net::HTTP добавлен параметр Limit, позволяющий ограничивать максимальное число переходов на следующую страницу
  • В парсере
    SE::Google улучшена работа с сессиями
  • Парсеры
    SE::Google и
    SE::Yandex оптимизированы при работе без антигейта
  • Для парсера
    SE::Bing::Translator добавлены все новые языки
  • В API при добавлении задания появилась возможность указать флаг removeOnRestart, при указании которого задания будут автоматически удалены при перезапуске парсера
Исправления в связи с изменениями в выдачи

  • SE::Ask - парсилась только первая страница
  • SE::Google - исправлен парсинг сниппетов
  • Исправлены
    SE::MailRu,
    SE:: Dogpile,
    SE::Google::pR,
    SE::QIP и
    SE::QIP::position

Исправления

  • При использовании нескольких форматов запросов и опции Parse to level парсер мог вылетать с ошибкой
  • В парсере
    SE::Google могла повторно отправляться каптча при использовании антигейта
  • Исправлен баг с отображением формата результата после импорта пресета
  • Исправлен баг с отображением переменных в Конструкторе результатов
 
  • Спасибо
Реакции: lexone

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.388 - новый парсер disconnect.me, улучшения в экспорте заданий

Улучшения
  • Добавлен парсер
    SE:: DisconnectMe - поисковая система от бывших сотрудников Google, можно выбирать один из трех вариантов выдачи: Google, Bing, Yahoo
  • Теперь при сохранении пресета задания, сохраняется название файла запросов или сам список запросов
  • При экспорте задания, появилась возможность указать включать или нет запросы в код пресета, а также теперь отображается список настроек парсеров которые будут включены в код
  • В очереди заданий добавлена возможность свернуть\развернуть одновременно все задания на странице
  • В очереди заданий для свернутых заданий теперь отображается время выполнения
  • Увеличена скорость парсинга
    SE::Google
Исправления в связи с изменениями в выдачи
  • В
    SE::Google::Images больше не парсится параметр size
  • Исправлены
    SE::Google,
    SE::Google::TrustCheck,
    SE::Google::Compromised,
    SE::Ask,
    SE:: Dogpile,
    Rank::Mustat,
    Rank::Category,
    SE::AOL
Исправления
  • A-Parser мог падать при использовании парсеров
    SE::Yandex::WordStat,
    SE:: Dogpile, а также при использовании Просмотра логов после перезапуска парсера
  • В парсере
    Net::Whois не определялась дата экспайра для некоторых доменов
  • В парсере
    SE::Bing не корректно обрабатывались ссылки содержащие символ &

Обновление партнерской программы

Участвуйте в нашей партнерской программе рекламируя A-Parser в своих блогах и на форумах! Размер комиссии - 15%:
  • A-Parser Lite: $18
  • A-Parser Pro: $30
  • A-Parser Enterprise: $42


В обновленном интерфейсе доступна удобная статистика заработанных средств и выплат, а также список привлеченных пользователей

Подробнее про условия участия в партнерской программе читайте в соответствующем разделе
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser: видео урок по парсингу 2ГИС

Денис Бартаев рассказывает о парсинге информации о компаниях и их телефонов из базы 2ГИС


В выпуске рассматриваются
  • Использование парсера-паука HTML::LinkExtractor и его настройка для фильтрации ссылок
  • Работа с параметром Parse To Level
  • Использование парсера Net::HTTP и его настройка для выборки данных со страницы с помощью регулярных выражений
  • Создание Excel-таблицы из результатов парсинга

Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

12-й выпуск Сборника рецептов. В нем мы рассмотрим пример парсинга Instagram, проверим новую возможность вывода статистики и научимся составлять кастомные парсеры подсказок. А также:
  • Обзор вариантов представления результатов
  • Универсальный чекер страниц
  • Парсинг трафика и стоимости по ключевым словам из SEMrush
  • Обновление и улучшение пресетов для парсинга Авито и 2GIS
Парсинг Instagram
Instagram на сегодня является одним из самых популярных приложений для обмена фото с элементами социальной сети (осенью 2015 года аудитория превысила 400 млн пользователей). Такая популярность делает данный сервис привлекательным для парсинга, с целью получения различной информации. Как парсить Инстаграм с помощью А-Парсера - по ссылке выше.


Статистика по результатам парсинга
Начиная с версии 1.1.336 в А-Парсере появилась возможность вести и обрабатывать статистику парсинга, благодаря поддержке шаблонизатора в Начальном и Конечных текстах. Теперь в выдаче можно подсчитать количество ссылок на каждом домене, количество сабдоменов для каждого домена, частоту каждого сабдомена; получить списки доменов, имеющих сабдомены и многое другое... Несколько примеров показаны по ссылке выше.


Как сделать свой парсер подсказок?
В A-Parser уже существуют парсеры подсказок для Google, Yandex, AOL, Bing и Yahoo. Но есть и другие сервисы, которые также выдают подсказки. О том, как сделать свой парсер подсказок, а также примеры для Baidu, Rambler, Mail.Ru, LiveInternet, DuckDuckGo и GooglePlay смотрите по ссылке выше.


Кроме этого еще несколько рецептов:

Еще больше различных рецептов в нашем Каталоге примеров!


 
  • Спасибо
Реакции: CSS

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.434 - парсинг частотности Яндекс.Директ с большой скоростью, улучшения использования памяти

В этой версии проделана большая работа по добавлению поддержки агрегации запросов. Теперь парсер частотности ключевых слов
SE::Yandex::Direct::Frequency может получать данные со скоростью 20000-50000 слов\минуту

Улучшения
  • Уменьшено потребление памяти при использовании большого числа потоков и\или нескольких парсеров в одном задании
  • Уменьшено потребление памяти при большой очереди завершенных заданий
  • В парсере
    SE::Yandex::Direct::Frequency добавлена возможность выбрать все регионы или выбрать несколько определенных
  • В парсере
    SE::Yandex::Direct::Frequency добавлена поддержка Яндекс аккаунтов, а так же поддержка AntiGate и парсинг по 500 ключевых слов за один запрос
  • В парсере
    SE::Yandex::Direct::Frequency добавлена возможность выбора периода за последний месяц, за определенный месяц, за квартал или за год
  • Для Windows и Linux улучшена поддержка юникода в именах файлах, независимо от языка интерфейса ОС
  • Добавлена возможность просматривать логи только неудачных запросов
  • В API добавлена возможность указать флаг removeOnComplete при добавлении задания, тем самым задания будут автоматически удалятся после завершения
  • В просмотре логов теперь можно выделить данные для копирования
  • В парсере
    Net::HTTP добавлен параметр Max cookies count, ограничивающий число Cookie для сохранения
  • В парсере
    Net::HTTP расширен список кодов ответов, а также добавлена возможность указать регулярное выражения для проверки кода ответа
  • В очереди заданий теперь можно искать необходимые задания по названию, номеру, подстроке в запросах, имени файлов запросов и результатов
  • В парсере
    HTML::LinkExtractor добавлена опция Check next page, позволяющая расширить логику перехода по ссылкам
  • Добавлена опция Page as new query, которая передает переход на следующую страницу как новый запрос, тем самым позволяя убрать ограничение на количество страниц для перехода
Исправления в связи с изменениями выдачи
  • В парсере
    SE::Yandex исправлен парсинг связанных ключевых слов
  • В парсере SE::Youtube исправлен парсинг количества видео по запросу
  • Исправлен парсинг Google Blogs в парсере SE::Google
  • Исправлены
    SE::AOL, SE::Ask, SE::Baidu, SE::Google, SE::Google::pR, SE::DisconnectMe, SE::QIP, SE::Yandex
Исправления
  • Исправлено отображение длинных выпадающих меню
  • Исправлена кодировка запросов в просмотре логов
  • Исправлено падение при использовании опции Parse to level в некоторых ситуациях
  • Исправлено падение в парсере
    SEO::ping
  • Прокси с авторизацией теперь сохраняются корректно в файл живых прокси alive.txt
  • Исправлена работа с прокси при указании пустой пары логин\пароль для авторизации
  • В парсере
    SE::Yandex::WordStat теперь при использовании опции Remove + from keywords плюсы удаляются также для фраз правого столбика
  • Исправлено экранирование символа + в HTTP запросах

Все изменения и описания новых возможностей скоро будут доступны в документации
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser: видео урок - генерация sitemap.xml используя возможности JavaScript

Денис Бартаев рассказывает об использовании JavaScript в A-Parser:


  • Использование LinkExtractor
  • Показан пример разбора заголовков ответов
  • Введение в основы JavaScript
  • Использование возможностей tools.js для решения практической задачи
Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.462 - цепочки заданий, сохранение JavaScript функций в пресете задания

Улучшения
  • Добавлена возможность использовать цепочки заданий - запускать определенное задание после завершение текущего, с возможностью указать файл результатов первого задания, как файл запросов для следующего
  • Теперь JavaScript функции можно сохранять в настройках задания, что позволяет включать их при экспорте задания
  • При форматировании элементов массивов через метод .format теперь можно использовать все простые(Flat) переменные, которые выдает парсер или которые формируются используя Конструктор результатов
  • В прокси чекер добавлена опция Load limit count, позволяющая задать максимальное число прокси для загрузки с источников
  • В парсере
    Net::HTTP для опции Check content добавлен переключатель Match / Not Match позволяющий проверять не только наличие, но и отсутствие определенного контента на странице
  • Теперь файл задания не перезаписывается при отсутствии свободного места на диске
  • В лог добавлена информация о версии парсера, количество свободной памяти и другая полезная информация
Исправления в связи с изменениями выдачи
  • Исправлены
    SE::Yandex,
    SE::Google
Исправления
  • В парсере
    SE::Google сниппеты и анкоры парсились с некорректной кодировкой при использовании Антигейта
  • При использовании опции Конечный текст и кириллического имени файла результата конечный текст сохранялся в файл с неверной кодировкой в имени
  • При использовании лога после постановки задания на паузу и продолжении работы лог переставал писаться, также при отключении логирования и попытке просмотра лога парсер мог упасть
  • В Тестировщике заданий при закрытии окна с активным заданием появлялась ошибка
  • В парсере
    SE::Yandex::Direct::Frequency некоторые фразы не обрабатывались при использовании аккаунтов, а также некорректно передавалось гео без использования аккаунтов
  • Макрос $pagenum в парсере
    Net::HTTP переставал работать если после него были указаны символы
  • Парсер
    SE::Google::TrustCheck не работал совместно с антигейтом
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.481 - множество оптимизаций скорости, использование пресетов в цепочках и планировщике



В этой версии был внедрен ряд качественных улучшений, призванных увеличить предельную скорость парсинга:
  • Быстрая обработка UTF-8, прирост скорости на некоторых задачах до 1.5х
  • Внедрен механизм анализа используемых переменных в результатах, что позволяет оптимизировать скорость извлекая только требуемые данные. Первым оптимизированным парсером стал
    SE::Google: двухкратный прирост предельной скорости парсинга при сборе только ссылок(7000-10000 запросов в минуту, по 100 результатов на запрос, другими словами теперь можно получить 1 миллион ссылок за 1-1.5 минуты)
  • Теперь информация о запросах $response формируется только по требованию
  • Оптимизирована работа шаблонизатора при использовании множества парсеров в одном задании
Другие улучшения:
  • Теперь при использовании опции "Запустить задание по завершению" используется имя пресета вместо номера задания из очереди
  • В планировщике заданий также используется имя пресета, что позволяет очищать очередь без риска потерять сохраненные задания для планировщика
Исправления в связи с изменениями в выдачи:
  • SE::Google - поиск по блогам, также увеличена скорость парсинга за счет изменения запросов
  • SE::Yahoo,
    SE::DuckDuckGo,
    SE::AOL
Исправления:
  • В парсере
    Rank::Archive исправлена логика при обработке ошибки 403 Forbidden
  • Исправлено падение при изменении числа потоков в задании
  • Исправлена поддержка TLS для некоторых сайтов
  • Исправлено зависание задания при падении воркера
  • Теперь задание можно остановить если оно находится в режиме ожидания слота
  • Исправлена работа опции "Сохранять размер окна"
  • Исправлена ошибка в
    HTML::LinkExtractor при работе опции Parse to level в случаях когда сайт отдал редирект на другую страницу
 
  • Спасибо
Реакции: CSS

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

13-й выпуск Сборника рецептов. В нем мы научимся сохранять результат в файл дампа SQL, который будет сразу готов для импорта в базу данных; познакомимся с очень полезным инструментом $tools.query, с помощью которого можно объединять несколько заданий в одно и делать другие интересные вещи; а также увидим еще несколько полезных рецептов.

Вывод результата в формате дампа SQL
С вопросом "можно ли сохранять результаты сразу в базу данных" очень часто обращаюся пользователи в техподдержку. И так, как на данный момент напрямую сохранять результаты в БД нет возможности (но планируется), то предлагаю вариант выводить их в файл дампа, а потом импортировать в базу данных. Как это делается - показано по ссылке выше.


Обзор инструмента $tools.query
$tools.query довольно часто встречается в примерах на форуме. В А-Парсере этот инструмент появился уже больше года назад, но обзора по нему до этого времени не было выпущено. Поэтому мы исправляемся и по ссылке выше вы сможете ознакомиться с некоторыми его возможностями.


Еще несколько рецептов:
Еще больше различных рецептов в нашем Каталоге примеров!

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.500 - использование разных источников прокси в разных заданиях и парсерах

В этой версии проделана большая работа по улучшению проверки прокси и добавлению возможности использования разных источников прокси:

  • Появилась возможность запускать сразу несколько прокси чекеров, каждый поддерживает собственные настройки и собственный рабочий каталог с возможностью указать различные источники проксей
  • В настройках задания, появилась возможность указать прокси от каких чекеров должны использоваться(выбор между всеми или перечисление конкретных)
  • Более того в одном задании каждый парсер может использовать различные источники прокси
  • Добавлен график живых прокси и статистика по обработке источников
  • Уменьшено потребление памяти при большом числе живых прокси
  • В API теперь возможно получить список всех живых прокси, а также список прокси для конкретных прокси чекеров
Благодаря этим нововведениям появилась возможность раздельной работы с разными прокси серверами, когда одни прокси подходят для парсинга сайтов, другие лучше для парсинга выдачи поисковых систем, а третьи могут быть "заточены" под определенный сервис

Другие улучшения:
  • Для парсера
    Rank::CMS добавлена опция эмуляции браузера, она включена по умолчанию и повышает процент распознавания многих CMS
  • В редакторе заданий появилась возможность сворачивать парсеры, что позволяет удобнее работать с большими заданиями
Исправления в связи с изменениями в выдачи:
  • Rank::MajesticSEO,
    SE::Yandex,
    Rank::Archive,
    SE::Google::Images,
    SE::Google::TrustCheck,
    SE::Yandex::Catalog
Печальная новость коснулась
SE::Google::pR - Google прекратил отображать PageRank для сайтов, но у нас в арсенале есть множество парсеров для гораздо более точной оценки рейтинга домена!
 
  • Спасибо
Реакции: 7make

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser: видео урок - сбор отзывов о компании

Денис Бартаев рассказывает, как собрать отзывы о компании в необходимом регионе:


  • Парсинг отзывов с популярного сервиса
  • Работа с парсером Net::HTTP, переход по сайту в глубину
  • Использование конструкторов запросов и результатов
  • Получение нескольких элементов контента одним регулярным выражением
  • Работа с асинхронными запросами в A-Parser
  • Просмотр результата в табличном виде в Excel

Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео
 

ccpartner

Client
Регистрация
02.04.2015
Сообщения
9
Благодарностей
2
Баллы
3
Отличное ПО. Лучший софт в своем сегменте. Однозначно стоит своих денег. Рекомендую всем кому нужен парсер.

П.С
Кроcсплатформенность A-parser - особый плюс.
Вот например в связи с переходом на linux под зенку пришлось выделить целую виртуалку под виндой с 4гб оперативки...
 
  • Спасибо
Реакции: A-Parser Support

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
1.1.532 - парсинг регистратора в Whois, множество исправлений

Улучшения

  • В парсере
    Net::Whois добавлен парсинг названия регистратора домена

Исправления в связи с изменениями в выдачи

  • SE::YouTube,
    SE::AOL,
    SE::Dogpile,
    SE::Yandex

Исправления

  • Исправлено падение при использовании JavaScript(tools.js) на Windows, также исправлена некорректная работа на Linux
  • Исправлена проблема с логином на некоторых аккаунтах Яндекса
  • Исправлено определение ранка в парсере
    Rank::Alexa для доменов с www.
  • Исправлена работа с некоторыми доменными зонами в парсере
    Net::Whois, а также отображение статуса для некоторых зон
  • Исправлено падение
    Rank::CMS при использовании опции -nofork
  • Исправлены проблемы в работе нового прокси чекера: отключение чекера при изменении настроек, переопределение чекера в задании, а также проблема с отображением в некоторых браузерах
  • Исправлена работа опции Prepend/Append text в некоторых случаях
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.566 - кэширование запросов, удобная работа с настройками, множество улучшений


Улучшения

  • Теперь для парсеров
    Net::HTTP,
    HTML::TextExtractor,
    HTML::LinkExtractor,
    Rank::CMS кэшируются одинаковые HTTP запросы при использовании любой комбинации из этих парсеров в одном задании, что исключает выполнение повторных запросов к одному URL, как следствие растет скорость, уменьшается нагрузка на целевые сайты
  • Добавлена опция Max connections per host позволяющая ограничить максимальное число одновременных подключений к одному домену/IP
  • Добавлена опция Global proxy ban позволяющая расшарить статистику по бану проксей между заданиями
  • В парсере
    HTML::LinkExtractor улучшено отображение табличных данных и списков
  • В парсере
    SE::Yandex::WordStat добавлена возможность указать минимальную частотность для добавления запроса на вложенный парсинг
  • В парсере
    SE::Yandex добавлена опция Parse all results позволяющая автоматически обходить ограничение на размер выдачи и собирать гораздо больше результатов
  • В редакторе заданий добавлена функция Copy overrides позволяющая копировать настройки из одного парсера в другой
  • В редакторе заданий добавлена функция Save overrides to preset позволяющая создать новый пресет на основе переопределенных значений
  • При просмотре логов с опцией "Только неудачные" теперь отображаются только те потоки, в которых были неудачные запросы
  • При использовании xPath совместно с сохранением отдельных запросов в один массив данные заполняются равномерно
  • В очереди заданий добавлена дата последнего изменения задания при отображении в компактном виде
  • В очереди заданий добавлена возможность скачать файл результатов при незавершенном парсинге
  • При использовании опции "Сохранять неудачные запросы" теперь дополнительно сохраняются оригинальные запросы для всего задания
  • Добавлена опция Report captcha - распознанные Google каптчи отправляются на наш сервер для анализа, включена по умолчанию
Исправления в связи с изменениями в выдаче
  • SE::Yandex,
    Rank: DMOZ, SE::AOL
Исправления
  • Исправлена проблема с большим потреблением памяти на ОС Windows
  • Исправлено неверное сохранение параметра уникализации в некоторых случаях
  • Не работала замена на группы в регулярных выражениях в Конструкторе запросов
  • В парсер HTML::LinkExtractor исправлен парсинг ссылок с пробелами
  • Исправлена проблема с отображением заданий в очереди с большим числом запросов добавленных через текстовое поле
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser: видео урок - парсим Rambler с XPath

Денис Бартаев рассказывает, как в несколько кликов создать парсер любой поисковой системы на примере Rambler.ru. Мы получим всю необходимую информацию: ссылки, анкоры, сниппеты, число результатов, связанные ключевые слова и проверку на опечатку в запросе.


В уроке рассмотрены
  • Использование XPath для создания кастомного парсера
  • Обход капчи без использования Antigate
  • Использование Template toolkit для форматирования результата
  • Объединение результатов парсинга в массив объектов с полями, связанными по индексу

Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.582 - множество исправлений поисковых систем

Улучшения
  • В очереди заданий теперь запоминается текущая страница отдельно для активных и завершенных задач
  • Добавлена возможность вывести время выполнения каждого запроса
Исправления в связи с изменениями в выдаче
  • SE::Yandex,
    SE::Bing,
    SE::Yandex::Register,
    SE::Comcast,
    SE::DisconnectMe,
    SE::Bing::Translator,
    Rank::LinkPad,
    SE::DuckDuckGo,
    SE::Yandex::Direct::Frequency
Исправления
  • Улучшена обработка кодировки текста в
    HTML::TextExtractor
  • В очереди заданий в некоторых случаях могли не отображаться кнопки управления заданием


Сборник рецептов #14: используем XPath, анализируем сайты и создаем комбинированные пресеты

14-й выпуск Сборника рецептов. Сегодня мы научимся делать кастомные парсеры с помощью XPath, будем анализировать страницы сайта и попробуем делать комбинированные пресеты. Кроме этого ниже обновление 2-х самых популярных пресетов и небольшой сюрприз :-) Поехали!

Быстрое создание кастомного парсера поисковой системы с помощью XPath
В A-Parser есть парсеры для большинства популярных поисковых систем. Но реализовать и поддерживать парсеры для абсолютно всех существующих поисковиков очень сложно, поэтому нам на помощь приходит
Net::HTTP с его замечательной возможностью парсить практически все. В данной статье речь пойдет о том, как с помощью XPath и
Net::HTTP довольно быстро и легко создать кастомный парсер почти любой поисковой системы. Подробности - по ссылке выше.


Анализ всех страниц сайта
Администраторы сайтов и SEO-специалисты довольно часто сталкиваются с задачей анализа и мониторинга всех страниц сайта. Ранее мы уже публиковали Универсальный чекер страниц, который позволяет проверить доступность страниц на сайте. Теперь мы предоставляем вашему вниманию пресет для анализа всех страниц, который выводит глубину, время ответа, код и статус ответа, размер страницы и, если есть редирект, то конечный адрес редиректа. Все детали и пресет - по ссылке выше.


Как сделать парсинг и скан сайтов в одном пресете
Возможность использовать несколько парсеров в одном задании - это одно из преимуществ А-Парсера. Простая демонстрация такого функционала показана по ссылке выше.


Кроме этого:
  • Обновлен пресет парсинга Авито
  • По многочисленным просьбам полностью переделан пресет парсинга 2GIS. Теперь он еще быстрее! А для тех, кто внимательно читает наши статьи - в посте есть небольшой подарок: полная база 2GIS.

Еще больше различных рецептов в нашем Каталоге примеров!

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники
 

desided

Client
Регистрация
19.10.2015
Сообщения
120
Благодарностей
11
Баллы
18
лайт версия парсера подходит только для отлежки в дальних закоулках вашего компьютера. тот функционал что добавлен в версии совсем не пригоден для парсинга(говорю про гугл), с 60 персональными проксями парсер отпарсил только 60к. подсказки он не парсит, а на релейтедных кеях далеко не уйдешь. гугл жестко банит все прокси, и поэтому кто желает сэкономить - не советую брать, проще купить 2 парсера которые будут даже минет делать и стоять в 2 раза дешевли лайт верии, а все остальное пробивается зенкой
 
  • Спасибо
Реакции: Andrew Shell

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.594 - Улучшение скорости парсинга Google в 10-20 раз



После ужесточения парсинга со стороны гугла A-Parser стал парсить его быстрее чем раньше, результаты тестирования парсинга в 1000 потоков, 1 страница по 100 результатов - более 4000 запросов в минуту



Улучшения
  • Переработан парсер
    SE::Google - увеличена скорость парсинга в 10-20 раз
  • Названия пресетов заданий теперь сортируются при добавлении
Исправления
  • SE::Google - исправлена обработка каптчи в связи с изменением выдачи
  • Net::Whois - исправлена работа с некоторыми зонами
  • SE::Yandex::Register - исправлена работа с каптчей при регистрации аккаунта
  • Исправлено отображение дебаг информации для прокси чекеров
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.619 - большая оптимизация потребления памяти, увеличение скорости парсинга Яндекса



В этой версии проделана большая работа по оптимизации потребления памяти, а также стабильной работе парсера 24/7 с множеством числом заданий

Улучшения
  • Уменьшение потребления памяти
  • Оптимизация парсера
    SE::Yandex - увеличение предельной скорости парсинга в 2.5 раза(~1500 запросов минуту, i7-4770)
Исправления в связи с изменениями в выдаче
  • SE::Google,
    SE::AOL,
    SE::Yandex,
    SE:: Dogpile,
    SE::YouTube,
    SE::Bing
Исправления
  • Исправлен
    SE::Google при работе с антигейтом: неверная обработка запросов со скобками и очень длинных запросов
  • Исправлен
    Net::HTTP - при выполнении цепочки редиректов теперь передается оригинальный реферер
  • Исправлена работа с сессиями в
    SE::Yandex::WordStat
 

ial1408

Client
Регистрация
26.07.2016
Сообщения
194
Благодарностей
18
Баллы
18
А сколько стоят обновления после 3х или 6ти месяцев соответственно?
 

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
A-Parser - 1.1.626 - парсер Яндекс картинок, поддержка каптчи при логине в Яндекс, удаление нерабочих аккаунтов



В версии 1.1.626 добавлена поддержка каптчи при логине в Яндекс аккаунт в парсерах
SE::Yandex,
SE::Yandex::WordStat и
SE::Yandex::Direct::Frequency:



Также для этих парсеров добавлена настройка Remove bad accounts, которая автоматически удаляет аккаунты с неверным логин/паролем или требующие подтверждения по телефону. Опция включена по умолчанию

Добавлен новый парсер картинок
SE::Yandex::Images, поддерживает все фильтры(размер, ориентация, тип, цвет, тип файла...). Как известно Яндекс отлично индексирует все картинки для взрослых - отличный способ набрать контента для своих доров/тюбов. В дополнении есть возможность выставить безопасный поиск



Парсер Яндекс картинок также поддерживает работу с антигейтом(anti-captcha, rucaptcha, CapMonster - любой сервис с поддержкой API антигейта)

Исправления в связи с изменениями в выдачи
  • SE::DuckDuckGo
 

Forbidden

Новичок
Регистрация
21.01.2013
Сообщения
20
Благодарностей
10
Баллы
3

A-Parser Support

Активный пользователь
Регистрация
03.06.2013
Сообщения
313
Благодарностей
30
Баллы
28
Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

15-й выпуск Сборника рецептов. В нем мы будем парсить Google PageSpeed Insights, который позволяет оценивать скорость загрузки, юзабилити сайтов и даже получать их скриншоты; сделаем кастомный парсер Яндекс.Картинок и научимся получать полные ссылки из выдачи Baidu. Поехали!

Анализ скорости загрузки и юзабилити сайтов
У Google есть довольно неплохой сервис PageSpeed Insights, который измеряет скорость загрузки веб-страниц, оценивает их юзабилити и даже делает скриншоты страниц. При этом оценивается обычная и мобильная версия парсера. Поэтому мы не могли обойти стороной такой сервис и не сделать для него парсер. О том, что получилось - читайте по ссылке выше.


Кастомный парсер Яндекс Картинок
На форуме неоднократно спрашивали когда в А-Парсер будет добавлен парсер картинок Яндекса. На данный момент такой парсер уже есть:
SE::Yandex::Images. Но в данной статье будет показан пример кастомного парсера Яндекс.Картинок, который довольно хорошо демонстрирует возможности
Net::HTTP. Подробности - по ссылке выше.


Как получить полные ссылки из Baidu
Также довольно часто спрашивают как получить полные ссылки из Baidu. Дело в том, что этот поисковик обрезает ссылки в выдаче, и на выходе получаются ссылки такого вида:
Поэтому в данной статье будет показан способ получения полных ссылок с помощью A-Parser.


Кроме этого:

Еще больше различных рецептов в нашем Каталоге примеров!

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники:
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)