A-Parser - продвинутый парсер поисковых систем, WordStat, YouTube, Suggest, PR, etc

  • Автор темы Автор темы Forbidden
  • Дата начала Дата начала
Сборник статей #11: анализ содержимого картинок, добавление ссылок в индекс Google и поиск RSS лент

11-й сборник статей, в котором рассказано, как в А-Парсере анализировать содержимое картинок, добавлять страницы своих сайтов в индекс Google и искать RSS ленты необходимой тематики.

Фильтрация картинок по их содержимому

В этой статье на примере поиска картинок с определенным содержимым, показана работа с Google Vision. С помощью "компьютерного зрения" для каждого изображения присваивается набор меток, который описывает содержимое.

bvh74g37fa.png


Инструкция по использованию Google Indexing API

В данной статье рассмотрена работа с Google Indexing API, который позволяет владельцам сайтов напрямую уведомлять Google о добавлении или удалении страниц. Таким образом ваш сайт будет быстрее просканирован Google, что способствует повышению качества трафика.

3p4a3_200214180729.png


Поиск и сбор rss лент

В этой статье рассмотрен простой пример поиска ссылок на rss ленты по заданной тематике. Решение состоит из 3-х пресетов, каждый из которых отвечает за определенный этап работы.

cbyuefeteg.png


Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники статей

 
1.2.799 - новый парсер для поиска картинок, улучшения в существующих парсерах

1.2.799.png


Улучшения
  • Добавлен новый парсер SE::Yandex::ByImage - поиск картинок в Яндексе по ссылке
  • В Social::Instagram::post добавлена возможность собирать ссылки на локации
  • В Util::YandexRecognize добавлена поддержка сессий
  • В SE::Yandex::SQI добавлена возможность определять считается ли домен "официальным"
  • Улучшения в HTML::EmailExtractor для более качественного сбора почт
  • В SE::Google::Trends обновлен и значительно расширен список регионов
  • Из SE::Seznam удален парсинг $related в связи с тем, что связанные ключевые слова больше не выводятся на странице выдачи
Исправления в связи с изменениями в выдаче
Исправления
  • Исправлен выбор страны в SE::Yahoo
  • Исправлен баг с декодированием ссылок в SE::Google::Images
  • В режиме -newnode исправлены проблемы с кодировкой и оптимизировано потребление памяти

 
Привет всем!
Если у Вас нету этой программы, то многое потеряли. Экономия времени, простота подготовки пресета (шаблона) и скорость выполнения абсолютно любых задач по парсингу это основное, что бы мне хотелось отметить в работе A-Parsera.
Задачи по парсингу: популярных поисковых систем, позиции сайта, подсказки поисковых систем, телеграма (Парсинг пользователей публичных групп в Telegram), инстаграма (посты, профили), переводчиков, различных сервисов, более подробно о парсерах здесь .
С помощью JavaScript парсеров есть возможность создавать более сложные парсеры, например:
1) парсинг ссылок по своим запросам из поисковых систем google, yandex, rambler и т.д. одновременно, удаляем дубли ссылок
2) парсим подсказки из ПС
3) парсим контент с каждой ссылки
4) сохраняем в отдельный файл текст с 2) и 3) с любым форматом результата.
и всё происходит очень быстро.
Это самый простой пример, всё зависит от фантазии вебмастера.
Поддержка работает очень быстро, активный телеграм чат, в support ежедневно 3 специалиста. Есть возможность заказа на платной основе парсера (оплата через личный кабинет!!!)
Большим преимуществом является возможность установки на VDS на Linux .
Рекомендую данную программу для успешного и быстрого решения задач по парсингу.
 
Парсинг booking.com с помощью A-Parser

В этом видео уроке рассмотрен парсинг ресурса booking.com, получение результатов поиска квартир и отелей на сайте. Подробную информацию о них будем получать при помощи парсера Net::HTTP


В видео рассмотрено
  • Пользование разделом тестового парсинга
  • Переход по страницам пагинации
  • Проверка наличия определенного контента на странице сайта
  • Использование регулярных выражений
  • Применение конструктора результатов (декодирование HTML сущностей)
  • Применение шаблонизатора Template Toolkit в формате результата:
    • Использование инструмента $tools.CSVline
    • Циклическая обработка директивой FOREACH
    • Виртуальный метод .match
    • Фильтры: .remove, .collapse, .replace

Полезные ссылки

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
 
Сборник рецептов #39: бот-опросник, парсер hotline.ua и copart.com

Представляем вашему вниманию 39-й сборник рецептов, в который вошли:
  • телеграмм бот опросник
  • парсер агрегатора цен hotline.ua
  • парсер аукционов транспортных средств copart.com
Телеграмм бот опросник

Данный бот позволяет организовать ежедневный опрос сотрудников, при этом список вопросов можно гибко менять. Все настройки берутся из Google таблицы, а также туда пишутся ответы по каждому сотруднику.
Также, этот пример демонстрирует возможность создания телеграмм бота на базе A-Parser и работу с Google таблицами.


Парсер hotline.ua

hotline.ua - это самый большой агрегатор цен в Украине. С его помощью можно мониторить и анализировать цены на товары у конкурентов или искать наиболее выгодные предложения среди большого количества интернет-магазинов.

3my28_200325142307.png


Парсер copart.com

Copart является одним из крупнейших интернет аукционов, специализирующихся на продаже новых и б/у автомобилей. По официальной информации каждый день на аукционе выставляется на продажу более 150 000 транспортных средств.

ehamm_200325190721.png


Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

 
Мы начинаем публикацию серии коротких видеоуроков, каждый из которых будет посвящен какому-то одному функционалу.
И в этом уроке будут рассмотрены варианты формирования имени файла результата.


В видео рассмотрено:
  • Нумерация файла результата в соответствии с запросами
  • Нумерация файла результата + часть имени запроса
  • Именование файла результата по запросу, если запрос линк

Полезные ссылки:

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

 
GYwUYFH.jpg


Hi A-parser

Я попробовал демо-версию на вашем сервере.

Но через 12 минут он собрал только около 300 результатов и выполнил только 2 запроса.

Это нормально?
 
GYwUYFH.jpg


Hi A-parser

Я попробовал демо-версию на вашем сервере.

Но через 12 минут он собрал только около 300 результатов и выполнил только 2 запроса.

Это нормально?

Добрый день.
Судя по вашему скриншоту, на один запрос уходит до ста попыток, т.к. гугл довольно часто выдает рекаптчи. Для более быстрой работы парсера нужно подключать сервисы разгадывания рекаптч, либо пробовать другие прокси. Еще, если запросов много, можно выставить в настройках большее кол-во потоков. Также может влиять кол-во страниц выдачи, одну получится спарсить быстрее, чем 5 например.
 
1.2.852 - новый парсер для Google Keyword Planner, Native NodeJS, множество исправлений и улучшений

[IMG]


Улучшения

  • Добавлен парсер
    SE::Google::KeywordPlanner
    SE::Google::KeywordPlanner
    • собираются списки подсказок и варианты ключевых слов
    • для каждого варианта парсится среднее кол-во запросов в месяц, конкуренция, объемы поиска, а также минимальная и максимальная ставки
    • присутствует возможность указывать несколько ключевых слов в запросе
  • В
    SE::Yandex::ByImage
    SE::Yandex::ByImage добавлена функция Get full links to page, которая позволяет получать реальные ссылки на страницы
  • В
    SE::Yandex::SQI
    SE::Yandex::SQI добавлены переменные сбор количества отзывов и оценок, а также рейтинга
  • Улучшена проверка правильности разгадывания каптчи в парсерах Яндекса
  • Автоматическое увеличение лимитов на ОС Linux
  • Улучшена работа с регулярными выражениями
  • При бане прокси в лог задания теперь выводится более детальная информация
  • Native NodeJS переведена из стадии альфы в бету, проведено множество оптимизаций, за счет чего в большинстве сценариев это дает повышение максимальной скорости в 1.5-2 раза, а также уменьшение потребление памяти в 2-4 раза
    • Начиная с 1.2.822 все бета версии имеют включенный Native NodeJS, стабильные версии выходят с включенным oldnode
  • Native NodeJS: добавлена экспериментальная поддержка HTTP/2
  • Native NodeJS: обновление Node.js до актуальной версии
  • JS парсеры: добавлена опция allow_dangerous_node_modules, подробнее тут
Исправления в связи с изменениями в выдаче
Исправления
  • Исправлена работа
    Net::Whois
    Net::Whois с доменами 3го уровня, а также улучшена проверка получаемого ответа
  • Исправлена работа Extra query string в
    SE::Bing
    SE::Bing
  • Исправлена работа
    Rank::SEMrush
    Rank::SEMrush и
    Rank::SerpStat::Keyword
    Rank::SerpStat::Keyword при получении ответа без данных
  • Исправлен баг с типами переменных
  • Исправлена ошибка, при которой запросы ошибочно считались неудачными при постановке задания на паузу
  • Исправлена работа Bypass Cloudflare
  • Исправлен динамический лимит потоков
  • Исправлена ошибка при использовании Request delay
  • Исправлено предупреждение о превышении лимита в Поле запросов
  • Исправлена работа $tools.task.id в имени файла результата
  • JS парсеры: исправлены получение сессий и работа http2 (баг появился в одной из предыдущих версий)
  • JS парсеры: исправлено определение кодировки страницы
  • Native NodeJS: исправлено поведение при некоторых ошибках
  • Native NodeJS: исправлена проблема при обновлении A-Parser на OS Windows
  • Native NodeJS: исправлена работа save_to_file, а также еще ряд ошибок
  • Native NodeJS: исправлена работа SOCKS5 с авторизацией
  • Native NodeJS: исправлена подстановка данных после Конструктора запросов

[IMG]
 
Сборник рецептов #40: посещаемость организаций, SSL сертификаты, ikea и анализ доменов

Представляем вашему вниманию 40-й сборник рецептов, в который вошли:
  • парсер данных о посещаемости организаций
  • парсер данных о SSL сертификатах
  • парсер товаров на ikea.com
  • комплексный пресет для анализа доменов по ряду характеристик
  • способ извлечения доменов из ссылок без фактического захода на страницу

Посещаемость в Google Maps
В поисковой выдаче Google для определенных запросов отображается расширенный сниппет с информацией об организации из Google карт. В частности, обычно отображается информация о посещаемости в разрезе дней недели.
Представляем парсер, который собирает данные о посещаемости.
[IMG]


Данные по SSL сертификату
Данный парсер собирает информацию о SSL сертификате сайта. В качестве источника данных используется сторонний ресурс.
[IMG]


Парсер ikea.com
Парсер данных из ikea.com, который позволяет собирать различную информацию о товарах. Согласно данным из Википедии, ikea - это одна из крупнейших в мире торговых сетей по продаже мебели и товаров для дома.
[IMG]


Кроме этого:

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

[IMG]
 
Цена кусается после роста бакса. но что делать легенду надо брать!
 
Вопрос - насколько корректно и быстро проверяет наличие урлов в индексе? я так понимаю проверяет через site:? И как быстро например проверит пачку например в 20000 урлов?
 
И умеет он парсить вариативные товары, которые скрыты списком и результаты надо упаковать в 1 ячейку например. Или там характеристики товаров которые таблицей сделаны,он сможет в 1 ячейку данные положить?
 
Вопрос - насколько корректно и быстро проверяет наличие урлов в индексе? я так понимаю проверяет через site:? И как быстро например проверит пачку например в 20000 урлов?

Парсинг гугла: 1 страница с 10 элементами на странице, 300 потоков, прокси апарсера, версия 1.2.860 - скорость 709 запросов в минуту. И это в конце недели, когда гугл обычно капчует сильно.

95ifj_200508143653.png


Вы сами можете настроить по каким запросам парсить, в том числе и при помощи операторов.
Скорость зависит от проксей и кол-ва потоков, это основные факторы которые влияют на скорость.

И умеет он парсить вариативные товары, которые скрыты списком и результаты надо упаковать в 1 ячейку например. Или там характеристики товаров которые таблицей сделаны,он сможет в 1 ячейку данные положить?

да, сможет спарсить, но нужно на конкретном примере смотреть. Можете уточнить в поддержке на сайте по возможен ли парсинг по конкретному сайту.
Если данные есть в открытом виде на страницах - то их почти всегда можно парсить. Если же для их получения нужно авторизоваться, покупать доступы и т.д. - то это сложнее, надо изучать ограничения, сайт и т.д., читать документацию, возможно есть апи. И решается это написанием пресета на базе Net::HTTP (https://a-parser.com/wiki/net-http/) или JS парсера.
 
Видео урок: Сохранение результатов в несколько файлов используя переменные, массивы и условия

В этом видео уроке рассмотрены способы сохранения результатов в несколько файлов, используя переменные и массив, при определенных условиях.


В видео рассмотрено:
  • Вывод результатов в разные файлы с разными именами используя переменные
  • Вывод результатов для каждого файла отдельно по определенному условию
  • Вывод результатов для двух файлов с условием, используя массив
Полезные ссылки:
Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

 
Парсинг гугла: 1 страница с 10 элементами на странице, 300 потоков, прокси апарсера, версия 1.2.860 - скорость 709 запросов в минуту. И это в конце недели, когда гугл обычно капчует сильно.

95ifj_200508143653.png


Вы сами можете настроить по каким запросам парсить, в том числе и при помощи операторов.
Скорость зависит от проксей и кол-ва потоков, это основные факторы которые влияют на скорость.



да, сможет спарсить, но нужно на конкретном примере смотреть. Можете уточнить в поддержке на сайте по возможен ли парсинг по конкретному сайту.
Если данные есть в открытом виде на страницах - то их почти всегда можно парсить. Если же для их получения нужно авторизоваться, покупать доступы и т.д. - то это сложнее, надо изучать ограничения, сайт и т.д., читать документацию, возможно есть апи. И решается это написанием пресета на базе Net::HTTP (https://a-parser.com/wiki/net-http/) или JS парсера.
 
<quote>да, сможет спарсить, но нужно на конкретном примере смотреть. Можете уточнить в поддержке на сайте по возможен ли парсинг по конкретному сайту. </quote>
И куда конкретно написать, чтобы уточнить результат с сайтом, хотелось бы узнать. сможет или нет
 
A these ZP based parsers from a-parser?
 
<quote>да, сможет спарсить, но нужно на конкретном примере смотреть. Можете уточнить в поддержке на сайте по возможен ли парсинг по конкретному сайту. </quote>
И куда конкретно написать, чтобы уточнить результат с сайтом, хотелось бы узнать. сможет или нет

На сайте апарсера в чат -

uf0gk_200518232820.png


или через наш телеграм бот @aparser_bot
 
Сборник рецептов #41: Google таблицы, отправка писем и авторизация с помощью puppeteer

Представляем 41-й сборник рецептов, который полностью посвящен использованию различных Node.js модулей в A-Parser.
  • Работа с Google таблицами
  • Отправка писем из А-Парсера
  • Авторизация с помощью puppeteer
Сохранение результатов в Google SpreadSheets

Один из часто задаваемых вопросов в поддержке, это вопрос о возможности писать результаты прямо в Google Таблицы. Поэтому мы подготовили небольшой пример парсера, который демонстрирует такую возможность.

bsdf64354bhd734vfdatf54.png


Отправка почтовых писем

Еще одна возможность, о которой часто спрашивают наши пользователи - отправка писем. Такой функционал может быть использован для уведомлений о различных событиях в заданиях, в том числе о завершении их работы. Поэтому мы также подготовили пример, демонстрирующий отправку писем прямиком из А-Парсера.

swlv0_200518110130.png


Авторизация на GitHub с использованием puppeteer

Еще один пример по заявкам наших пользователей, демонстрирующий загрузку страницы, авторизацию на ресурсе и простую навигацию.

dasdt56567asd56s.png



Еще больше различных рецептов в нашем Каталоге!

Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

 
1.2.912 - обновление NodeJS, повышение производительности, адаптация к изменениям в рекаптчах

1.2.912.png


Мы завершили переход на NodeJS в качестве основного движка для парсеров и представляем новую стабильную версию 1.2.912 с поддержкой NodeJS 14.2.0. Данное обновление сочетает в себе множество улучшений, включая повышение производительности, уменьшение потребления памяти, полностью новый сетевой стек, а также поддержку нативных NodeJS модулей, позволяющую использовать всю мощь каталога npmjs в A-Parser&#039;е

Также в данное обновление включены изменения по работе с ReCaptcha2 в парсере Google, наша команда одна из первых нашла решение по обходу новой версии рекаптчи и протестировала его совместно с сервисом RuCaptcha, за что им отдельный респект. На данный момент корректный обход каптчи протестирован с RuCaptcha, Anti-Captcha, (другой софт) и CapMonster.

Помимо этого было произведено множество оптимизаций в ядре A-Parser&#039;а, значительно увеличилась производительность при использовании большого числа заданий или больших списков прокси. Парсер
rank-cms.png
Rank::CMS был полностью переписан и стабилизирован, добавлена поддержка нового формата apps.json и поддержка пользовательских правил.

Улучшения
  • NodeJS обновлен до v14.2.0, v8 до 8.1
  • Добавлена поддержка параметра data-s в рекаптчах для
    se-google.png
    SE::Google, также добавлена опция ReCaptcha2 pass proxy
  • Увеличен лимит потоков до 10000 для OS Windows
  • Значительно улучшена производительность при большом числе активных прокси и/или заданий, полностью переписан стек по работе с прокси, оптимизирована работа с большими списками
  • Добавлен новый парсер
    rank-keysso.png
    Rank::KeysSo
  • Полностью переписаны на JS
    se-yahoo-suggest.png
    SE::Yahoo::Suggest,
    rank-alexa-api.png
    Rank::Alexa::API и
    rank-archive.png
    Rank::Archive
  • Улучшена производительность при использовании регулярных выражений, а также улучшена совместимость
  • В
    se-google-keywordplanner.png
    SE::Google::KeywordPlanner добавлено автоматическое получение токена
  • В
    se-bing.png
    SE::Bing добавлена возможность парсить ссылки на кэшированные страницы, а также добавлена возможность парсить мобильную выдачу
  • В парсере
    util-recaptcha2.png
    Util::ReCaptcha2 при выборе провайдера Capmonster или (другой софт) теперь необязательно указывать Provider url
  • В
    se-google-trends.png
    SE::Google::Trends добавлена возможность указывать произвольный диапазон дат
  • В
    rank-cms.png
    Rank::CMS добавлен выбор движка регулярок и поддержка собственного файла с признаками
  • В
    se-yandex-byimage.png
    SE::Yandex::ByImage добавлена опция Don&#039;t scrape if no other sizes, которая позволяет отключить сбор результатов, если искомой картинки нет в других размерах
  • [NodeJS] Добавлена защита от бесконечных циклов и долгих регулярок
  • [NodeJS] Исправлена работа this.cookies.getAll()
  • [JS парсеры] Добавлена опция follow_meta_refresh для this.request
  • [JS парсеры] Добавлена опция bypass_cloudflare для this.request
  • [JS парсеры] Underscore заменен на Lodash
  • [JS парсеры] В логе добавлена пометка при вызове других парсеров
  • [JS парсеры] Использование предыдущего прокси после запроса к другому парсеру
  • [JS парсеры] Добавлен метод destroy()
Исправления в связи с изменениями в выдаче
Исправления
  • Исправлен баг, из-за которого игнорировался выбранный проксичекер
  • Исправлена работа функций Decode HTML entities и Extract domain в Конструкторе результатов
  • Исправлена проблема с определением кодировки
  • Исправлена ошибка использования $tools.query
  • Исправлен баг в
    rank-majesticseo.png
    Rank::MajesticSEO при котором использовались все попытки при отсутствии результатов
  • Исправлена работа http2
  • Исправлена ошибка, когда парсер падает из-за невозможности писать в alive.txt
  • Исправлено разгадывание каптч в
    se-yandex-register.png
    SE::Yandex::Register и
    check-roskomnadzor.png
    Check::RosKomNadzor
  • Исправлена разница в запросах, отправляемых через
    net-http.png
    Net::HTTP и JS
  • Исправлен баг в
    se-yahoo.png
    SE::Yahoo
  • Исправлены ошибки в
    rank-cms.png
    Rank::CMS при выборе приложения без категории
  • [NodeJS] Исправлен подсчет времени исполнения кода парсера
  • [JS парсеры] При пустом body не передавался заголовок content-length при post запросе
  • [JS парсеры] Исправлена работа CloudFlare bypass
  • [JS парсеры] Исправлена работа с сессиями
  • [JS парсеры] Исправлена работа с overrides для this.parser.request
  • [JS парсеры] Исправлена ошибка определения кодировки в JS парсерах

 
Сборник рецептов #42: поиск битых ссылок, сервисы статистики и коммерциализация запросов

Представляем 42-й сборник рецептов, в котором собраны парсеры для определения наличия на сайте битых ссылок, сбора данных об используемых сервисах статистики и определения коммерциализации ключевых слов.

Парсер Ahrefs::BrokenLink

Ahrefs Broken Link Checker - это сервис, позволяющий определить наличие битых ссылок на сайте, а также некоторую другую полезную информацию.

5xjrw_200622121851.png


Парсер builtwith.com

Этот парсер собирает данные об используемых на сайтах сервисах статистики с ресурса BuiltWith. С его помощью можно получить список id используемых сервисов статистики, а также список других сайтов, на которых используются эти же id.

a-parser.com_Historical_Website_Relationship_Profile_-_Google_Chrome_2020-06-22_10.37.34.png


Определение коммерциализации запроса

Способ определения степени коммерциализации ключевых слов, основанный на анализе поисковой выдачи Яндекса. Оценивается количество вхождений определенного списка слов в анкорах и сниппетах ТОП10 выдачи.

ZrJ0RK5UMpNLj2.png

Кроме этого:
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

 
Видео урок: где смотреть переменные, скрытые переменные и какой результат они выводят (примеры)

В этом видео рассмотрели где смотреть переменные, какие бывают скрытые переменные и какой результат они выводят на примерах.


Содержание видео:
00:20 - 1. Где смотреть какие у парсера есть переменные?
1:16 - 2. Какие бывают скрытые переменные ($query.*, $root и т.п.)?
1:22 - переменная root
2:08 - переменная root объект
3:14 - переменная query.orig
4:04 - переменная query.first
5:24 - переменная query.lvl
5:50 - переменная query.prev
6:20 - переменная query.num

Все возможные методы TT для работы с обьектами
Форматирование запросов (шаблоны)

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

 
1.2.948 - новые парсеры SecurityTrails IP и Domain, поддержка доменных прокси, множество исправлений

fvvik_200716143725.png


Улучшения
  • Добавлен парсер
    rank-moz.png
    Rank::MOZ.
    Собираемые данные: вся информация, содержащаяся на странице.
  • Добавлены парсеры
    securitytrails-domain.png
    SecurityTrails:: Domain и
    securitytrails-ip.png
    SecurityTrails::IP.
    Для работы парсеров необходимо указать пресет
    util-recaptcha2.png
    Util::ReCaptcha2.
    • securitytrails-ip.png
      SecurityTrails::IP
      В качестве запроса следует указывать ipv4 адрес.
      Собирает домены по IP и информацию о них.
    • securitytrails-domain.png
      SecurityTrails:: Domain
      В качестве запроса следует указывать домен, например a-parser.com.
      Собираемые данные:
      • Данные по DNS
      • Список технологий, используемых на сайте (движки и проч.)
      • Список открытых портов
      • Alexa rank
      • Страна
      • Хостер
      • Даты начала и окончания регистрации
      • Whois статус
      • Регистратор
      • Список исторических данных по DNS
      • Список субдоменов
  • Добавлена возможность отключать валидацию TLS сертификатов.
  • Добавлена поддержка доменных прокси.
Исправления в связи с изменениями в выдаче
Исправления
  • Исправлена ошибка в алгоритме автовыбора домена в
    se-yandex.png
    SE::Yandex.
  • Исправлена работа
    rank-majesticseo.png
    Rank::MajesticSEO,
    se-bing-translator.png
    SE::Bing::Translator.
  • Исправлена ошибка, если файл config.txt был сохранен в кодировке utf-8 с BOM (парсер некорректно читал файл).
  • Решена проблема с переопределениями опций в парсере
    html-linkextractor.png
    HTML::LinkExtractor.
  • NodeJS: новые установленные модули теперь доступны до перезагрузки A-Parser&#039;a.
  • Исправлено падение парсера при вызове метода getProxies.

 
Сборник статей #12: скорость работы парсеров, debug режим и работа с куками

В 12-м сборнике статей рассказывается о принципах работы парсеров и факторах, влияющих на их скорость, показаны возможности debug режима в Тестовом парсинге по отладке запросов, а также на реальном примере разбирается работа с куками.

Скорость и принцип работы парсеров

В этой статье подробно рассказано об основном принципе работы парсеров и скорости их работы, а также рассмотрены основные факторы, влияющие на скорость парсинга.

Statya.pdf_%E2%80%94_Profil_1__Microsoft%E2%80%8B_Edge_2020-08-22_12.20.14.png


Использование Debug режима

В этой статье рассказывается об одном из методов отладки парсеров, а также об анализе получаемых данных - debug режиме в Тестовом парсинге. С его помощью можно прямо в парсере анализировать и экспериментировать с заголовками и изучать приходящие в ответ данные.

A-Parser__Advanced_SE_Parser_%26_Analyze_tool_-_Google_Chrome_2020-08-20_11.55.06.png


Работа с куками и заголовками на примере соглашения с правилами сайта auto.ru

А в этой статье на реальном примере показана работа с куками сайта: рассказано как определять необходимость передавать куки и как искать только необходимые для запроса куки. При этом показаны два варианта: простые запросы средствами А-Парсера и использование NodeJS модуля puppeteer.

Fotografii_2020-08-25_12.07.40.png


Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники статей

 
Отзовусь экстраположительно!

давно и долго все с кем общаюсь по моей теме упоминали a-parser как источник сырья под свои "фабрики", где каждый парсит свое и использует материал далее в своих целях. Меня даже как то напрягала такая мощь в восторгах (думал может плюшками их там как то стимулируют :-)

в общем, подогретый этой инфой при случае и для плановых задач купил с ожиданием.

через час одурел от скоростей, мощей и потенциала
через пару дней начал перетаскивать все задачи под капот a-parsera
через три дня уперся в ошибки из за незнания матчасти. Один менеджер как то чуток потупил, но, затем попался Артем,
подключился по тиму, все исследовал, задачу решили, я научился. Спасибо тебе большое и тем кто делает этот софт

В общем и космос и ракета в одном месте, только прокси нужны отменные (что тоже есть в личном кабинете)

Ну и как бы, я теперь тоже в секте :-)
 
Видео урок: просмотр результатов парсинга, настройка прокси с авторизацией, опция Extra query string

В этом видео уроке рассмотрены ответы на 3 часто задаваемых вопроса от новых пользователей А-Парсера

  • Где и как можно посмотреть результаты парсинга?
  • Как подключить прокси с авторизацией?
  • Extra query string, что это такое и как применять эту опцию?
В уроке рассмотрено:
  • Просмотр результатов парсинга 3-мя способами:
    • Способ первый. &quot;Из очереди заданий, если задание на паузе&quot;.
    • Способ второй. &quot;Из очереди заданий, если задание завершено&quot;.
    • Способ третий. &quot;Забираем результат из папки results&quot;.
  • Подключение прокси с авторизацией.
  • Примеры использования опции Extra query string.
Полезные ссылки:
Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

 
Сборник рецептов #43: освобождающиеся домены, категории сайтов и парсинг PDF

43-й сборник рецептов, в который вошли пресет для парсинга освобождающихся доменов, парсер категорий сайтов и пример сбора данных из PDF документов.

Аукцион доменов REG.RU

Пресет, позволяющий парсить домены с аукциона Reg.ru. В пресете реализована возможность указывать количество страниц пагинации и использовать фильтр по ключевому слову.

A-Parser__Advanced_SE_Parser_%26_Analyze_tool_-_Google_Chrome_2020-07-14_14.28.19.png


Определение категорий сайта

Парсер, собирающий категории сайтов из MegaIndex.

ykthu_200922132737.png


Парсинг PDF

Пример парсинга данных из документов в формате PDF. Для работы используется Node.js модуль pdf-parse.

PDF2Textcfsdfa.png


Кроме этого:
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

 
Сборник рецептов #44: категории сайтов от Cloudflare Radar, парсер Rozetka и kufar.by

44-й сборник рецептов, в который вошли парсер, определяющий категории сайтов (используя сервис Cloudflare Radar), парсер Rozetka через API и парсер интернет-магазина kufar.by с проходом по списку результатов.

Парсер Cloudflare Radar

Парсер для сбора категорий сайтов из Cloudflare Radar

g5spg_201021200450.png


Rozetka - получение данных по API

Парсер, собирающий данные о товарах на торговой площадке Rozetka через API.

rozetkasd.jpg


Парсинг объявлений kufar.by

Парсер объявлений на сайте kufar.by с проходом по списку результатов. Собираются заголовки объявлений, цены, имена и телефоны авторов.

A-Parser__Advanced_SE_Parser_%26_Analyze_tool_-_Google_Chrome_2020-10-21_19.39.43.png


А также, обновлены следующие ресурсы:
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)