Парсинг государственных закупок и опыт, который я из этого извлёк

Alexbrush · 14.12.2021

Привет всем! Меня зовут Александр и я впервые участвую в конкурсе статей.

Долго думал на какую тему написать, но многие проекты сейчас в процессе тестирования и возможно станут темами для последующих конкурсов, а сегодня я расскажу о том, как я вздумал спарсить с сайта гос. закупок в Казахстана всех участников тендеров и выгрузить всё это на свой сайт в качестве подпроекта на поддомене к белому сайту близкому по тематике.

Немного предыстории.
-----------
Я сам практикующий SEO специалист и занимаюсь в основном клиентскими проектами и своими белыми контентными сайтами.
Примерно с год назад я решил начать тестировать себя в дорвеях, купив в том числе лицензию Зенки для автоматизации.

На практике среди моих клиентов были в том числе с такого плана сайты - сервисы проверки контрагентов, тендерные площадки и все они так или иначе напрямую или через api парсили данные с гос. сайтов и агрегировали их у себя. Трафика в этой нише в рамках информации доступной на гос. сайтах и её агрегации на внешнем сайте порядка от 50к у слабых и до 500к посетителей в месяц в мощных проектов.

Я четко видел и понимал, что это просто горы трафика по НЧ запросам вроде БИН участника, ФИО, наименование компании и т.д.

У меня появилась идея просто в качестве эксперимента сделать шаблон на Зенке и спарсить, а после опубликовать у себя на сайте всех участников гос. закупок.
По ходу дела я учился в принципе собирать как-то одни из первых шаблонов и параллельно натыкаясь на проблемы с производительностью, ускорял их.

В итоге у меня шаблон получился из 2 частей.

В первой части я собрал урлы на всех участников госзакупа отсюда - их там стабильно 350-400к

Вторым этапом я на лету переходил по урлу из списка рандомно и собирал внутри информацию - название компании, содержимое таблицы внутри со всеми данными о ней, что есть в данном открытом источнике и отдельными столбцами в таблицу выгружал ФИО и ИИН руководителя.

Здесь же на лету всё это добро публиковалось на сайт на Wordpress через XML-RPC на post-запросах - такое делал впервые и изрядно помучался, настроивая.

Скорость с которой всё начало работать просто восхищала - парсинг и одновременно публикация 1200 записей в час. Меня это более чем устраивало, но через примерно сутки скорость сократилась вдвое и после постепенно замедлилось чуть ли не до 20-50 записей в час.

Дело в том и это опыт №1, что я не учел возможности любимого движка Worpress, где все уперлось в разросшуюся до неприличия базу данных. Всё жутко тормозило именно из-да БД и скорости записи в неё на объёмах.

Я привык делать обычными сайты на сотни, иногда тысячи страниц и банально с таким не сталкивался ранее, хотя и дружу с ВП порядка 10 лет. Начал искать как оптимизировать эти процессы, открыл для себя много нового, но особо ничего не помогло.

В итоге я на какое-то время отложил этот эксперимент, чтобы там все запостилось, закэшировалось и прочие процессы прошли без серьезной нагрузки сверху.

Спустя месяца полтора я вернулся к проекту и немного переделав шаблон с паузами и другими фишками, получил новое свежее дыхание для эксперимента. Скорость одновременного парсинга и публикации сразу достигала в пиковые моменты 3500 записей. Сервер серьезно напрягался, но в целом все выдержал.

В итоге такими итерациями я постепенно опубликовал порядка 250к участников закупок и по 2 тега на каждую запись, что в итоге мне дало примерно 750к посадочных страниц под НЧ. Я всё как положено оптимизировал по шаблону и настроил корректную индексацию.

Постепенно страницы начали залетать в индекс и спустя время трафик вырос до 1000-1500 посетителей в сутки. Повесил туда Adsense и что-то начало капать. Вроде кажется, что всё - больше ничего не нужно - жди пока все страницы проиндексируются, трафик вырастет и денег с рекламы станет больше.

Но не тут-то было и опыт №2 - не шутите с госами.

Первое, что мне прилетело - жалоба на меня от комитета государственных доходов (КГД) т.к. я ради привлечения внимания упомянул на сайте что это база КГД. На самом деле все эти данные между собой связаны и есть в обоих источниках, но на сайте гос. закупа в открытом доступе, а в КГД где-то внутри за 7ю дверьми спрятано и они подумали что я их взломал или как-то еще незаконно получил эти данные.

Всё решились простым телефонным разговором с сотрудником комитета информационной безопасности (или как-то иначе они называются)

Условились на том, что я просто уберу везде упоминание КГД и напишу как есть откуда данные и что они взяты строго из открытого источника без злых намерений - что на самом деле так и есть. Мой интерес в данном эксперименте строго в получении кучи трафика по НЧ запросам - не более.

На какое-то время настала тишина по таким вопросам. Я спокойно смотрел как растет трафик и всё что следует за ним. Но не долго музыка играла.

Здесь начинается мой опыт №3. В отличие от всех сервисов агрегации данных, где всё по нескольку раз на день сверяется и синхронизируется с официальными источниками, у меня на сайте все было статично - я просто разово спарсил кучу данных и опубликовал у себя на сайте.

Если кто-то связан с подобного рода проектами или тендерами, Вы знаете, что данные там постоянно изменяются, появляются новые участники гос. закупок, уходят старые, выкладываются новые лоты и прочая динамичность. Из-за статики в данных у меня на проекте я не переживал, что упущу трафик - мне было достаточно 750к страниц для эксперимента, но не всё так просто.

Мне начали поступать звонки с того же управления, которое рассматривает все жалобы на сайты вокруг гос. и не только. Получалось такое, что кто-то удалял свои данные с сайта госзакупок, а у меня они были опубликованы и меня вежливо просили удалить определенные данные с сайта и после еще написать официальный ответ от имени владельца ресурса, что вот мол данные о таком-то с такого-то сайта удалены.

Также было много обращений вроде такого: поменять почти и номер телефона компании у нас в базе т.к. на официальном сайте и в других места они сами изменили всё, а у нас с статике стоит последние несколько месяцев устаревшая информация.

В конце концов, после очередного такого запроса, я устал отвлекаться и просто снёс проект, посчитав его по-своему успешным экспериментом.
Вы можете попробовать повторить мой опыт - это правда было увлекательно и полезно для опыта, но без нормальной динамики в синхронизации данных из разных источников от такого проекта можно получить больше нервотрепки, чем трафика и денег :-)

Вот и всё - такая вот получилась история, надеюсь вам понравилось. Жду в комментариях 8-)

Mikhail B. · 14.12.2021

Парсинг государственных

Опасное словосочетание на самом деле. Или сам пасринг идет на сторонних сайтах?

Alexbrush · 14.12.2021

Mikhail B. написал(а):
Опасное словосочетание на самом деле. Или сам пасринг идет на сторонних сайтах?

Нет, не на сторонних сайтах, а именно из официального сайта гос. закупа (ссылка в статье есть) всё тянул напрямую. Хоть нагрузка была и большой, они этот пшик даже не заметили. Хотя признаю с огнём играл по-своему. С другой стороны если так агрессивно парсить частный сайт, то эксперимент бы закончился на том, что их сервер бы падал постоянно.

soprano · 14.12.2021

Парсер Zakupki.gov.ru - давно пользуюсь для сбора контактов компаний и ИП, не знал, что это опасно.

Alexbrush · 14.12.2021

soprano написал(а):
Парсер Zakupki.gov.ru - давно пользуюсь для сбора контактов компаний и ИП, не знал, что это опасно.

Если открытый источник, то хоть руками я взял информацию, хоть зенкой в этом плане не опасно. Опасно нагрузку создавать на гос. сайты, но в целом они более чем мощные и устойчивые к нагрузкам.

Konrod_m · 14.12.2021

Интересный кейс. Может есть какой то шаблон или решение которое можно выложить до кучи?

Sanekk · 14.12.2021

Что делали для оптимизации БД с таким количеством записей?

Alexbrush · 14.12.2021

Sanekk написал(а):
Что делали для оптимизации БД с таким количеством записей?

В основном всё делалось в добавления индексов в БД. Сначала пытался вручную сделать, но не особо успешно. Потом нашел и купил старый плагин D-WP от некогда известного дорвейщика - это вроде сработало. Где-то в процессе я ещё тестировал через плагины кэширования настроить сокращение запросов к базе данных.

markwalberg · 14.12.2021

soprano написал(а):
Парсер Zakupki.gov.ru - давно пользуюсь для сбора контактов компаний и ИП, не знал, что это опасно.

а где такой взять? меня уже задрали названивать, если честно, тоже хотелось бы поюзать)

Alexbrush · 14.12.2021

Konrod_m написал(а):
Интересный кейс. Может есть какой то шаблон или решение которое можно выложить до кучи?

Ну остались эти шаблоны что на скринах и непосредственно использовал. Но так как делал для себя и больше разово, там не делал никаких входных настроек. Могу наверно завтра подтереть свои данные с шаблонов и прикрепить, но там ничего сверхъестественного т.к. я сам относительно средний опыт имею в сборке шаблонов.

markwalberg · 14.12.2021

Alexbrush написал(а):
Ну остались эти шаблоны что на скринах и непосредственно использовал. Но так как делал для себя и больше разово, там не делал никаких входных настроек. Могу наверно завтра подтереть свои данные с шаблонов и прикрепить, но там ничего сверхъестественного т.к. я сам относительно средний опыт имею в сборке шаблонов.

будет классно, с удовольствием посмотрел бы поковырял бы, буду ждать)

Alexbrush · 14.12.2021

markwalberg написал(а):
а где такой взять? меня уже задрали названивать, если честно, тоже хотелось бы поюзать)

А сам что-то собираешь по шаблонах или только готовое тестишь?) Это же увлекательно забабахать какую-то автоматизацию на Зенке, а парсинг данных это одно из простых занятий.

bigloafer · 14.12.2021

Парсинг только казахстанского сайта?

markwalberg · 14.12.2021

Alexbrush написал(а):
А сам что-то собираешь по шаблонах или только готовое тестишь?) Это же увлекательно забабахать какую-то автоматизацию на Зенке, а парсинг данных это одно из простых занятий.

пользуюсь готовыми решениями, сам тоже ковыряюсь иногда, torgi.gov.ru, например, пробовал, но там есть большие сложности с парсингом)

Koqpe · 14.12.2021

Alexbrush написал(а):
Здесь же на лету всё это добро публиковалось на сайт на Wordpress через XML-RPC на post-запросах - такое делал впервые и изрядно помучался, настраивая.

Интересно посмотреть было бы :ah:

.

bigloafer · 14.12.2021

markwalberg написал(а):
но там есть большие сложности с парсингом)

Например какие?

Koqpe · 14.12.2021

Сайт на доменe kz размещал? И интересно у какого хостера сервак брал?

soprano · 14.12.2021

markwalberg написал(а):
а где такой взять? меня уже задрали названивать, если честно, тоже хотелось бы поюзать)

Сделать самому или заказать, других вариантов не знаю.

Alexbrush · 14.12.2021

soprano написал(а):
Сделать самому или заказать, других вариантов не знаю.

Я вот тоже ему говорю, что проще свое сделать, если есть время. Да и интереснее будет процесс)

Alexbrush · 14.12.2021

Koqpe написал(а):
Сайт на доменe kz размещал? И интересно у какого хостера сервак брал?

Да на .kz -эксперимент проводил на поддомене от другого проекта. Сервер у меня немецкий - Contabo, а вот чтобы проходить по закону про домены .kz и местное размещение существуют свои приемы. Не бесплатно, но действенно.

sergio197675 · 14.12.2021

Приветствую! Начинал осваивать эту тему но пока забросил...спасибо , напомнили и мотивировали)
Зы - Rush в нике это про ту самую Rush или не Rush?)))

Alexbrush · 14.12.2021

sergio197675 написал(а):
Приветствую! Начинал осваивать эту тему но пока забросил...спасибо , напомнили и мотивировали)
Зы - Rush в нике это про ту самую Rush или не Rush?)))

Это Brush

и всё намного проще, чем привязка к одноименной компании Rush.
AlexBrush - это Alexandr Brushkivskiy или Александр Брушкивский

Alexbrush · 14.12.2021

bigloafer написал(а):
Парсинг только казахстанского сайта?

Да, но подобный эксперимент можно провести и на других гео, где есть подобные проекты и куда данных для привлечения трафика по НЧ запросам в подобной тематике.

Koqpe · 14.12.2021

Alexbrush написал(а):
а вот чтобы проходить по закону про домены .kz и местное размещение существуют свои приемы. Не бесплатно, но действенно.

Совсем заинтриговал :-)

.

DevOps · 15.12.2021

ПО РУ ЗАКУПКАМ
Если не столь критично "нон-стоп" и не хочется ждать, то
Открываем FileZilla
для ФЗ №223
Хост: ftp://ftp.zakupki.gov.ru/out/
Логин: fz223free
Пароль: fz223free
Порт: 21
для ФЗ №94 и ФЗ №44:
Хост: ftp://ftp.zakupki.gov.ru
Логин: free
Пароль:free
Порт: 21
Скачиваем за ночь 24 Tb данных, формируем списки госорганизаций, подрядчиков, субподрядчиков, ИП и частные компании, обогащаем данные из тендерной информации, ну короче делаем все что нам нужно на текущий момент.
Для non-stop (получать тендеры в режиме реального времени)нужен ключ организации.

Alexbrush · 15.12.2021

DevOps написал(а):
Если не столь критично "нон-стоп" и не хочется ждать, то
Открываем FileZilla
для ФЗ №223
Хост: ftp://ftp.zakupki.gov.ru/out/
Логин: fz223free
Пароль: fz223free
Порт: 21
для ФЗ №94 и ФЗ №44:
Хост: ftp://ftp.zakupki.gov.ru
Логин: free
Пароль:free
Порт: 21
Скачиваем за ночь 24 Tb данных, формируем списки госорганизаций, подрядчиков, субподрядчиков, ИП и частные компании, обогащаем данные из тендерной информации, ну короче делаем все что нам нужно на текущий момент.
Но можно и парсить, кому как удобней.
Для non-stop (получать тендеры в режиме реального времени)нужен ключ организации.

Всего-то 26 террабайта данных.
Если это ответ по теме моего поста, то в рамках эксперимента мне абсолютно не интересны были РУ госзакупки.

DevOps · 15.12.2021

Alexbrush написал(а):
Всего-то 26 террабайта данных.
Если это ответ по теме моего поста, то в рамках эксперимента мне абсолютно не интересны были РУ госзакупки.

Нет, не ответ Вам, просто для ознакомления тем кому это интересно. Тем более как я понял 26 000 Гигабайт информации вообще ни о чем
Добавил в предыдущий коммент поправку

markwalberg · 16.12.2021

bigloafer написал(а):
Например какие?

поймать нужные элементы там составляет некоторые сложности, потому что сайт изначально на столько криво и сделан не для людей, а для ...слово не могу подобрать даже для кого....

markwalberg · 16.12.2021

Alexbrush написал(а):
А сам что-то собираешь по шаблонах или только готовое тестишь?) Это же увлекательно забабахать какую-то автоматизацию на Зенке, а парсинг данных это одно из простых занятий.

всё ещё с нетерпением ждём готового решения

bigloafer · 16.12.2021

markwalberg написал(а):
поймать нужные элементы там составляет некоторые сложности, потому что сайт изначально на столько криво и сделан не для людей, а для ...слово не могу подобрать даже для кого....

Я думаю бессмысленно парсить через браузер. Дешевле будет подобрать запросы. 100% ответ идет через JSON.

Парсинг государственных закупок и опыт, который я из этого извлёк

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Похожие темы

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)