Парсинг государственных закупок и опыт, который я из этого извлёк

Mikhail B. · 14.12.2021

Парсинг государственных

Опасное словосочетание на самом деле. Или сам пасринг идет на сторонних сайтах?

soprano · 14.12.2021

Парсер Zakupki.gov.ru - давно пользуюсь для сбора контактов компаний и ИП, не знал, что это опасно.

Konrod_m · 14.12.2021

Интересный кейс. Может есть какой то шаблон или решение которое можно выложить до кучи?

Sanekk · 14.12.2021

Что делали для оптимизации БД с таким количеством записей?

markwalberg · 14.12.2021

soprano сказал(а):
Парсер Zakupki.gov.ru - давно пользуюсь для сбора контактов компаний и ИП, не знал, что это опасно.

а где такой взять? меня уже задрали названивать, если честно, тоже хотелось бы поюзать)

markwalberg · 14.12.2021

Alexbrush сказал(а):
Ну остались эти шаблоны что на скринах и непосредственно использовал. Но так как делал для себя и больше разово, там не делал никаких входных настроек. Могу наверно завтра подтереть свои данные с шаблонов и прикрепить, но там ничего сверхъестественного т.к. я сам относительно средний опыт имею в сборке шаблонов.

будет классно, с удовольствием посмотрел бы поковырял бы, буду ждать)

bigloafer · 14.12.2021

Парсинг только казахстанского сайта?

markwalberg · 14.12.2021

Alexbrush сказал(а):
А сам что-то собираешь по шаблонах или только готовое тестишь?) Это же увлекательно забабахать какую-то автоматизацию на Зенке, а парсинг данных это одно из простых занятий.

пользуюсь готовыми решениями, сам тоже ковыряюсь иногда, torgi.gov.ru, например, пробовал, но там есть большие сложности с парсингом)

Koqpe · 14.12.2021

Alexbrush сказал(а):
Здесь же на лету всё это добро публиковалось на сайт на Wordpress через XML-RPC на post-запросах - такое делал впервые и изрядно помучался, настраивая.

Интересно посмотреть было бы :ah:

.

bigloafer · 14.12.2021

markwalberg сказал(а):
но там есть большие сложности с парсингом)

Например какие?

Koqpe · 14.12.2021

Сайт на доменe kz размещал? И интересно у какого хостера сервак брал?

soprano · 14.12.2021

markwalberg сказал(а):
а где такой взять? меня уже задрали названивать, если честно, тоже хотелось бы поюзать)

Сделать самому или заказать, других вариантов не знаю.

sergio197675 · 14.12.2021

Приветствую! Начинал осваивать эту тему но пока забросил...спасибо , напомнили и мотивировали)
Зы - Rush в нике это про ту самую Rush или не Rush?)))

Koqpe · 14.12.2021

Alexbrush сказал(а):
а вот чтобы проходить по закону про домены .kz и местное размещение существуют свои приемы. Не бесплатно, но действенно.

Совсем заинтриговал :-)

.

DevOps · 15.12.2021

ПО РУ ЗАКУПКАМ
Если не столь критично "нон-стоп" и не хочется ждать, то
Открываем FileZilla
для ФЗ №223
Хост: ftp://ftp.zakupki.gov.ru/out/
Логин: fz223free
Пароль: fz223free
Порт: 21
для ФЗ №94 и ФЗ №44:
Хост: ftp://ftp.zakupki.gov.ru
Логин: free
Пароль:free
Порт: 21
Скачиваем за ночь 24 Tb данных, формируем списки госорганизаций, подрядчиков, субподрядчиков, ИП и частные компании, обогащаем данные из тендерной информации, ну короче делаем все что нам нужно на текущий момент.
Для non-stop (получать тендеры в режиме реального времени)нужен ключ организации.

DevOps · 15.12.2021

Alexbrush сказал(а):
Всего-то 26 террабайта данных.
Если это ответ по теме моего поста, то в рамках эксперимента мне абсолютно не интересны были РУ госзакупки.

Нет, не ответ Вам, просто для ознакомления тем кому это интересно. Тем более как я понял 26 000 Гигабайт информации вообще ни о чем
Добавил в предыдущий коммент поправку

markwalberg · 16.12.2021

bigloafer сказал(а):
Например какие?

поймать нужные элементы там составляет некоторые сложности, потому что сайт изначально на столько криво и сделан не для людей, а для ...слово не могу подобрать даже для кого....

markwalberg · 16.12.2021

Alexbrush сказал(а):
А сам что-то собираешь по шаблонах или только готовое тестишь?) Это же увлекательно забабахать какую-то автоматизацию на Зенке, а парсинг данных это одно из простых занятий.

всё ещё с нетерпением ждём готового решения

bigloafer · 16.12.2021

markwalberg сказал(а):
поймать нужные элементы там составляет некоторые сложности, потому что сайт изначально на столько криво и сделан не для людей, а для ...слово не могу подобрать даже для кого....

Я думаю бессмысленно парсить через браузер. Дешевле будет подобрать запросы. 100% ответ идет через JSON.

Парсинг государственных закупок и опыт, который я из этого извлёк

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)