Импорт/Производство РФ. Мини мануал по сбору данных организаций для коммерческого применения.

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
109123


INTRO
Приветствую форум. Делюсь мини мануалом по сбору, обработке и созданию бизнес каталогов компаний и предприятий.
В настоящее время, такие бизнес каталоги компаний и предприятий актуальны по двум причинам
1 - Во-первых бизнес во многих странах перестраивается в связи с геополитической ситуацией в мире и нуждается как в новых рынках, так и в новых товарно-производственных связях. А как не хотелось бы - но производственно-сырьевой рынок РФ, в настоящее время самый перспективный.

2 - Во-вторых, (это прям феерично) многие международные брокеры данных отключили не только возможность работы с российскими потребителями, но и вообще убрали БД российских компаний из выдачи (К примеру, тот же Compass весной жаловался в Die Welt о том, что он недополучил 5 миллионов долларов прибыли из-за этого шага ).

3 - В-третьих, хотя в русскоязычном сегменте, на первый взгляд хватает предложений, но тут есть подводные камни (Кстати, два примера из Кворк где я размещал заказ 1 - мне на серьезных щах одна девочка предлагала купить за 600$ 1000 pdf страниц - "Это же все поставщики Садовода"2 - было предложение купить за 400 $ каталог производителей на 55 000 строк с полной выкладкой. В присланном скриншоте я узнал свой каталог, который собирал еще в далеком 2014 при помощи Datacol 3 - все остальное обыкновенная несуразица повторяющая друг друга, сомнительной свежести и содержания с тарифами от 50$ до 500$ )

Российские брокеры данных хоть и предоставляют адекватные каталоги, но порой имеют неадекватные цены, которые увеличиваются пропорционально заказанным дополнительным фильтрам. Но даже это не гарантирует вам что вы получите актуальные данные (следует отметить что некоторые брокеры достаточно ответственные, но таких прям вообще единицы).
Тупик? Нет!


При выборе цели для мануала я руководствовался следующим
1 - БД должна быть легко доступна и иметь ежемесячную/ежеквартальную актуализацию в обновлениях.
2 - БД должна быть достаточно информативна, но не перегружена ненужными позициями для коммерческого применения.
3 - Исходная информация для БД должна легко обрабатываться и иметь внятную структуру
4 - БД должна быть "самопродающейся" (когда внутреннее содержание само по себе является клиентской базой для БД).
5 - БД должна предусматривать возможность ее реализации для широкого номенклатурного спектра смежных и сторонних компаний.
6 - БД должна быть интересна не только для рынка РФ, но и для компаний других государств в области промышленности и производства.
Для того чтобы понимать, как осуществляется поиск я сделал небольшое, текущее отступление. Любое производство - это в первую очередь товар, не важно, что это ядерный реактор, движок тепловоза, мука или вязанные шапки, это все товарная позиция для выхода на рынок которой требуются разрешения. В данном случае - сертификация товара (следует отметить что это касается не только производства, но и импорта из других стран). Сертификацией товаров в РФ занимается Россакредитация, и согласно закону о предоставлении данных - у них есть то что нам нужно ( и откуда выпаршивают данные админы различных сайтов для своих ресурсов, откуда в свою очередь собирают данные "гуру" парсинга). Необходимо отметить и то, что не все товары подлежат сертификации, но в нашем случае это только плюс, даже два. Первый - компании выпускающие/импортирующие под сертификационную продукцию - стабильны, устойчивы и имеют продолжительный срок бизнес существования. Второй - компании которые добровольно сертифицируют не под сертификационную продукцию - мечта любого партнера, так как действуют в максимально строгих рамках законов и актов, а также четко следуют соглашениям (бывают исключения, но они подтверждения правил).Для чего было сделано данное отступление вы поймете к концу статьи.

Итак, знакомимся, Федеральная служба по аккредитации(Россаккредитация) https://fsa.gov.ru/

109126


Для мануала я не зря выбрал именно данный ресурс - с его помощью мы соберем самую востребованную и одну из дорогих БД, которая будет соответствовать всем тем требованиям, которые я указал выше.
Кстати, это будет только один из возможных бизнес каталогов компаний и предприятий производителей и импортеров, на деле только при помощи открытых данных указанной федеральной службы их собирается больше, но это узкоспециализированные и профессиональные решения, для которых нужны отдельные мануалы с пояснениями, поэтому остановимся на организациях.

Почему текущий каталог можно считать самопродающимся, ведь существует множество других баз компаний и предприятий? Все дело в его содержании и текущих событиях как в мире, так и в частности в РФ (в этом спойлере только про РФ, про другие страны дальше по тексту). Из за санкционных ограничений компании столкнулись с трудностями в закупках определенных товаров, так же как и в способах их доставки. Однако, как ни странно, и я лично в этом убедился, группы импортируемых товаров в большом объеме ( не полностью, а большом, преобладающем) производятся и в РФ. Не буду описсывать как лоббировались ранее закупки за рубежом, но в настоящее время компаниям необходимо где то импортозамещать товар - импортеры товаров которые есть в данном каталоге - первая группа потребителей этого бизнес каталога. А чтобы не уходить далеко - то вторая группа потребителей - производители, которым необходима ЦА компаний заинтерисованных в их продукции. Это уже не малый объем потенциальных потребителей, но, спойлер, это мизерная часть заинтерисованных в даной БД компаний.

1. Нахождение открытых данных, получение, распаковка.
Чтобы не загружать пост скриншотами со стрелочками, я записал видео как, что, где и как. Вышло немного продолжительно - но это мануал.


Командлеты:
$a = Invoke-Webrequest -Uri "https://fsa.gov.ru/opendata/7736638268-rss/"
cd desktop
$a.Links.href | Select-String -Pattern ".7z" | Select-String -Pattern "fsa.gov.ru" > links.txt

Конечно, такой подход для получения ссылок и быстрому скачиванию хоть и удобен, но актуален только в тех случаях, когда это разовая операция на каком-либо ресурсе и нам нужно просто быстро собрать ссылки на что-либо. Но в нашем случае мы учитываем следующее - мы создаем коммерческую БД, следовательно, ее необходимо будет ежемесячно либо ежеквартально обновлять, ну и плюс - мы на форуме автоматизаторов, поэтому мы создадим проект по принципу - "запустил и забыл".Каковы наши шаги в данной ситуации
- Получить ссылки со страницы
- Скачать архивы в папку на рабочем столе пользователя
- Распаковать архивы в текущую папку, архивы удалить.
Так как путь к странице к архиву можно считать константой, то можно просто законсолить команды, с указанием выходных путей по пользовательскому профилю (вдруг я завтра захочу запустить проект на другой машине, не переписывать же команды)

109127


Как это выглядит в нашем первом шаге. Следует сделать поправку. Код пишется "на лету" поэтому все шаги будут показаны последовательно. Я не знаю какие языки и стеки вы будете применять - моя цель просто дать базовые понятия поиска, обработки и компоновки баз данных для ваших целей и потребностей.



Таким образом мы сделали первый шаг - получили ссылки, загрузили архивы, распаковали и удалил загруженные файлы. Теперь нам необходимо почистить файлы от ненужных полей и также это сделать это в автоматическом режиме, а не удалением полей в EmEditor или Excell, а используя код. Так как это мини мануал, а не конкурсный шаблон или статья, то тут я только объясняю логику, кода не будет, каждый из вас волен сам решать, каким образом проводить обработку.
///
И вот тут я сразу должен сообщить некоторые моменты, которые меня напрягли и ввели в замешательство. Мой код не отрабатывал как положено выгруженные архивы, сыпал ошибками, вылетал либо компоновал невероятно "чудесные" результаты. Поэтому при обработке учитывайте следующие моменты (и запомните, это касается всех тех БД открытых данных с которыми вы возможно захотите работать в дальнейшем).

1 - По каким-то непонятным причинам в файлах разное количество столбцов. То есть до 2019 их меньше (но некоторые содержат полные набор). Я решил эту проблему просто - удалил архивы до середины 2019, так как не считаю эти данные актуальными (с учетом специфики - 5 лет оптимально для производства и промышленности, хотя стоит отметить что я выборочно проверял архивы 2015-2014 и половина из проверенных компаний были в рабочем состоянии причем с актуальной почтой)

2 - Второе, самое неприятное, что очень сильно нервирует, когда не понимаешь по какой причине код идет "на вылет" - это оформление данных. Точнее разделители полей. Мало того, что их три вида - запятая ,точка с запятой, вертикальный слэш - так еще некоторые содержат двойные кавычки по полям (да, я знаю, что это правильное оформление, но с учетом предыдущего они там неуместны, либо должны быть во всех каталогах).

3 - Исходя из пункта 2 (в части разделителей) не представляется возможным провести разбивку по столбцам стандартным сплитом (String.Split('')), даже с перебором через foreach указанных разделителей, так как - surprise - данные содержащиеся в столбцах содержат такие же символы и по факту на выходе у вас каждая строка будет иметь рандомное количество индексных объектов, а таблица превратится в "непонятное что".

Пришлось напрячься и привлечь стороннюю библиотеку. Кто будет работать в стеке .NET (C#, PowerShell) - рекомендую библиотеку Sylvan.Data.Csv.Давайте посмотрим, как она отрабатывает.


Скрипт отработал быстро, меньше минуты, прошел по всем 34 файлам, прочитал строки, корректно разделил, удалил ненужные индексные позиции, проигнорировал строки, которые не нужны и на выходе мы получили абсолютно свежую базу производителей и импортеров на 120360 компаний с 848000+ товарных позиций. Причем база содержит и контактные данные и ЛПР и адреса компаний и их производств (заводов/фабрик/цехов). Помимо этого, в базе присутствует и иностранные производители, но к сожалению, из контактных данных только их юридические адреса, адреса производств и филиалов.Но это пока еще не совсем бизнес каталог, нам стоит для удобства конечного обогатить некоторыми данными для того чтобы по завершению обработки установить выборочную фильтрацию. (Выходная БД будет в xlsx формате).

Первое что мы добавим, это возможность в дальнейшем создать фильтр товаров по производителям, точнее их странам. Для этого возьмем список обозначения стран ISO 3166-1 alpha-2 (найти удобные лично для вас таблицы мы сможете, отправив поисковый запрос в строке браузера - коды стран iso 3166-1 alpha-2). Затем нам необходимо из такого файла создать словарь - ключ/значение, где ключом выступает двухбуквенное обозначение страны (iso 3166), а значением все остальное. Потом мы берем файл, обработанный на предыдущем этапе и читаем его построчно, делим при помощи сплита, получаем как мы помним объект с индекса 27, данный объект сплитим при помощи пробела, берем нулевой (первый индекс) и сравниваем со словарем. После нахождения совпадения записываем выходную строку - сначала значение из словаря, затем объект с 27 индекса, потом всю остальную строку файла. Также ставим обозначение вертикальный слэш в качестве разделителя столбцов и не забываем из строки удалить объект под индексом 27 так как он перемещен в начало строки.
Что из этого вышло - смотрим на видео



В принципе, после того как Вы обработаете каталог и обогатите его при помощи ISO данных, то вопрос обработки столбцов ОКПД2 и ТН ВЭД для вас будет практически решенным, так как изменения код там не существенные. Алгоритм с поправками существенно не отличается от того что я привел выше. Все что нужно - изменить нумерацию индексов и добавить несколько условий.На выходе получим уже готовый "боевой" бизнес каталог. Смотрим.


Теперь о важном - я привел как пример БД Росаккредитации так как на ней можно быстро заработать стартовые деньги для своих проектов (такой аналог, причем в лайт формате по содержанию адекватно стоит около 400$ +/-50$, неадекватов не беру во внимание) но не стоит останавливаться только на этом. В большей части все БД унифицированы, имеют схожие структуры и когда вы сможете обработать приведенные вверху данные - для вас не составит труда работать с остальными.
Нужны строительные компании - идем в Минстрой, качаем открытые данные, обрабатываем, троговые компании и ритейлеры - Минпромторг, адвокаты, юристы, бухгалтера, эксперты, риелторы - Минюст, грузоперевозки - Минтранс, ФТС, Агентство по экспорту.
Кстати, по поводу грузоперевозчиков - с 1 июля запретили провоз европейских грузов по территории РФ польским перевозчикам, насколько я знаю впереди еще ряд стран которым запретят перевозки и вот тут ловите момент - на границе необходимо делать перевалку грузов и транспортные компании будут заинтересованы получить контакты из текущей БД чтобы предложить свои услуги импортерам по перевалке и перевозке.
Но почему останавливаться на одной стране? Во всех странах (почти всех) имеются свои сервисы по аккредитации и ресурсы с открытыми данными - при желании и наличии прямых рук можно собрать и обратать эти данные и предоставлять их по схеме SaaS либо продавать сторонним операторам и брокерам.
На этом у меня все и напоследок для хейтеров и блюстителей правил - любой пользователь имеет право получать, обрабатывать эти данные, создавать свои сервисы и продукты, а также использовать в коммерческих целях - о чем явно написано на странице с архивами https://fsa.gov.ru/opendata/


109132


PS Если статья попадется брокеру которому будет интересен уже готовый и собранный каталог без разработки и потери времени - то контакты ниже
Вопросы и предложения на Телеграмм @Shock_cybersystems
Почта [email protected]
 

Для запуска проектов требуется программа ZennoPoster.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте программу ZennoPoster. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

radv

Client
Регистрация
11.05.2015
Сообщения
3 788
Благодарностей
1 952
Баллы
113
Полезная информация, спасибо. Апну тему )
 
  • Спасибо
Реакции: DevOps

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
Полезная информация, спасибо. Апну тему )
Спасибо, тема локального бизнеса по РФ сейчас очень "горячая"
Для всего остального мира есть наборы по сотням миллионов организаций и ЛПР и также в открытом доступе :-)
109144
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
Каталог в полном виде продается
Цена 50USD в любой валюте
Контакты Телеграмм @Shock_cybersystems
Почта [email protected]
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)