- Регистрация
- 07.05.2015
- Сообщения
- 2 177
- Благодарностей
- 2 183
- Баллы
- 113
Технические особенности шаблона:
- Шаблон делался в ProjectMaker RU 5.17.1.0 (так как последняя 5.17.2.0 версия слишком сырая и с багами, не рекомендую на ней запускать). Тестировался и на старых версиях (5.10.0.1). Стоит ограничение по запуску минимум 5.9.9.1, но как поведет себя на такой старой версии – хз. Закрытого типа (только выполнение). Если у вас нет ZennoPoster, то можно выписать лицензию вместе с Zennobox (мини-версия ZennoPoster), но это стоит +10$ к цене шаблона.
- Шаблон работает исключительно на запросах (без запуска вкладок браузера), что позитивно отражается на использовании ресурсов ПК и позволяет неплохо поднимать быстродействие парсинга в многопотоке, ибо основана нагрузка идет только на CPU.
- В работе шаблона используется свой алгоритм на основе C#-библиотек HtmlAgilityPack.dll (для работы с XML-ответами сервиса) и Newtonsoft.Json.dll (для обработки JSON ответов).
- Ключей API или логинов Яндекса здесь НЕ надо.
Минусы такого метода: если мы ищем в какой-то области, то в пределы ее квадрата могут попасть мелкие пограничные части соседних областей. А если эта область на границе с другой страной, то соответственно поиск затронет эту маленькую часть соседней страны. Потом ети «левые» объекты можно удалить по столбце адресов вручную, но в ~10% адресов может быть нестандартный синтаксис адреса (иногда нет указания страны, только город\область). То есть для чистоты результатов лучше все же парсить «по городам» а не «по областям». Хотя даже в ситуации с городом в квадрат поиска могут попасть пригородные поселки, но это уже не так критично.
Вот наглядный пример с картинкой. Допустим был задан регион поиска “Беларусь, Гомельска область”. На картинке видно, что в наш квадрат поиска попали как части соседних областей, так и часть других стран (снизу целый областной центр Украины, справа часть области России с мелкими городами). То есть в результатах поиска мы будем видеть объекты из этих участков карты тоже. Аналогичное произойдёт если мы парсим в каком-то городе, который плотно к пограничной зоне прилегает. Но таких городов мало, да и квадрат поиска вокруг города намного меньше получается, и обычно он захватит максимум части соседних деревень, а не соседних областей. То есть процент неточностей при парсинге городов не так страшен, как при парсинга областей.
Чтобы спарсить почти все организации в нужном регионе хватит просто использовать для поиска разнообразные фразы-ключи, под которые наиболее логично подходит список разделов Яндекс.Справочника (~ 1200 фраз, выдается в комплекте с файлами парсера). Используя этот метод получается за пару минут собрать практически все организации любого крупного города. Например, у меня на 100 потоках такие результаты (без пост-парсинга Email):
- Москва: 20 минут ~ 400 000 объектов (400 000 со словом «Москва» в адресе, но 530 000 в самом квадрате вокруг города Москва).
- Санкт-Петербург: 10 минут ~ 228 000 объектов (233 000).
- Самара: 3 минуты ~ 52 000 объектов (59 000).
- Сочи - 2 минуты ~28 880 объектов (29 180).
- Поиск конкурентов в своей нише\городе.
- Поиск фирм под рассылку\спам по телефону\Email.
- Поиск соц-страниц и сайтов организаций.
- Заполнение собственных сайтов\досок характеристиками объектов из Яндекс.Карт (есть же картинки-миниатюры, можно все аккуратно оформить).
- Заработок на указании услуг по парсингу Яндекс.Карт (создаёте темы по форумах, на Kwork).
1. Фраза поиска
2. Регион поиска
3. Название
4. Категории
5. Адрес полностью
6. Район области (не работает с конца 2019 года, но не убрал пока со структуры отчета)
7. Населённый пункт (не работает с конца 2019 года, но не убрал пока со структуры отчета)
8. Улица (не работает с конца 2019 года, но не убрал пока со структуры отчета)
9. Отдельный дом (не работает с конца 2019 года, но не убрал пока со структуры отчета)
10. Все услуги
11. Время работы
12. Телефоны (мобильные из России)
13. Телефоны (бесплатная линия справки)
14. Телефоны остальные (городские и нераспознанные)
15. Главный сайт
16. Все сайты
17. Вконтакте
18. Facebook
19. Instagram
20. Twitter
21. Одноклассники
22. Мой мир
23. YouTube
24. Все соц. и бизнес ссылки
25. Страничка на Яндекс. Карты
26. ID на Яндекс. Карты
27. Координаты Широта
28. Координаты Долгота
29. Мини-фото из поиска
30. Все мини-фото (макс. 3)
31. Мини-фото из панорамы
32. Картинка-логотип
33. Рейтинг
34. Количество Оценок
35. Количество Отзывов
36. Email (собираются отдельно из страниц ячейки [16. Все сайты])
2. Регион поиска
3. Название
4. Категории
5. Адрес полностью
6. Район области (не работает с конца 2019 года, но не убрал пока со структуры отчета)
7. Населённый пункт (не работает с конца 2019 года, но не убрал пока со структуры отчета)
8. Улица (не работает с конца 2019 года, но не убрал пока со структуры отчета)
9. Отдельный дом (не работает с конца 2019 года, но не убрал пока со структуры отчета)
10. Все услуги
11. Время работы
12. Телефоны (мобильные из России)
13. Телефоны (бесплатная линия справки)
14. Телефоны остальные (городские и нераспознанные)
15. Главный сайт
16. Все сайты
17. Вконтакте
18. Facebook
19. Instagram
20. Twitter
21. Одноклассники
22. Мой мир
23. YouTube
24. Все соц. и бизнес ссылки
25. Страничка на Яндекс. Карты
26. ID на Яндекс. Карты
27. Координаты Широта
28. Координаты Долгота
29. Мини-фото из поиска
30. Все мини-фото (макс. 3)
31. Мини-фото из панорамы
32. Картинка-логотип
33. Рейтинг
34. Количество Оценок
35. Количество Отзывов
36. Email (собираются отдельно из страниц ячейки [16. Все сайты])
Пример случайной выборки на 4000 строк из результатов парсинга разных фраз по нескольким городам\областям + результат работы в режиме [2. Геокодер]:
Скачать с Яндекс.Диск (файл CSV + XLSX, последний вручную заполнил и раскрасил).
Или посмотреть на гугл-докс:
1. Обычный парсинг - выборка на 4000 строк.CSV
2. Геокодер - популярные города-области Росии+СНГ
Подсказки по работе с крупными CSV файлами ищите в теме: Справочная: выборка из файловых баз, крупные *.txt файлы, регулярки, EmEditor, *.csv.
Видео-инструкция с примером первого запуска шаблона:
Цена: Не продается, так как схему безбраузерного парсинга Яндекс прикрыл и я так и не нашел альтернативы.
Контакты: личка форума, Telegram: orka13 (ссылка кликабельная, добавляйтесь по ней, а то могут быть мошенники с подобными никами), Skype: orkanavtica
Гарантия: возврат средств (манибек) за шаблон в течении 14 дней после его получения (за вычетом комиссии платежных систем). Здесь проблем нет, лояльно отношусь к такому требованию, даже если шаблон на 100% рабочий был, и дело чисто во вкусах покупателя.
Бесплатная Trial-версия: любому форумчанину со стаусом Client готов выдать шаблон наперед без оплаты (триалка на 14 дней). Даже под зенобокс (оплата комиссии сервиса за мой счет).
Лицензия: вечная, шаблон будет закрыт и прикреплен к вашему Email (ID) Zennolab. То есть можете запускать одновременно и на разных ПК, если у вас купленно несколько копий Zennoposter. Если же Zennoposter отсутствует вовсе, то выпишу лицензию под Zennobox, но оплата комиссии сервиса тогда за ваш счет (+10$).
Поддержка: стараюсь обновлять парсер после каждых изменений в сервисе ЯндексКарт (они где-то раз…два в год случаются). Но иногда это затягивается на длительные сроки. Именно вот последний раз больше месяца были проблемы с поиском рабочего решения. Если же нужны индивидуальные консультации по первому запуску шаблона или ZennoPoster, так как вы совсем дуб-дубом и ничего не понимаете, то и это возможно: схема «TeamViewer + Skype», ценник: 3$/10 минут. Если я вдруг пропаду, или кардинально сменю вид деятельности то понятно, что никто поддерживать шаблон вместо меня не будет. Открою тогда исходники и дальше уже сами разбирайтесь.
Последнее редактирование: