Парсинг данных (картинок) с поисковых систем (на примере Google) на C#

barkasian

Client
Регистрация
03.12.2014
Сообщения
127
Реакции
139
Баллы
43
Привет, друзья!
В рамках конкурса хочу с Вами поделиться своим шаблоном, в которых Вы сможете увидеть как с помощью нескольких строк в визуальном кубике C#-коде, можно получить список урлов картинок с Гугл по Вашему ключевику.

В качестве бонуса, предлагается кубик (так же в несколько строк) для сбора сниппетов из ПС Спутник.

data_parsing2.jpg

Вся соль шаблона зашита OwnCodeUsings
Приятного изучения! )

P.S.
Хочу выразить благодарность разработчикам и обитателям этого форума! Благодаря Вам я могу постигать всю прелесть, силу и красоту ZennoPoster!
 
Номер конкурса шаблонов
  1. Первый конкурс шаблонов
Уровень сложности
Продвинутый
Категория
  1. Парсинг

Вложения

Последнее редактирование:
Для меня оказалось познавательно
 
  • Спасибо
Реакции: barkasian
Ребят, подскажите что нужно настроить что бы работал шаблон?
Добавил ключи, запускаю => проект выполнен с ошибкой (и гугл и спутник)
 
Ребят, подскажите что нужно настроить что бы работал шаблон?
Добавил ключи, запускаю => проект выполнен с ошибкой (и гугл и спутник)
Скрин ошибок выложи
Я сейчас скачал с форума свой шаб и запустил. Сработало все на ок.
screen.jpg
 
Последнее редактирование:
Вот в лог
2018-02-23 09:38:48.9375|WARN|ZennoLab.LogLibrary.InternalError|Ошибка в модуле "Компиляция кода проекта"
Сообщение: "Ошибка при компиляции общего кода "CS0117" "'ZennoLab.Macros.TextProcessing' не содержит определение для 'Trim'". [Строка: 111; Cтолбец: 50]"
 
Вот в лог
2018-02-23 09:38:48.9375|WARN|ZennoLab.LogLibrary.InternalError|Ошибка в модуле "Компиляция кода проекта"
Сообщение: "Ошибка при компиляции общего кода "CS0117" "'ZennoLab.Macros.TextProcessing' не содержит определение для 'Trim'". [Строка: 111; Cтолбец: 50]"
Какая версия ZennoPoster у вас?
В случае чего в общем коде (OwnCodeUsings) 111 строку замените
Код:
Развернуть Свернуть Копировать
string snip = ZennoLab.Macros.TextProcessing.Trim(rxMatch.Value, "Full");

на

string snip = rxMatch.Value;
 
5.9.9.1
Ошибка исчезла, но появилась другая,
2018-02-23 10:20:18.1093|Error in Manager.DumpFiles.ListLastActivityTime: Path=C:\keyms.txt, Count=5, Separator=
, Synchronize=True, IsChanged=False, IsDeleted=False, IsRefreshed=False|System.NullReferenceException: Ссылка на объект не указывает на экземпляр объекта.
в ZennoLab.FileManager.Manager.DumpFiles()
 
В шаблон внесены изменения: переписан класс парсеров, с целью увлечения скорости и стабильности работы в многопотоке
См. стартовый пост.
 
Это шутка такая? что с этим шаблоном делать?
Зачем вообще выкладывать только кусок недоделанного шаблона?
 
Это шутка такая? что с этим шаблоном делать?
Зачем вообще выкладывать только кусок недоделанного шаблона?
Я дал Вам удочку. Что с ней делать - решает каждый для себя сам.
Этот "недоделанный шаблон" - он только в Вашей голове...
 
  • Спасибо
Реакции: tim.go
Я дал Вам удочку. Что с ней делать - решает каждый для себя сам.
Этот "недоделанный шаблон" - он только в Вашей голове...
Это всё равно что подарить ребёнку колёса от машинки, вместо машинки...
-Подростёшь сынок и сам решишь что это будет, - может машинка, может автобус, а может и бмп соберёшь со временем;
Вобщем сынок я тебе сделал подарок, а ты уже сам решишь что из него получится))
 
  • Спасибо
Реакции: Szerzs
а кол-во урлов как-то можно регулировать ?
А то по фразе телефон 48 шт нашел всего
 
в большую
Вот мне надо допусти 500-1000 шт как это сделать? и то бы они не были одинаковыми
Запрос к Гугл картинкам идет через get и данные берутся с "первого экрана". Если требуется больше картинок то тут наверно только через браузер с прокруткой
 
в большую
Вот мне надо допусти 500-1000 шт как это сделать? и то бы они не были одинаковыми
Запрос к Гугл картинкам идет через get и данные берутся с "первого экрана". Если требуется больше картинок то тут наверно только через браузер с прокруткой
https://www.google.ru/search?tbs=is...tbm=isch&q=&asearch=ichunk&as_q=keyword&ijn=0
где параметры:
tbs - фильтр;
as_q - поисковый запрос;
ijn - номер страницы (от нуля до хз скольки)) ).

По ссылке отдаётся чистый JSON без лишнего мусора, в отличие от ссылки использованной в шаблоне, соответственно увеличивается скорость и уменьшается трафик.

Регулярка для парсинга ссылок на картинки:
Код:
Развернуть Свернуть Копировать
(?<=\\\"ou\\\":\\\").*?(?=\\\")
Ссылки парсятся с экранированными слэшами, поэтому непосредственно во время парсинга либо после, нужно делать замену \/ на / и \\ на \ (или по регулярке \\(?=[^\\]) на пустоту)
 
Благодарю, за шаблон, как раз во-время, быстро и эффективно парсит картинки.
 
Последнее редактирование:
Запрос к Гугл картинкам идет через get и данные берутся с "первого экрана". Если требуется больше картинок то тут наверно только через браузер с прокруткой
А где могут понадобиться урлы картинок? Сами картинки не парсяться?
 
не работает, точнее код исполняется за секунду, но результата нет
 
не работает, точнее код исполняется за секунду, но результата нет
Салют, что именно не работает?
Сейчас скачал шаблон с первого поста и запустил. Сниппеты для Гугла и Спутника отработали как следует.
 
Спасибо, что поделились. Я люблю учиться рыбачить.
 
Привет, друзья!
В рамках конкурса хочу с Вами поделиться своим шаблоном, в которых Вы сможете увидеть как с помощью нескольких строк в визуальном кубике C#-коде, можно получить список урлов картинок с Гугл по Вашему ключевику.

В качестве бонуса, предлагается кубик (так же в несколько строк) для сбора сниппетов из ПС Спутник.

Посмотреть вложение 27440

Вся соль шаблона зашита OwnCodeUsings
Приятного изучения! )

P.S.
Хочу выразить благодарность разработчикам и обитателям этого форума! Благодаря Вам я могу постигать всю прелесть, силу и красоту ZennoPoster!
Подскажите пожалуйста, при парсинге выдает, что ни одного фото не найдено, как это можно поправить?

P.S пробовал кучу разных запросов, на них точно есть фото
 
Подскажите пожалуйста, при парсинге выдает, что ни одного фото не найдено, как это можно поправить?

P.S пробовал кучу разных запросов, на них точно есть фото
Такая же ерунда.
 
Подскажите пожалуйста, при парсинге выдает, что ни одного фото не найдено, как это можно поправить?

P.S пробовал кучу разных запросов, на них точно есть фото

Такая же ерунда.

Гугл стал кодировать путь картинки в base64
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)