Парсинг изображений из Google картинок

  • Автор темы Автор темы Santorini
  • Дата начала Дата начала
Название тестового шаблона
parsing google images (test)

Santorini

Creators Template
Регистрация
29.08.2019
Сообщения
775
Реакции
993
Баллы
93
Описание

Парсинг изображений из Google картинок
- шаблон для ZennoPoster, с функцией скачивания и сбора ссылок на изображения, по поисковым запросам указанным во входящем файле. Предусмотрена возможность фильтрации изображений по следующим критериям: размер картинок, форма картинок, тип картинок, страна, формат файлов, права на использование. Изображения сохраняются в папку с названием, которое соответствует тексту запроса. Одно выполнение - обработка одного запроса. Для обработки всех запросов в многопоточном режиме, нужно указать количество выполнение соответствующее количеству запросов. Также сохраняется прямая ссылка на картинку, ссылка на страницу сайта, описание картинки, в файл формата csv

78290
78291


Как пользоваться?

Перед запуском шаблона на выполнение, необходимо заполнить входящие настройки:
  • Основные настройки
    • Сохранять:
      • картинки
      • ссылки на картинки
      • картинки и ссылки
    • Не использовать прокси (установить галку, что бы парсить без использования прокси)
    • Оригинальные названия (установить галку, что бы оставить оригинальные названия файлов, вместо нумерации)
    • Сохранять в одну папку (установить галку, для сохранения картинок по всем запросам в одну папку)
    • Количество изображений по запросу
    • Тип поиска:
      • по запросу (необходимо указать путь к файлу с запросами)
      • по сайту (необходимо указать ссылку на сайт или домен)
    • Укажите путь к файлу с запросами (например: морской осьминог)
    • Сайт или домен (поиск на определенном сайте (например, sfmoma.org) или в домене (например, .edu, .org или .gov))
    • Укажите путь к файлу с прокси (необязательно, формат: protocol://login:password@ip:port, справка по формату прокси)
    • Директория сохранения (необязательно)
  • Фильтр поиска
    • Размер картинок (поиск картинок нужного размера)
    • Форма картинок (поиск картинок нужной формы)
    • Тип картинок (поиск картинок определенной формы)
    • Страна (поиск картинок, опубликованных в определенной стране)
    • Формат файлов (поиск картинок определенного формата)
    • Права на использование (поиск картинок, которые можно бесплатно использовать, распространять и изменять)

Минимальная версия ZennoPoster для работы шаблона - 7.1.3.0
 
Категория
  1. Парсинг
Тип шаблона
Открытый
Многопоточность
Да
Дата обновления
15.09.2021
Описание обновления
исправлена ошибка при парсинге пути к файлу

Вложения

Последнее редактирование:
Спасибо большое. отлично работает! хотел сам садиться писать, но Вы это прекрасно сделали до меня) очень благодарен!
вопрос только: Почему до 100 изображений на запрос?
 
Добрый день @Santorini измените пожалуйста шаблон, уберите пожалуйста ограничение в 100. По опыту почти каждый раз нужно намного больше картинок на одну тему чем 100.
 
Добрый день @Santorini измените пожалуйста шаблон, уберите пожалуйста ограничение в 100. По опыту почти каждый раз нужно намного больше картинок на одну тему чем 100.
Шаблон открытый, можно самостоятельно решить вопрос.
 
Добрый день @Santorini у меня на 7.1.2.1 не работает кнопка выбора пути для прокси.Её просто нет в шаблоне.
Снова очень прошу убрать ограничение на скачивание в 100 фотографий.Нужно иметь возможность выкачать все фото,которые доступны по ключу
 
Шаблон открытый, можно самостоятельно решить вопрос.
Добрый день @one. Можно конечно, тем, кто умеет,знает,понимает как это делается,но я не умею.Научите,попробую.
 
Добрый день @Santorini ещё если можно добавьте пожалуйста возможность выбора, складывать в разные папки, или складывать все фотографии по всем запросам в одну папку. Тут надо продумать логику сохранения, так как у вас в каждой папке фотографии сохраняются под номерами 1-100. Как вариант можно использовать оригинальные названия изображений и тогда если будет встречаться снова такое же изображение, то парсер или перезапишет на новое изображение, или после названия допишет_2,_3 и так далее. Для этого тоже нужно будет сделать чекбокс.
 
Последнее редактирование:
Почему до 100 изображений на запрос?
уберите пожалуйста ограничение в 100. По опыту почти каждый раз нужно намного больше картинок на одну тему чем 100.
Добавлен обход лимита в 100 изображений на один запрос
Добрый день @Santorini ещё если можно добавьте пожалуйста возможность выбора, складывать в разные папки, или складывать все фотографии по всем запросам в одну папку. Тут надо продумать логику сохранения, так как у вас в каждой папке фотографии сохраняются под номерами 1-100. Как вариант можно использовать оригинальные названия изображений и тогда если будет встречаться снова такое же изображение, то парсер или перезапишет на новое изображение, или после названия допишет_2,_3 и так далее. Для этого тоже нужно будет сделать чекбокс.
Добавил возможность сохранять изображения с оригинальным названием, сохранять всё в одну папку, а также указывать папку для сохранения
 
Здравствуйте! Вопрос такой, по логам всё отлично "загрузили все изображения" но изображений нет
 
А как сделать так, что бы софт работал на прокси которые собирает Зенка? Ну или вообще как их отключить,так как у меня впн.
 
Здравствуйте! Вопрос такой, по логам всё отлично "загрузили все изображения" но изображений нет
Здравствуйте!
Ваши прокси не в бане у Google? Инстанс с картинками отображается при запуске шаблона?
Можете пожалуйста сделать трассировку проекта и прислать полученный файл
А как сделать так, что бы софт работал на прокси которые собирает Зенка? Ну или вообще как их отключить,так как у меня впн.
Нужно в настройках шаблона в ZennoPoster выбрать использование прокси. А во входящем файле с прокси, указать пустые строки. В этом случае прокси будут браться из ProxyChecker
62215
 
  • Спасибо
Реакции: Rockyork
Крассава! Все работает без каких либо доп. танцев с бубном!
 
Прокси жуёт как родной, всё отлично.
 
Santorini, при парсинге фото использую прокси из прокси чекера, видимо из за низкой скорости некоторых прокси очень много фото не догружается, их либо меньше, чем указано в настройках, либо фото есть, но они не отображаются, предположил, что надо дать больше времени для загрузки, открыл ваш шаблон в PM, но не очень понятно где менять, посмотрите на скрине, это или не нет и на сколько можно увеличить таймаут?

Скриншот 27-11-2020 09.57.40.png
 
Подключил прокси свои
Создал все необходимые файлы откуда брать запросы и куда на выходе кидать ссылки с результатов поиска.
Но...
Столкнулся с нюансом что скрипт после выполнения 1 запросы останавливается и не идет повторят эти же шаги с следующим запросом.


Что могло послужить причиной данного нюанса уважаемые?
 
Подключил прокси свои
Создал все необходимые файлы откуда брать запросы и куда на выходе кидать ссылки с результатов поиска.
Но...
Столкнулся с нюансом что скрипт после выполнения 1 запросы останавливается и не идет повторят эти же шаги с следующим запросом.


Что могло послужить причиной данного нюанса уважаемые?
Нужно указать количество выполнений. За одно выполнение обрабатывается один запрос из файла
68667
 
  • Спасибо
Реакции: majorjora
Santorini
какая ячейка за это отвечает такое меню у меня отсутствует почему то
 
Santorini
какая ячейка за это отвечает такое меню у меня отсутствует почему то
Такая вкладка есть в ZennoPoster. Добавляете шаблон в ZennoPoster, заполняете входящие настройки (ПКМ -> Настройки) и указываете количество выполнений
68669


Santorini, при парсинге фото использую прокси из прокси чекера, видимо из за низкой скорости некоторых прокси очень много фото не догружается, их либо меньше, чем указано в настройках, либо фото есть, но они не отображаются, предположил, что надо дать больше времени для загрузки, открыл ваш шаблон в PM, но не очень понятно где менять, посмотрите на скрине, это или не нет и на сколько можно увеличить таймаут?

Посмотреть вложение 67893
Да, попробуйте в этом кубике увеличить таймаут. Но желательно использовать не публичные прокси, т.к. может нестабильно работать шаблон
 
Последнее редактирование:
  • Спасибо
Реакции: majorjora
Понял, спасибо а то я из project maker'a не вылазил...
В молчанку играет при выполнении скрипта
В логе нет ничего

68672
 
В интстанте картинки видно, но в папку они не сохраняются, что может быть?
трассировка

12-01-2021 11:37:57.6988|In |ec42465a-3c80-4fd5-bb04-afb90af2fc5e|
12-01-2021 11:37:57.6988|Good|ec42465a-3c80-4fd5-bb04-afb90af2fc5e|0
12-01-2021 11:37:57.6998|In |994cf945-2c16-4c3c-b285-9f072dfb316a|
12-01-2021 11:37:57.7008|Bad |994cf945-2c16-4c3c-b285-9f072dfb316a|0
12-01-2021 11:37:57.7008|In |22bf79d7-e6df-4bca-a2c4-1180ea2edfac|
12-01-2021 11:37:57.7008|Bad |22bf79d7-e6df-4bca-a2c4-1180ea2edfac|0
12-01-2021 11:37:57.7017|In |ba965fd1-8209-466a-b893-5eedc43451cd|
12-01-2021 11:37:57.7027|Good|ba965fd1-8209-466a-b893-5eedc43451cd|0
12-01-2021 11:37:57.7027|In |ba53a890-835f-4388-8a67-ba49aa0b71b7|
12-01-2021 11:37:57.7037|Good|ba53a890-835f-4388-8a67-ba49aa0b71b7|0
12-01-2021 11:37:57.7037|In |733e27fa-0231-49ff-a01e-c79e79e4e261|
12-01-2021 11:37:57.7047|Good|733e27fa-0231-49ff-a01e-c79e79e4e261|0
12-01-2021 11:37:57.7047|In |2f171f57-51d6-4b39-a227-ab3bf213c45e|
12-01-2021 11:38:00.0202|Good|2f171f57-51d6-4b39-a227-ab3bf213c45e|2314
12-01-2021 11:38:00.0202|In |094ee32d-8943-448c-823b-90d7b45193fb|
12-01-2021 11:38:00.0202|Bad |094ee32d-8943-448c-823b-90d7b45193fb|0
 
В интстанте картинки видно, но в папку они не сохраняются, что может быть?
трассировка

12-01-2021 11:37:57.6988|In |ec42465a-3c80-4fd5-bb04-afb90af2fc5e|
12-01-2021 11:37:57.6988|Good|ec42465a-3c80-4fd5-bb04-afb90af2fc5e|0
12-01-2021 11:37:57.6998|In |994cf945-2c16-4c3c-b285-9f072dfb316a|
12-01-2021 11:37:57.7008|Bad |994cf945-2c16-4c3c-b285-9f072dfb316a|0
12-01-2021 11:37:57.7008|In |22bf79d7-e6df-4bca-a2c4-1180ea2edfac|
12-01-2021 11:37:57.7008|Bad |22bf79d7-e6df-4bca-a2c4-1180ea2edfac|0
12-01-2021 11:37:57.7017|In |ba965fd1-8209-466a-b893-5eedc43451cd|
12-01-2021 11:37:57.7027|Good|ba965fd1-8209-466a-b893-5eedc43451cd|0
12-01-2021 11:37:57.7027|In |ba53a890-835f-4388-8a67-ba49aa0b71b7|
12-01-2021 11:37:57.7037|Good|ba53a890-835f-4388-8a67-ba49aa0b71b7|0
12-01-2021 11:37:57.7037|In |733e27fa-0231-49ff-a01e-c79e79e4e261|
12-01-2021 11:37:57.7047|Good|733e27fa-0231-49ff-a01e-c79e79e4e261|0
12-01-2021 11:37:57.7047|In |2f171f57-51d6-4b39-a227-ab3bf213c45e|
12-01-2021 11:38:00.0202|Good|2f171f57-51d6-4b39-a227-ab3bf213c45e|2314
12-01-2021 11:38:00.0202|In |094ee32d-8943-448c-823b-90d7b45193fb|
12-01-2021 11:38:00.0202|Bad |094ee32d-8943-448c-823b-90d7b45193fb|0
Подскажите пожалуйста какие входящие настройки указаны в шаблоне и запросы в файле?
 
запрос 1 - "краски"
Обновил шаблон, скачать его можно из главного поста:
Список изменений:
  • исправлено сохранение изображений в нестандартную директорию
  • обновлена проверка количества загруженных изображений
  • исправлено удаление лишних файлов
  • удалены неиспользуемые переменные
  • минимальная версия изменена на 7.1.3.0
  • обновлены сообщения, которые выводятся в лог
  • другие мелкие изменения
 
Cкачал последнюю версию
в инстанте скролит вниз до конца и замерает на 0%
версия 7.3.1
70798
 
Cкачал последнюю версию
в инстанте скролит вниз до конца и замерает на 0%
версия 7.3.1
Посмотреть вложение 70798
А в логе есть сообщения о скачивании изображений?

70804


Попробуйте подождать, если зависает и в логе нет никакой информации - сделайте пожалуйста трассировку проекта и пришлите мне полученный файл
 
Вот файл
 

Вложения

  • 67.txt
    67.txt
    460,2 KB · Просмотры: 306
Крутой шаблон! автору шаблона отдельный респект!, помог настроить!
 
  • Спасибо
Реакции: Santorini

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)