Парсинг картинок с Amazon

Agent

Client
Регистрация
25.12.2018
Сообщения
155
Благодарностей
48
Баллы
28
Помогите с парсингом ссылок на картинки с Амазон.
В общем, получилось только такую регулярку подобрать более менее работающую (?<=data-old-hires=").*(?="\ data-a)
Некоторые ссылки нормально отдает, некоторые с таким мусором " class="a-dynamic-image a-stretch-vertical" id="landingImage.
А иногда одни и те же ссылки выдает, хотя фото несколько. В тестере регулярных выражений то корректно все, то только 1 фото находит, смотря какая страница продукта.
 

Вложения

Bablozavr

Client
Регистрация
26.01.2018
Сообщения
310
Благодарностей
163
Баллы
43
На будущее, если к шаблону еще и файл с входящими данными будет приложен, или хотя бы пример страницы, чтобы не тратить время на поиски, будет проще вам помогать.
А то есть такая поговорка:
Без четкого ТЗ, результат ХЗ
 

Agent

Client
Регистрация
25.12.2018
Сообщения
155
Благодарностей
48
Баллы
28
Нужны URL фото товаров. В файле "Список страниц на продукты.txt" примеры. Файлы "URL картинок.txt" и "Результат.xlsx" пустые.
 

Вложения

Bablozavr

Client
Регистрация
26.01.2018
Сообщения
310
Благодарностей
163
Баллы
43
Попробуй эту регулярку :-)
Код:
(?<=data-old-hires=").*?(?=")
44.jpg
 

Agent

Client
Регистрация
25.12.2018
Сообщения
155
Благодарностей
48
Баллы
28
В тестере вижу все ОК, у меня тоже так было, а на практике парсится только одна картинка. На другой странице попробовал, в тестере 2 картинки из 5 находит.
 
Последнее редактирование:

Bablozavr

Client
Регистрация
26.01.2018
Сообщения
310
Благодарностей
163
Баллы
43
Сейчас проверил, если не навести мышкой на миниатюры, то да, подгружается 1 картинка, нужно подумать.
Чтобы не вставляло предыдущие картинки, добавь после кубика перехода по ссылке, кубик очистки списка "URL картинок".
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 949
Благодарностей
4 372
Баллы
113
Перед парсингом нужно все картинки прокликивать. Тогда появятся URL с большими изображениями.
 

Agent

Client
Регистрация
25.12.2018
Сообщения
155
Благодарностей
48
Баллы
28
Очистку сделал в конце шаблона, после того как данные помещены в таблицу.
Да, тут такой ньюанс еще. Бывает, что у товара несколько вариантов по цветам. По дефолту сначала показываются одного цвета, а при выборе других вариантов показываются другие фото.
 

Bablozavr

Client
Регистрация
26.01.2018
Сообщения
310
Благодарностей
163
Баллы
43
Пробуй, пища для размышлений есть, без кликов.
Единственно, отредактируй список под себя, откуда будут браться ссылки.

Бывает, что у товара несколько вариантов по цветам.
При клике на цвет, меняется ссылка в строке браузера Зенки, думаю нужно копать в эту сторону.
 

Вложения

Последнее редактирование:
  • Спасибо
Реакции: Agent

Agent

Client
Регистрация
25.12.2018
Сообщения
155
Благодарностей
48
Баллы
28
Спасибо большое! Работает! )
При клике на цвет, меняется ссылка в строке браузера Зенки, думаю нужно копать в эту сторону.
Да, в Амазоне это как-бы другой продукт считается со своим ASIN, который и выводится в строке браузера.
Далее после шага "Получаем id картинок" делаем клик на вариацию продукта. В случае успеха, опять собираем id и складываем в файл. Правильно?
 

Bablozavr

Client
Регистрация
26.01.2018
Сообщения
310
Благодарностей
163
Баллы
43
Да, в Амазоне это как-бы другой продукт считается со своим ASIN, который и выводится в строке браузера.
Далее после шага "Получаем id картинок" делаем клик на вариацию продукта. В случае успеха, опять собираем id и складываем в файл. Правильно?
Примерно так:
После того, как прошли весь путь, делаем проверку, есть ли другие цвета, если нет, закончили работу.
Если имеются, парсим ссылки в отдельный список (можно не создавать файлов, а использовать временный список), затем по очереди берем каждую ссылку и собираем данные.
Или добавляем полученную ссылку в исходный файл со списком ссылок.

Я просто не совсем понимаю каков должен быть итоговый результат, относительно других цветов одного товара, по этому предложил такие пути. :-)
 
  • Спасибо
Реакции: Andrew Shell и Agent

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)