Парсинг картинок с Amazon

Agent

Client
Joined
Dec 25, 2018
Messages
214
Reaction score
58
Points
28
Помогите с парсингом ссылок на картинки с Амазон.
В общем, получилось только такую регулярку подобрать более менее работающую (?<=data-old-hires=").*(?="\ data-a)
Некоторые ссылки нормально отдает, некоторые с таким мусором " class="a-dynamic-image a-stretch-vertical" id="landingImage.
А иногда одни и те же ссылки выдает, хотя фото несколько. В тестере регулярных выражений то корректно все, то только 1 фото находит, смотря какая страница продукта.
 

Attachments

Bablozavr

Client
Joined
Jan 26, 2018
Messages
309
Reaction score
164
Points
43
На будущее, если к шаблону еще и файл с входящими данными будет приложен, или хотя бы пример страницы, чтобы не тратить время на поиски, будет проще вам помогать.
А то есть такая поговорка:
Без четкого ТЗ, результат ХЗ
 

Agent

Client
Joined
Dec 25, 2018
Messages
214
Reaction score
58
Points
28
Нужны URL фото товаров. В файле "Список страниц на продукты.txt" примеры. Файлы "URL картинок.txt" и "Результат.xlsx" пустые.
 

Attachments

Bablozavr

Client
Joined
Jan 26, 2018
Messages
309
Reaction score
164
Points
43
Попробуй эту регулярку :-)
Code:
(?<=data-old-hires=").*?(?=")
44.jpg
 

Agent

Client
Joined
Dec 25, 2018
Messages
214
Reaction score
58
Points
28
В тестере вижу все ОК, у меня тоже так было, а на практике парсится только одна картинка. На другой странице попробовал, в тестере 2 картинки из 5 находит.
 
Last edited:

Bablozavr

Client
Joined
Jan 26, 2018
Messages
309
Reaction score
164
Points
43
Сейчас проверил, если не навести мышкой на миниатюры, то да, подгружается 1 картинка, нужно подумать.
Чтобы не вставляло предыдущие картинки, добавь после кубика перехода по ссылке, кубик очистки списка "URL картинок".
 

Astraport

Client
Joined
May 1, 2015
Messages
5,080
Reaction score
4,597
Points
113
Перед парсингом нужно все картинки прокликивать. Тогда появятся URL с большими изображениями.
 

Agent

Client
Joined
Dec 25, 2018
Messages
214
Reaction score
58
Points
28
Очистку сделал в конце шаблона, после того как данные помещены в таблицу.
Да, тут такой ньюанс еще. Бывает, что у товара несколько вариантов по цветам. По дефолту сначала показываются одного цвета, а при выборе других вариантов показываются другие фото.
 

Bablozavr

Client
Joined
Jan 26, 2018
Messages
309
Reaction score
164
Points
43
Пробуй, пища для размышлений есть, без кликов.
Единственно, отредактируй список под себя, откуда будут браться ссылки.

Бывает, что у товара несколько вариантов по цветам.
При клике на цвет, меняется ссылка в строке браузера Зенки, думаю нужно копать в эту сторону.
 

Attachments

Last edited:
  • Thank you
Reactions: Agent

Agent

Client
Joined
Dec 25, 2018
Messages
214
Reaction score
58
Points
28
Спасибо большое! Работает! )
При клике на цвет, меняется ссылка в строке браузера Зенки, думаю нужно копать в эту сторону.
Да, в Амазоне это как-бы другой продукт считается со своим ASIN, который и выводится в строке браузера.
Далее после шага "Получаем id картинок" делаем клик на вариацию продукта. В случае успеха, опять собираем id и складываем в файл. Правильно?
 

Bablozavr

Client
Joined
Jan 26, 2018
Messages
309
Reaction score
164
Points
43
Да, в Амазоне это как-бы другой продукт считается со своим ASIN, который и выводится в строке браузера.
Далее после шага "Получаем id картинок" делаем клик на вариацию продукта. В случае успеха, опять собираем id и складываем в файл. Правильно?
Примерно так:
После того, как прошли весь путь, делаем проверку, есть ли другие цвета, если нет, закончили работу.
Если имеются, парсим ссылки в отдельный список (можно не создавать файлов, а использовать временный список), затем по очереди берем каждую ссылку и собираем данные.
Или добавляем полученную ссылку в исходный файл со списком ссылок.

Я просто не совсем понимаю каков должен быть итоговый результат, относительно других цветов одного товара, по этому предложил такие пути. :-)
 

Users Who Are Viewing This Thread (Total: 1, Members: 0, Guests: 1)