Регулярка

Raylet

Новичок
Регистрация
29.09.2021
Сообщения
1
Благодарностей
0
Баллы
1
Здравствуйте, никак не могу сообразить как спарсить картинки

https://.*?\.jpg в результате обработки два одинаковых фото((, пожалуйста подскажите, как составить верно

картинки в форматах jpg и png
Screenshot_2.jpg
 

Вложения

Gunjubasik

Client
Регистрация
30.05.2019
Сообщения
3 523
Благодарностей
1 321
Баллы
113
Здравствуйте, никак не могу сообразить как спарсить картинки

https://.*?\.jpg в результате обработки два одинаковых фото((, пожалуйста подскажите, как составить верно

картинки в форматах jpg и png
Посмотреть вложение 83503
C#:
htt.*g
C#:
htt.*(jpg|png)
83507
 
  • Спасибо
Реакции: Raylet и Roman48

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
745
Баллы
113

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113
  • Спасибо
Реакции: Deisler и Raylet

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28
Берёшь Page.Dom . Копируешь его в Notepad++. Находишь в Notepad++ .jpg и рассматриваешь, что вокруг .jpg

Разглядывая строку, в которой ссылка, обнаруживаешь, что никаких https:// там нет. Причём обычное дело, что нет начала ссылки.
Видимо сайту не нужно https:// , чтобы ссылаться на самого себя.
Вот кусок строки с ссылкой:
title="Блок питания Thermaltake Smart RGB 700W (PS-SPR-0700NHSAWE-1)" src="/upload/2b/128x128/2bdf21519310e2d9dad1a7a75d6aac01_128x128.jpg" height="128" width="128">

И далее смотришь на строку и делаешь регулярку:
Перед искомым текстом всегда есть: src="
Искомый текст всегда начинается с: /upload/
Этим заканчивается искомый текст: g ( Должна парсить и jpg и png, ей без разницы.)
Это идёт после искомого текста: " height (Возможно лучше изменить мою регулярку, оставив просто кавычку с пробелом.)

У меня получилась вот такая регулярка: (?<=src=")/upload/[\w\W]*?g(?="\ height)
Hа всякий случай с переносами, хоть их и не будет.
А что sergodjan66 говорит, вообще всё делай, он никогда не ошибается: попробуй парсить в список и удаляй дубли.
 
Последнее редактирование:
  • Спасибо
Реакции: Raylet

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28
Спасибом не отделаешься ))
Сумел проделать всё, что написано? Что показалось трудным, в каком месте поплыл?

Notepad++ теперь используешь при написании регулярок?
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)