Регулярка

The_vAe · 29.09.2021

Raylet сказал(а):
Здравствуйте, никак не могу сообразить как спарсить картинки

https://.*?\.jpg в результате обработки два одинаковых фото((, пожалуйста подскажите, как составить верно

картинки в форматах jpg и png

https://chocomart.kz/upload/fd/fd7cd7aaaba74cee579d836337768ce9.jpg

https://chocomart.kz/upload/d1/d1b658adb217bf5f393e7aa6cfe0927f.jpg

https://chocomart.kz/upload/2f/2f2e3373457765f0f531e04919cb7d6b.png
Посмотреть вложение 83503

C#:

htt.*g

C#:

htt.*(jpg|png)

Roman48 · 29.09.2021

Надо попробовать разрешить переносы.
https://[\w\W]*\.png

Sergodjan · 29.09.2021

Raylet сказал(а):
в результате обработки два одинаковых фото

Можно парсить в список и потом чистить его на дубли.

smartwisard · 29.09.2021

Берёшь Page.Dom . Копируешь его в Notepad++. Находишь в Notepad++ .jpg и рассматриваешь, что вокруг .jpg

Разглядывая строку, в которой ссылка, обнаруживаешь, что никаких https:// там нет. Причём обычное дело, что нет начала ссылки.
Видимо сайту не нужно https:// , чтобы ссылаться на самого себя.
Вот кусок строки с ссылкой:
title="Блок питания Thermaltake Smart RGB 700W (PS-SPR-0700NHSAWE-1)" src="/upload/2b/128x128/2bdf21519310e2d9dad1a7a75d6aac01_128x128.jpg" height="128" width="128">

И далее смотришь на строку и делаешь регулярку:
Перед искомым текстом всегда есть: src="
Искомый текст всегда начинается с: /upload/
Этим заканчивается искомый текст: g ( Должна парсить и jpg и png, ей без разницы.)
Это идёт после искомого текста: " height (Возможно лучше изменить мою регулярку, оставив просто кавычку с пробелом.)

У меня получилась вот такая регулярка: (?<=src=")/upload/[\w\W]*?g(?="\ height)
Hа всякий случай с переносами, хоть их и не будет.
А что sergodjan66 говорит, вообще всё делай, он никогда не ошибается: попробуй парсить в список и удаляй дубли.

smartwisard · 30.09.2021

Спасибом не отделаешься ))
Сумел проделать всё, что написано? Что показалось трудным, в каком месте поплыл?

Notepad++ теперь используешь при написании регулярок?

Поиск

Регулярка

Raylet

Новичок

Вложения

The_vAe

Client

Roman48

Client

Sergodjan

Administrator

smartwisard

Client

smartwisard

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)