Парсинг картинок через регулярное выражение

Fobos

Client
Регистрация
05.10.2015
Сообщения
51
Благодарностей
5
Баллы
8
Добрый день, осваиваю с нуля, и есть задача спарсить картинки, число лайков и комментов с инстаграма, без лишних элементов верстки, возникла проблема:

Нахожу картинку на странице (https://instagram.com/big.toys/): https://scontent.cdninstagram.com/hphotos-xaf1/t51.2885-15/s640x640/sh0.08/e35/11374365_1637990143153686_1307004285_n.jpg

Нахожу ее при помощи "формулы":
(.id="pImage.).*?(?<=" src=").*?(?<=jpg)

Получаю:
id="pImage_0" src="https://scontent.cdninstagram.com/hphotos-xaf1/t51.2885-15/s640x640/sh0.08/e35/11374365_1637990143153686_1307004285_n.jpg


Если изменю формулу на: (?<=id="pImage.).*?(?<=" src=").*?(?<=jpg)
Получу:
0" src="https://scontent.cdninstagram.com/hphotos-xaf1/t51.2885-15/s640x640/sh0.08/e35/11374365_1637990143153686_1307004285_n.jpg

Как получить из этого чистую ссылку, что изменить в формуле и возможно ли вообще это сделать?
 
Последнее редактирование:

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
(?<=src=").*?\.jpg а так?
 
  • Спасибо
Реакции: Fobos

Fobos

Client
Регистрация
05.10.2015
Сообщения
51
Благодарностей
5
Баллы
8
(?<=src=").*?\.jpg а так?
Так ссылка получается в нужном виде, без верстки, но так парсер собирает все картинки аккаунта, в том числе и не нужные (логотип аккаунта).

А картинки, которые хочу собирать, имеют атрибут id="pImage_***", хотелось как то именно к id привязать парсер.
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
(?<=id="pImage_\d+"\ssrc=").*?\.jpg
 
  • Спасибо
Реакции: Fobos

Fobos

Client
Регистрация
05.10.2015
Сообщения
51
Благодарностей
5
Баллы
8
Ошибку выдает "Выполнение действия TextProcessing Ничего не найдено при поиске текста регулярного выражения. Выполнение действия List Список пуст"
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
Ошибку выдает "Выполнение действия TextProcessing Ничего не найдено при поиске текста регулярного выражения. Выполнение действия List Список пуст"
а при чём список, ты что всю страницу в список сохраняешь что ли?
ты тогда пол страницы кода лучше скинь сюда что бы видно было что именно надо выпарсить
 
  • Спасибо
Реакции: Fobos

Fobos

Client
Регистрация
05.10.2015
Сообщения
51
Благодарностей
5
Баллы
8
а при чём список, ты что всю страницу в список сохраняешь что ли?
ты тогда пол страницы кода лучше скинь сюда что бы видно было что именно надо выпарсить
1) Хочу со страницы спарсить все картинки, для этого сначала прогружаю всю страницу, получается 1000 картинок.
2) Потом при помощи регулярного выражения из документа собираю ссылки на эти 1000 картинок.
3) Полученные ссылки пишу в список, а потом из списка пишу в текстовый документ ссылки и количество лайков и комментариев у картинки.

Простой скрипт, который хочу усовершенствовать, что бы из нужного куска кода брались конкретные элементы.

Код:
<div class="-cx-PRIVATE-Photo__placeholder" data-reactid=".0.1.0.1:$mostRecentSection:0.0.$0.$1092736920822638189.0.0">
<img
alt="Boarding the beasts... The Lykan HyperSport priced at $3.4 million and only 7 versions of the car are going to be made!
----
Thephotoglife © #luxury #supercar #hyper #lykan #hypersport"
class="-cx-PRIVATE-Photo__image"
id="pImage_0" src="https://igcdn-photos-h-a.akamaihd.net/hphotos-ak-xaf1/t51.2885-15/e35/12081298_1661675214070839_400264613_n.jpg"
style=""
data-reactid=".0.1.0.1:$mostRecentSection:0.0.$0.$1092736920822638189.0.0.$pImage_0"></div>
Из данного кода пытаюсь взять следующую часть: id="pImage_0" src="https://igcdn-photos-h-a.akamaihd.net/hphotos-ak-xaf1/t51.2885-15/e35/12081298_1661675214070839_400264613_n.jpg" (pImage_0 - у каждой картинки идет по возрастанию до 1000)
И на выходе получить данные в виде:
pImage_0 https://igcdn-photos-h-a.akamaihd.net/hphotos-ak-xaf1/t51.2885-15/e35/12081298_1661675214070839_400264613_n.jpg

Зачем так, почему не по нормальному, сразу одну ссылку?
Планирую таким образом к каждой картинки собирать число лайков и комментариев, а для этого надо как то вырезать лишний код и оставлять только урл и 2 цифры (кол-во лайков и комментариев)
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
выпарси все сылки сначала pImage_\d+"\ssrc=".*?jpg , а потом замену сделай " src=" на пробел
 
  • Спасибо
Реакции: Fobos

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)