- Регистрация
- 15.03.2017
- Сообщения
- 257
- Благодарностей
- 35
- Баллы
- 28
Здравствуйте. Только начинаю разбираться с программой. Нужно со страницы ютуба спарсить все ссылки на видео. Пытаюсь это сделать с помощью исходного кода страницы и регулярного выражения. Проблема возникает на этапе составления регулярки. Вот кусок исходного кода, из которого мне нужно взять значение:
<li><div class="yt-lockup yt-lockup-tile yt-lockup-video vve-check clearfix" data-context-item-id="qB9XiPbdq8A" data-visibility-tracking="CEQQ3DAYACITCPCl7rbhgNQCFZU0DQod9hkGhij0JEDA1_a2j_HVj6gB"><div class="yt-lockup-dismissable yt-uix-tile"><div class="yt-lockup-thumbnail contains-addto"><a aria-hidden="true" href="/watch?v=qB9XiPbdq8A" class=" yt-uix-sessionlink spf-link " data-sessionlink="itct=CEQQ3DAYACITCPCl7rbhgNQCFZU0DQod9hkGhij0JFJK0L_RgNC-0LPRgNCw0LzQvNCwINC00LvRjyDQstC30LvQvtC80LAg0YHRgtGA0LDQvdC40YbRiyDQstC60L7QvdGC0LDQutGC0LU" ><div class="yt-thumb video-thumb">
С помощью рег. выражения хочу брать qB9XiPbdq8A. Само выражение делаю с помощью тестера выражений, пытаюсь делать так:
Перед искомым текстом всегда есть: href="/watch?v=
Это идет после искомого текста: " class=
Как я думал, что должно работать такое, но выходит какой-то бред)
То есть в итоге я хочу получить список из значений, /watch?v=значение.
Помогите, что я делаю не так)
UPD: когда я беру отдельно такие строки, как вышепреведенная, то значение берется нормально, а когда беру целиком весь исходный код страницы, то регулярное выражение работает не так, как ожидалось)
<li><div class="yt-lockup yt-lockup-tile yt-lockup-video vve-check clearfix" data-context-item-id="qB9XiPbdq8A" data-visibility-tracking="CEQQ3DAYACITCPCl7rbhgNQCFZU0DQod9hkGhij0JEDA1_a2j_HVj6gB"><div class="yt-lockup-dismissable yt-uix-tile"><div class="yt-lockup-thumbnail contains-addto"><a aria-hidden="true" href="/watch?v=qB9XiPbdq8A" class=" yt-uix-sessionlink spf-link " data-sessionlink="itct=CEQQ3DAYACITCPCl7rbhgNQCFZU0DQod9hkGhij0JFJK0L_RgNC-0LPRgNCw0LzQvNCwINC00LvRjyDQstC30LvQvtC80LAg0YHRgtGA0LDQvdC40YbRiyDQstC60L7QvdGC0LDQutGC0LU" ><div class="yt-thumb video-thumb">
С помощью рег. выражения хочу брать qB9XiPbdq8A. Само выражение делаю с помощью тестера выражений, пытаюсь делать так:
Перед искомым текстом всегда есть: href="/watch?v=
Это идет после искомого текста: " class=
Как я думал, что должно работать такое, но выходит какой-то бред)
То есть в итоге я хочу получить список из значений, /watch?v=значение.
Помогите, что я делаю не так)
UPD: когда я беру отдельно такие строки, как вышепреведенная, то значение берется нормально, а когда беру целиком весь исходный код страницы, то регулярное выражение работает не так, как ожидалось)
Последнее редактирование: