Какое регулярное выражение сейчас актуально для парсинга выдачи Яндекс?

Likko

Пользователь
Регистрация
25.01.2016
Сообщения
54
Благодарностей
1
Баллы
8
не могу в конструкторе подобрать регулярное выражение которое может парсить чистые ссылки выдачи... помогите какое сейчас работает ?
 

SHELBY

Client
Регистрация
09.09.2016
Сообщения
237
Благодарностей
291
Баллы
63
Код:
(http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?
upload_2017-7-23_1-7-31.png

Источник

UPD: А потом можно удалить строки, где встречается слово yandex
 
Последнее редактирование:

Likko

Пользователь
Регистрация
25.01.2016
Сообщения
54
Благодарностей
1
Баллы
8
UPD: А потом можно удалить строки, где встречается слово yandex
такой вариант парсит и просто домены , а не именно ссылки на новости, по этому не совсем удачный вариант ...
 

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 417
Благодарностей
5 454
Баллы
113

Likko

Пользователь
Регистрация
25.01.2016
Сообщения
54
Благодарностей
1
Баллы
8

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 417
Благодарностей
5 454
Баллы
113
То есть нужно получить конкретно выдачу 10 ссылок на страницы. Приведенный вариант дает еще мусор яндекса и чистые домены

Тебе остается только удалить строки яндекса и дубли. И все.
Ты не сможешь одной регуляркой чисто собрать нужные ссылки. Это невозможно, да и зачем?

Ты не знаешь как удалить строки яндекса из списка?
 
Последнее редактирование:

Likko

Пользователь
Регистрация
25.01.2016
Сообщения
54
Благодарностей
1
Баллы
8
Ты не знаешь как удалить строки яндекса из списка?
этого мало , ведь он парсит ненужные ссылки помимо яндекса

пример запрос "марка"

Такая регулярка выдает чистые домены, а не ссылки на выдачу (те страницы которые есть в выдачи)

То есть в список идут домен https://www.youtube.com , а должен только

или такой пример https://ru.wikipedia.org/wiki/Марка , а там есть и такой https://ru.wikipedia.org/

Или как убрать именно коротки дубли?
 

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 417
Благодарностей
5 454
Баллы
113
Сложная задача, думал сделаю быстро но нет, требует времени. Хочешь могу за 1000 р решить данную задачу.
 

Likko

Пользователь
Регистрация
25.01.2016
Сообщения
54
Благодарностей
1
Баллы
8
Сложная задача, думал сделаю быстро но нет, требует времени. Хочешь могу за 1000 р решить данную задачу.
Нет спасибо, я на форум пришел за советом, а не за покупкой)
 

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 417
Благодарностей
5 454
Баллы
113
Нет спасибо, я на форум пришел за советом, а не за покупкой)
Хорошо. Я попробовал сделать и думал получилось, но когда я зашел опять на страницу яндекса он, что-то поменял. т.е. надо проверять код и подгонять регулярку, это очень муторно, надо копаться с кодом. Вот что получилось, может как-то поможет.
 

Вложения

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 417
Благодарностей
5 454
Баллы
113
Вроде разобрался. Вот первая регулярка
Код:
(?<=link\ organic__url\ link_cropped_no\ i-bem)[\w\W]*?(?="\ rel)
Потом что получилось этой обрабатываем
Код:
(?<=href=").*
Готово.
 

Вложения

  • Спасибо
Реакции: udder, Likko и loogle

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 417
Благодарностей
5 454
Баллы
113
Лайкнул бы хоть ради приличия.
 

Likko

Пользователь
Регистрация
25.01.2016
Сообщения
54
Благодарностей
1
Баллы
8
  • Спасибо
Реакции: Mikhail B.

Кто просматривает тему: (Всего: 8, Пользователи: 0, Гости: 8)