- Регистрация
- 09.05.2014
- Сообщения
- 1 254
- Благодарностей
- 220
- Баллы
- 63
Задача. Get запрос берет ссылки для страницы, для парсинга. Ссылки по регексу не вытащить. Мне для понимания логики в данном вопросе.
Как вообще в таком случае грамотно дальше поступать, чтобы достать именно нужные мне ссылки по моему формату?
Ссылки мне нужны например https://morakame.ru/shima/runama-tikiraki-3-8-l-viis-1212-duha-4420393.html
такие, а на странице естественно есть внутренние, внешние на партнеров и тп. Разные домены еще, и внутренне не удалить по принципу "всегда 5 в конце". Они в середине бывают и домены меняются.
Как вообще в таком случае грамотно дальше поступать, чтобы достать именно нужные мне ссылки по моему формату?
Ссылки мне нужны например https://morakame.ru/shima/runama-tikiraki-3-8-l-viis-1212-duha-4420393.html
такие, а на странице естественно есть внутренние, внешние на партнеров и тп. Разные домены еще, и внутренне не удалить по принципу "всегда 5 в конце". Они в середине бывают и домены меняются.