Как спарсить ссылки профилей с сайта?

timoharebet

Новичок
Регистрация
02.12.2018
Сообщения
10
Благодарностей
2
Баллы
3
Всем привет! Кто знает, как можно спарсить все ссылки с сайта, ведущие на профили пользователей?
Пример сайта:
https://izhevsk.ru/forum/show_profile/00012877?username=Zarcon
https://izhevsk.ru/forummisc/show_profile/3267?username=bureaus
https://izhevsk.ru/forummisc/show_profile/132036?username=very like

Загвоздка в том, что в ссылке по мимо порядкового числа, присутствует логин пользователя, а у каждого он уникален. Если бы были просто числа, то тут всё понятно.

Возможно ли как-то спарсить все ссылки пользователей сайта?

Благодарен любому совету!
 

Bablozavr

Client
Регистрация
26.01.2018
Сообщения
310
Благодарностей
163
Баллы
43
Регулярное выражение, использовать через кубик обработки текста методом Regexp, парсить текущую страницу {-Page.Source-}
Код:
https://izhevsk\.ru/forum.*/show_profile/.*\?username=.*
Но это не точно, т.к. до и после ссылки могут быть символы, которых нету в ТЗ, а без четкого ТЗ, результат ХЗ.
 
  • Спасибо
Реакции: timoharebet

specialist

Client
Регистрация
28.12.2018
Сообщения
732
Благодарностей
343
Баллы
63
Возможно ли как-то спарсить все ссылки пользователей сайта?
Ссылки со страницы или получить список пользователей? По описанию похоже что найти всех не можете.

Сайт не такой большой, возможно обычным xenu собрать, потом в зено под задачу экспортировать.
 
  • Спасибо
Реакции: timoharebet

timoharebet

Новичок
Регистрация
02.12.2018
Сообщения
10
Благодарностей
2
Баллы
3
Ссылки со страницы или получить список пользователей? По описанию похоже что найти всех не можете.

Сайт не такой большой, возможно обычным xenu собрать, потом в зено под задачу экспортировать.
Именно ссылки на страницы всех пользователей этого форума.
https://izhevsk.ru/forummisc/show_profile/132036?username=very like - это один пользователь форума, а как спарсить все ссылки ведущие на профили пользователей сайта?
Судя по этому профилю, их более 132036 пользователей. Поэтому мне бы хотелось каким-то образом получить все ссылки на профили пользователей. То есть, если их всего 132036, то и разных ссылок должно быть 132036.
 

specialist

Client
Регистрация
28.12.2018
Сообщения
732
Благодарностей
343
Баллы
63
то и разных ссылок должно быть 132036.
ботов скорее всего удаляли.
Запустите frog seo spider, xenu, content downloader, scrapy, ... сканеров много.
У многих из них показаны связи, с каких страниц что и куда идет.
 
  • Спасибо
Реакции: timoharebet

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)