Как спарсить ссылки профилей с сайта?

timoharebet

Новичок
Joined
Dec 2, 2018
Messages
10
Reaction score
2
Points
3
Всем привет! Кто знает, как можно спарсить все ссылки с сайта, ведущие на профили пользователей?
Пример сайта:
https://izhevsk.ru/forum/show_profile/00012877?username=Zarcon
https://izhevsk.ru/forummisc/show_profile/3267?username=bureaus
https://izhevsk.ru/forummisc/show_profile/132036?username=very like

Загвоздка в том, что в ссылке по мимо порядкового числа, присутствует логин пользователя, а у каждого он уникален. Если бы были просто числа, то тут всё понятно.

Возможно ли как-то спарсить все ссылки пользователей сайта?

Благодарен любому совету!
 

Bablozavr

Client
Joined
Jan 26, 2018
Messages
309
Reaction score
164
Points
43
Регулярное выражение, использовать через кубик обработки текста методом Regexp, парсить текущую страницу {-Page.Source-}
Code:
https://izhevsk\.ru/forum.*/show_profile/.*\?username=.*
Но это не точно, т.к. до и после ссылки могут быть символы, которых нету в ТЗ, а без четкого ТЗ, результат ХЗ.
 
  • Thank you
Reactions: timoharebet

specialist

Client
Joined
Dec 28, 2018
Messages
734
Reaction score
343
Points
63
Возможно ли как-то спарсить все ссылки пользователей сайта?
Ссылки со страницы или получить список пользователей? По описанию похоже что найти всех не можете.

Сайт не такой большой, возможно обычным xenu собрать, потом в зено под задачу экспортировать.
 
  • Thank you
Reactions: timoharebet

timoharebet

Новичок
Joined
Dec 2, 2018
Messages
10
Reaction score
2
Points
3
Ссылки со страницы или получить список пользователей? По описанию похоже что найти всех не можете.

Сайт не такой большой, возможно обычным xenu собрать, потом в зено под задачу экспортировать.
Именно ссылки на страницы всех пользователей этого форума.
https://izhevsk.ru/forummisc/show_profile/132036?username=very like - это один пользователь форума, а как спарсить все ссылки ведущие на профили пользователей сайта?
Судя по этому профилю, их более 132036 пользователей. Поэтому мне бы хотелось каким-то образом получить все ссылки на профили пользователей. То есть, если их всего 132036, то и разных ссылок должно быть 132036.
 

specialist

Client
Joined
Dec 28, 2018
Messages
734
Reaction score
343
Points
63
то и разных ссылок должно быть 132036.
ботов скорее всего удаляли.
Запустите frog seo spider, xenu, content downloader, scrapy, ... сканеров много.
У многих из них показаны связи, с каких страниц что и куда идет.
 
  • Thank you
Reactions: timoharebet

Users Who Are Viewing This Thread (Total: 1, Members: 0, Guests: 1)