Ucheck

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28
Ребята, всем привет, нужна альтернатива сайту ucheck.ru
Именно, нужно собирать все внутренние ссылки со страницы, этот сайт справляется с этим, но проверяет не все сайты (большинство, а хотелось бы все)
Зайдите на сайт и введите любой URL, далее кнопочка внутренние ссылки, этот список я и использую. Нужен либо сайт с данным функционалом, либо какое-то решение оффлайн.
:bc::bc::bc:
 

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28
Нашёл ещё кучу сайтов похожего функционала, понравился pr-cy.ru/link_extractor/
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 363
Благодарностей
9 095
Баллы
113
можно сделать самому сбор ссылок ..
будет независимое решение, не зависящее ни от каких сайтов..
 

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 363
Благодарностей
9 095
Баллы
113
Про это написал, знаешь как реализовать?
алгоритм примерно такой:

- собрать все ссылки со страницы регуляркой http://.*zennolab\.com.*?(?=['"]) через экшен Обработка текста (парсить макрос {-Page.Dom-})
- после этого все найденные ссылки будут в списке
- список очистить от дублей
- брать строки из списка и проверять вхождение .css, .js, .png, .jpg, если есть то выбрасывать..

zennolab\.com - заменить на переменную содержащую домен сайта..
домен сайта брать макросом {-Page.Domain-} и экшеном Обработка текста - Escape обработать..
 

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28
алгоритм примерно такой:

- собрать все ссылки со страницы регуляркой http://.*zennolab\.com.*?(?=['"]) через экшен Обработка текста (парсить макрос {-Page.Dom-})
- после этого все найденные ссылки будут в списке
- список очистить от дублей
- брать строки из списка и проверять вхождение .css, .js, .png, .jpg, если есть то выбрасывать..

zennolab\.com - заменить на переменную содержащую домен сайта..
домен сайта брать макросом {-Page.Domain-} и экшеном Обработка текста - Escape обработать..
Спасибо, такие мысли были, но так он будет брать только ссылки с 1 страницы? Тот сайт выдаёт по 100 и более ссылок, иногда, тоесть обрабатывает весь сайт?
Или мне просто хочется так думать?)
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 363
Благодарностей
9 095
Баллы
113
Спасибо, такие мысли были, но так он будет брать только ссылки с 1 страницы? Тот сайт выдаёт по 100 и более ссылок, иногда, тоесть обрабатывает весь сайт?
Или мне просто хочется так думать?)
не со всего сайта - факт..
специально попробовал обработать этим двумя сервисами сайт, кол-во страниц на котором точно знаю..
выдало малую часть..
 

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28
не со всего сайта - факт..
специально попробовал обработать этим двумя сервисами сайт, кол-во страниц на котором точно знаю..
выдало малую часть..
Но больше чем с одной страницы?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 363
Благодарностей
9 095
Баллы
113

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 363
Благодарностей
9 095
Баллы
113
Но Я всё равно попробую спарсить так как ты предложил, может всё впорядке будет)
uncheck отрапортовал о 17 ссылках (на этой странице (главная стр. сайта) дейтсвительно 17 ссылок)
pr-cy отрапортовал о 31 ссылке..
в действительности на всем сайте порядка 100 страниц..
 
  • Спасибо
Реакции: Andi88

runlike

Client
Регистрация
22.09.2015
Сообщения
175
Благодарностей
51
Баллы
28

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 363
Благодарностей
9 095
Баллы
113

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 450
Благодарностей
1 885
Баллы
113
Ребята, всем привет, нужна альтернатива сайту ucheck.ru
Именно, нужно собирать все внутренние ссылки со страницы, этот сайт справляется с этим, но проверяет не все сайты (большинство, а хотелось бы все)
Зайдите на сайт и введите любой URL, далее кнопочка внутренние ссылки, этот список я и использую. Нужен либо сайт с данным функционалом, либо какое-то решение оффлайн.
:bc::bc::bc:

sergodjan66 дал Вам правильный ответ - собирайте все ссылки со страницы данной регуляркой.
Для того, чтобы собрать все страницы, можно поступить следующим образом - создаёте 2 списка, получаете все ссылки в первый, далее берётся из первого списка 1 ссылку, записываете её во второй список и переходите по ней, собирая уже от туда все ссылки.
При этом нужно проверять, чтобы ссылка, которую взяли еще небыло во втором списке, чтобы бесконечно не ходить по одним и тем же ссылкам.
Таким образом, когда в первом списке у Вас закончатся все ссылки, можно считать, что ссылки на сайт собраны.
 
  • Спасибо
Реакции: Andi88 и Sergodjan

Кто просматривает тему: (Всего: 8, Пользователи: 0, Гости: 8)