Сбор url с любых сайтов

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 142
Реакции
196
Баллы
63
Нужен шаблон или один кубик на c# ( как вам удобнее), который будет выполнять следующие действия
1. Сбор всех внутренних url сайтов, которые заранее заданны в списке
2. Запись собранных url во второй список
Все :)
 
Нужен шаблон или один кубик на c# ( как вам удобнее), который будет выполнять следующие действия
1. Сбор всех внутренних url сайтов, которые заранее заданны в списке
2. Запись собранных url во второй список
Все :-)
Найди screaming frog. Сделает раз в миллион быстрее и качественнее эту задачу.
Тебе же надо именно паука для сбора Урлов со всех страниц сайтов? Иначе это пишется на Зенке за 5 минут.
 
  • Спасибо
Реакции: slavon
Регуляркой парсишь DOM и всё)
Парсит как есть, если путь относительный, то ссылка от этой страницы и будет считаться. Если нужны полные ссылки, нужно производить пересчет ссылок, можно через C#, можно через Javascript
 
Парсит как есть, если путь относительный, то ссылка от этой страницы и будет считаться. Если нужны полные ссылки, нужно производить пересчет ссылок, можно через C#, можно через Javascript
Спасибо за совет, но я не знаю как это сделать ни на c#, ни на яве)
 
Спасибо за совет, но я не знаю как это сделать ни на c#, ни на яве)
как это делал я:
Брал спаршенный урл и проверял есть ли в начале "http(s)://" если есть, то урл полный, если нет, то добавляю в начало http(s)://domen.ru
 
  • Спасибо
Реакции: Astraport
как это делал я:
Брал спаренный урл и проверял есть ли в начале "http(s)://" если есть, то урл полный, если нет, то добавляю в начало http(s)://domen.ru
Это да, я тоже так делал) Плюс потом фильтры разные накручивал. Мне нужны именно внутренние url сайта, желательно только те, которые содержат статьи. Это уже детали, я их сам доделаю. Мне главное парсер урлов
 
  • Спасибо
Реакции: KolkaPetkinSyn
Это да, я тоже так делал) Плюс потом фильтры разные накручивал. Мне нужны именно внутренние url сайта, желательно только те, которые содержат статьи. Это уже детали, я их сам доделаю. Мне главное парсер урлов
я паршу такой регуляркой
C#:
Развернуть Свернуть Копировать
(?<=href=").*?(?=")
пока не подводила
 
Спасибо. Ссылки чистенько парсятся)
пожалуйста.
Я как то, то же искал универсальную регулярку. Весь форум перерыл, но всё какие то косяки. А потом сам код глянул ещё разок и эврика! Ответ так прост.
 
  • Спасибо
Реакции: mr.wolf
я паршу такой регуляркой
C#:
Развернуть Свернуть Копировать
(?<=href=").*?(?=")
пока не подводила
не срабатывает. Компиляция кода Ошибка в действии "CS1002" "ожидалась ;". [Строка: 0; Cтолбец: 20]
 
xenu скачайте :)
 
  • Спасибо
Реакции: 606
Это же не C# код, а регулярное выражение, его нужно добавить в кубик парсинга по Regex
 
  • Спасибо
Реакции: 606

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)