Найди screaming frog. Сделает раз в миллион быстрее и качественнее эту задачу.Нужен шаблон или один кубик на c# ( как вам удобнее), который будет выполнять следующие действия
1. Сбор всех внутренних url сайтов, которые заранее заданны в списке
2. Запись собранных url во второй список
Все
Не подскажешь как?Тебе же надо именно паука для сбора Урлов со всех страниц сайтов? Иначе это пишется на Зенке за 5 минут.
Регуляркой парсишь DOM и всё)Не подскажешь как?
/<a href=\\"([^\\"]*)\\">(.*)<\\/a>/iU
Парсит как есть, если путь относительный, то ссылка от этой страницы и будет считаться. Если нужны полные ссылки, нужно производить пересчет ссылок, можно через C#, можно через JavascriptРегуляркой парсишь DOM и всё)
Видимо не так просто, но спасибо. Страницы не парсятся/<a href=\\"([^\\"]*)\\">(.*)<\\/a>/iU
Ваш совет выше, лучшее решение! Занимался подобным с помощью зенки, жрала уйму ресурсовРегуляркой парсишь DOM и всё)
Например этой
/<a href=\\"([^\\"]*)\\">(.*)<\\/a>/iU
Спасибо за совет, но я не знаю как это сделать ни на c#, ни на яве)Парсит как есть, если путь относительный, то ссылка от этой страницы и будет считаться. Если нужны полные ссылки, нужно производить пересчет ссылок, можно через C#, можно через Javascript
как это делал я:Спасибо за совет, но я не знаю как это сделать ни на c#, ни на яве)
Это да, я тоже так делал) Плюс потом фильтры разные накручивал. Мне нужны именно внутренние url сайта, желательно только те, которые содержат статьи. Это уже детали, я их сам доделаю. Мне главное парсер урловкак это делал я:
Брал спаренный урл и проверял есть ли в начале "http(s)://" если есть, то урл полный, если нет, то добавляю в начало http(s)://domen.ru
я паршу такой регуляркойЭто да, я тоже так делал) Плюс потом фильтры разные накручивал. Мне нужны именно внутренние url сайта, желательно только те, которые содержат статьи. Это уже детали, я их сам доделаю. Мне главное парсер урлов
(?<=href=").*?(?=")
Спасибо. Ссылки чистенько парсятся)(?<=href=").*?(?=")
пожалуйста.Спасибо. Ссылки чистенько парсятся)
не срабатывает. Компиляция кода Ошибка в действии "CS1002" "ожидалась ;". [Строка: 0; Cтолбец: 20]я паршу такой регуляркой
пока не подводилаC#:(?<=href=").*?(?=")