спасибо, как раз нужна была универсальная регулярка, я немного модернизировал ее под свои нужды,Как то так.
Код:(?<=href=")(domen.com|/)\S*(?=")
регулярка:
(?<=href='|")((http://|https://)(www\.|)domen.com|/)\S*(?='|")
т.е. из этого
<a href='https://www.domen.com/23342rdfdf/2323ddsd/2343sdsfd/wqew.html'>wewerer</a>
<a href="http://domen.com/23342rdfdf/2323ddsd/2343sdsfd/wqew.html">wewerer</a>
<a href='https://www.domen.com/23342rdfdf/2323ddsd/2343sdsfd/wqew/'>wewerer</a>
<a href="http://domen.com/23342rdfdf/2323ddsd/2343sdsfd/wqew/">wewerer</a>
берет вот это
https://www.domen.com/23342rdfdf/2323ddsd/2343sdsfd/wqew.html
http://domen.com/23342rdfdf/2323ddsd/2343sdsfd/wqew.html
https://www.domen.com/23342rdfdf/2323ddsd/2343sdsfd/wqew/
http://domen.com/23342rdfdf/2323ddsd/2343sdsfd/wqew/
<a href="news/asdf/qwerty/">анкор</a>
или
<a href="/news/asdf/qwerty/">анкор</a>
(?<=href\s?=\s?('|"))https?://?(www\.)?domain.com.*?(?='|")
Ну мне в голову лезет только вариант с подстановкой домена с которым работаем. см. выше.еще есть задача спарcить все внутр. страницы, если адреса не абсолютные, а относительные,
да, я видел..Ну мне в голову лезет только вариант с подстановкой домена с которым работаем. см. выше.
работает, огромное спасибо!Универсальная только для относительных ссылок
Код:(?<=href\s?=\s?'|")[^http].*?(?='|")
(?<=href\s?=\s?('|"))((https?://?(www\.)?domain.com)|([^:])).*?(?='|")
(?<=href\s?=\s?('|"))((https?://?(www\.)?domain.com)|(?!https?://)).*?(?='|")
вообще шикарно! ты волшебник..Универсальная для всех внутренних ссылок сайта
Код:(?<=href\s?=\s?'|")((https?://?(www\.)?domain.com)|([^http])).*?(?='|")
Универсальная только для относительных ссылок
Код:(?<=href\s?=\s?'|")[^http].*?(?='|")
Верно! Поправил!Так не очень правильно. Эта регулярка не возьмёт ссылки, которые начинаются на h,t,p. К примеру <li><a href="howtopay/">Как платить</a></li>
[^http] отрицает каждый отдельный символ, а не их последовательность.
Сделал очередной апдейт))
а можно сразу результат подбить )))Сделал очередной апдейт))
выкладывай и сюда тоже (в самое последнее сообщение), если не трудно..Сделал очередной апдейт))
Если ты о //www.liveinternet.ru/click, то это скорее исключение. От таких может лучше избавляться чисткой после парсинга. Как и от mailto:, tel:, javascript:, ссылок на стили, скрипты, картинки, языки и т.п.
\.ico|\.jpg|\.jpeg|\.png|\.gif|\.css|\.less|\.js|\.jsp|\.pdf|\.rss|\.aspx|\.cfm|\.ashx|mailto:|tel:|javascript:|\#|//|regist|language|login|email|admin|captcha|sign_in|feed|redirect|wp-|/cn/|/tw/|/kr/|/jp/|/tr/|/ar/
ага, именно это..Если ты о //www.liveinternet.ru/click, то это скорее исключение. От таких может лучше избавляться чисткой после парсинга. Как и от mailto:, tel:, javascript:, ссылок на стили, скрипты, картинки, языки и т.п.
Некоторая хрень =>
Код:\.ico|\.jpg|\.jpeg|\.png|\.gif|\.css|\.less|\.js|\.jsp|\.pdf|\.rss|\.aspx|\.cfm|\.ashx|mailto:|tel:|javascript:|\#|//|regist|language|login|email|admin|captcha|sign_in|feed|redirect|wp-|/cn/|/tw/|/kr/|/jp/|/tr/|/ar/
а можно сразу результат подбить )))
(?<=href\s?=\s?('|"))((https?://?(www\.)?domain.com)|([^:])).*?(?='|")
или
(?<=href\s?=\s?('|"))((https?://?(www\.)?domain.com)|(?!https?://)).*?(?='|")
(последняя самая лучшая на мой взгляд)
\.xml\.|xmlrpc|\.ico|\.jpg|\.jpeg|\.png|\.gif|\.css|\.less|\.js|\.jsp|\.pdf|\.rss|\.aspx|\.cfm|\.ashx|mailto:|tel:|javascript:|\#|//|regist|language|login|email|admin|captcha|sign_in|feed|redirect|wp-|/cn/|/tw/|/kr/|/jp/|/tr/|/ar/
Ну это не готовая регулярка, я просто для примера показал (скопировал из одного своего старого проекта), какая фигня попадается. Перед чисткой нужно будет составить еще регулярку, а если так оставить, то много лишнего удалится.и потом список очистить с помощью экшена Операции над списком - > Удалить элементы, удовлетв. рег. выражению:
спс други!Подитог:
и потом список очистить с помощью экшена Операции над списком - > Удалить элементы, удовлетв. рег. выражению:Код:(?<=href\s?=\s?('|"))((https?://?(www\.)?domain.com)|([^:])).*?(?='|") или (?<=href\s?=\s?('|"))((https?://?(www\.)?domain.com)|(?!https?://)).*?(?='|") (последняя самая лучшая на мой взгляд)
Код:xml\.|xmlrpc|\.ico|\.jpg|\.jpeg|\.png|\.gif|\.css|\.less|\.js|\.jsp|\.pdf|\.rss|\.aspx|\.cfm|\.ashx|mailto:|tel:|javascript:|\#|//|regist|language|login|email|admin|captcha|sign_in|feed|redirect|wp-|/cn/|/tw/|/kr/|/jp/|/tr/|/ar/
еще раз огромное спасибо автору Dimionix за эти решения!
)))Сделал очередной апдейт))
Сейчас буду пробовать. Спасибо всем участвующим! Пока вопрос назрел, вместо domain.com переменную подставить можно?(?<=href\s?=\s?('|"))((https?://?(www\.)?domain.com)|(?!https?://)).*?(?='|")
Да, конечно! Макрос, напр., {-Variable.Domain-}Сейчас буду пробовать. Спасибо всем участвующим! Пока вопрос назрел, вместо domain.com переменную подставить можно?
Сам как бы допер, меня интересовало будет ли работать. Ок, спасибо!Да, конечно! Макрос, напр., {-Variable.Domain-}