Регулярные выражения на все случаи жизни

Коллеги подскажите как собрать все внутренние ссылки с сайтов, с некоторых нормально парсится, а на некоторых ссылки на другие страницы идут как окончание основного домена и начинаются с href="
 

Вложения

Подскажите как исправить данную регулярку (http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?

что бы парсила такие ссылки тоже <a href='/adress/' ><span>...</span></a>
 
Друзья, прошу помощи...
В proxy checker`e создаю листы прокси со своих ресурсов...
Сайты, где прокси в коде идут так:
123.456.789:0123
123.456.789:0123
123.456.789:0123
Парсятся на ура!
Но есть сайты, где прокси имеют вид:
123.456.789:0123<tr>123.456.789:0123<tr>123.456.789:0123<tr>123.456.789:0123 и тд.
Подскажите регулярное выражение, чтобы убрать тэги, дабы я мог парсить и такие доски с проксями...
Заранее спасибо!
 
Добрый день, подскажите, пожалуйста, регулярку что бы можно было забрать из текста {первое предложение|до запятой|до точки|до воскл.знака|до вопр.знака} не короче 25 и не длиннее 60 символов. Нужно для выбора заголовка из спаршенного текста.
 
Всем привет вопрос как поставить косую черту в конце ссылки в те строки где нет этого слеша через регулярку
 
Народ, перепробовал варианты, но не смог получить результат, полагаюсь на ваши умы. Задача такая - имеется к примеру предложение :
"Если ты ищешь готовое сочинение по литературе - добро пожаловать!.
Требуется проверить в этом тексте наличие словоформы "сочин". Чтобы потом построить логику - по наличию данного текста, о чем идет речь.

P.s. по сути подходит это решение (?i)\bgo.*?(?=\W|\ |\r|\n|$) на примере выше. Но почему то у меня не выходит ничего, или я дико туплю. Помогите плиз.
 
Народ, перепробовал варианты, но не смог получить результат, полагаюсь на ваши умы. Задача такая - имеется к примеру предложение :
"Если ты ищешь готовое сочинение по литературе - добро пожаловать!.
Требуется проверить в этом тексте наличие словоформы "сочин". Чтобы потом построить логику - по наличию данного текста, о чем идет речь.

P.s. по сути подходит это решение (?i)\bgo.*?(?=\W|\ |\r|\n|$) на примере выше. Но почему то у меня не выходит ничего, или я дико туплю. Помогите плиз.
Держи: сочин.*?

А теперь вопрос к знатокам - требуется при парсинге проверить текст на количество знаков, т.е. мне нужно парсить пост где есть минимум 250 символов. Подскажите, пожалуйста, регулярку.
 
Вроде как подходит сочин.*?\ от
Держи: сочин.*?

А теперь вопрос к знатокам - требуется при парсинге проверить текст на количество знаков, т.е. мне нужно парсить пост где есть минимум 250 символов. Подскажите, пожалуйста, регулярку.

До этого допер сам, но встал другой вопрос, если будет слово начинаться с заглавной буквы, то данное слово он не найдет.
 
Отключите учет регистра: (?i)сочин.*?
 
А теперь вопрос к знатокам - требуется при парсинге проверить текст на количество знаков, т.е. мне нужно парсить пост где есть минимум 250 символов. Подскажите, пожалуйста, регулярку.

.{250,}
 
  • Спасибо
Реакции: moRL
Для поиска номеров телефона

Код:
Развернуть Свернуть Копировать
(\+7|8|\b)[\(\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[)\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)

Взято отсюда
 
Ребята, вот текст
7d8e6b309b78.png

вот регулярка <![\w\W]*?</head> Этой регуляркой я удаляю текст который между <! и </head> . Почему она удаляет всё кроме того что в красном квадрате? Как это побороть?
 
Ребята, вот текст
7d8e6b309b78.png

вот регулярка <![\w\W]*?</head> Этой регуляркой я удаляю текст который между <! и </head> . Почему она удаляет всё кроме того что в красном квадрате? Как это побороть?
потому, что в красном кавадрате это скрипт!
 
post: 231709 написал(а):
Ка к его удалить? вот это <script[^>]*>.*?</script> и это <script>[\w\W]*?</script> не удаляет
@jonvy ссыль на страницу где этот скрипт можно?
 
Последнее редактирование:
Как так происходит? вот эта страница http://tajny-nlo.ru/dokazatelstva-prebyvaniya-inoplanetyan-zemle-0 вот регулярка <script[^>]*>.*?</script> и вчера она не удаляла всю эту хрень

jQuery.extend(Drupal.settings, {"basePath":"\/","pathPrefix":"","ajaxPageState":{"theme":"tajny_adaptive","theme_token":"mbbalgx6glPW6DC4HTytbpBrjkmZnP2U5k7orsxoMp8","jquery_version":"1.7","css":{"modules\/system\/system.base.css":1,"modules\/system\/system.menus.css":1,"modules\/system\/system.messages.css":1,"modules\/system\/system.theme.css":1,"sites\/all\/libraries\/mediaelement\/build\/mediaelementplayer.min.css":1,"misc\/ui\/jquery.ui.core.css":1,"misc\/ui\/jquery.ui.theme.css":1,"modules\/comment\/comment.css":1,"modules\/field\/theme\/field.css":1,"modules\/node\/node.css":1,"modules\/poll\/poll.css":1,"modules\/search\/search.css":1,"modules\/user\/user.css":1,"sites\/all\/modules\/video_filter\/video_filter.css":1,"modules\/forum\/forum.css":1,"sites\/all\/modules\/views\/css\/views.css":1,"sites\/all\/modules\/ckeditor\/css\/ckeditor.css":1,"sites\/all\/modules\/cctags\/cctags.css":1,"sites\/all\/modules\/ctools\/css\/ctools.css":1,"sites\/all\/modules\/dhtml_menu\/dhtml_menu.css":1,"sites\/all\/modules\/panels\/css\/panels.css":1,"sites\/all

А сегодня удаляет. Это почему так происходит?
После добавления регулярки, проект нужно запускать заново? или можно продолжать выполнение с только что добавленного кубика с регуляркой? Может в этом дело?
 
Как так происходит? вот эта страница http://tajny-nlo.ru/dokazatelstva-prebyvaniya-inoplanetyan-zemle-0 вот регулярка <script[^>]*>.*?</script> и вчера она не удаляла всю эту хрень

jQuery.extend(Drupal.settings, {"basePath":"\/","pathPrefix":"","ajaxPageState":{"theme":"tajny_adaptive","theme_token":"mbbalgx6glPW6DC4HTytbpBrjkmZnP2U5k7orsxoMp8","jquery_version":"1.7","css":{"modules\/system\/system.base.css":1,"modules\/system\/system.menus.css":1,"modules\/system\/system.messages.css":1,"modules\/system\/system.theme.css":1,"sites\/all\/libraries\/mediaelement\/build\/mediaelementplayer.min.css":1,"misc\/ui\/jquery.ui.core.css":1,"misc\/ui\/jquery.ui.theme.css":1,"modules\/comment\/comment.css":1,"modules\/field\/theme\/field.css":1,"modules\/node\/node.css":1,"modules\/poll\/poll.css":1,"modules\/search\/search.css":1,"modules\/user\/user.css":1,"sites\/all\/modules\/video_filter\/video_filter.css":1,"modules\/forum\/forum.css":1,"sites\/all\/modules\/views\/css\/views.css":1,"sites\/all\/modules\/ckeditor\/css\/ckeditor.css":1,"sites\/all\/modules\/cctags\/cctags.css":1,"sites\/all\/modules\/ctools\/css\/ctools.css":1,"sites\/all\/modules\/dhtml_menu\/dhtml_menu.css":1,"sites\/all\/modules\/panels\/css\/panels.css":1,"sites\/all

А сегодня удаляет. Это почему так происходит?
После добавления регулярки, проект нужно запускать заново? или можно продолжать выполнение с только что добавленного кубика с регуляркой? Может в этом дело?
возможно! Ктото уже писал про зависания при парсинге, возможно баг! Попробуйте повторить чтобы была ошибка и со скринами в тему о багах!
 
Подскажите, пожалуйста, регулярку
нужно обрезать в конце слова все числа, если их больше 3
test4324125123
test7654542
чтобы осталось
test432
test765
заранее спасибо
 
.{5}
или
.{1,5}
если нужен хвост, который меньше 5 символов
нужен не хвост, по каждому 5 символу чтобы разбить, у меня строка из 1000 символов ее нужно разбить по каждому 5 символу.
 
дай пример на короткой строке
9azYx NCRj4 dCjnW 1nncr PbQVF YugfR aBiudGjKMOxtLXKNYehjXc0jYWAvLHIbyDPgRqeFWUmFPcTY5GM4NBOHVJQA4ZMq0VN6qlsc0EHtVrIqB4j3HRmo3XlFmlOIUgFDvncRzx4s8xZO8jD0zVsdfU2y0bCbX8bbjCRgnFmamrqn1PT8YOtA3jhJcyECnvkMBsorFgkYd0F9vztuLDLwZDzMvFLpqRD3DqWYjksiimf3Ryp11d2SRy6qKoIMc8xOtPddLnHkjWZahjduzKiGW0hv3jF7AdS9

и так нужно разбить всю строку
 
9azYx NCRj4 dCjnW 1nncr PbQVF YugfR aBiudGjKMOxtLXKNYehjXc0jYWAvLHIbyDPgRqeFWUmFPcTY5GM4NBOHVJQA4ZMq0VN6qlsc0EHtVrIqB4j3HRmo3XlFmlOIUgFDvncRzx4s8xZO8jD0zVsdfU2y0bCbX8bbjCRgnFmamrqn1PT8YOtA3jhJcyECnvkMBsorFgkYd0F9vztuLDLwZDzMvFLpqRD3DqWYjksiimf3Ryp11d2SRy6qKoIMc8xOtPddLnHkjWZahjduzKiGW0hv3jF7AdS9

и так нужно разбить всю строку
822b0799da15357f2f374fefa046e381.png
 
  • Спасибо
Реакции: masterLomaster

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)