Регулярные выражения на все случаи жизни

Redsmokky · 16.09.2016

Коллеги подскажите как собрать все внутренние ссылки с сайтов, с некоторых нормально парсится, а на некоторых ссылки на другие страницы идут как окончание основного домена и начинаются с href="

Terikon · 17.09.2016

Подскажите как исправить данную регулярку (http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?

что бы парсила такие ссылки тоже <a href='/adress/' ><span>...</span></a>

doc · 17.09.2016

(?<=href=["'])[^"']+

Fedod · 18.09.2016

Друзья, прошу помощи...
В proxy checker`e создаю листы прокси со своих ресурсов...
Сайты, где прокси в коде идут так:
123.456.789:0123
123.456.789:0123
123.456.789:0123
Парсятся на ура!
Но есть сайты, где прокси имеют вид:
123.456.789:0123<tr>123.456.789:0123<tr>123.456.789:0123<tr>123.456.789:0123 и тд.
Подскажите регулярное выражение, чтобы убрать тэги, дабы я мог парсить и такие доски с проксями...
Заранее спасибо!

moRL · 20.09.2016

Добрый день, подскажите, пожалуйста, регулярку что бы можно было забрать из текста {первое предложение|до запятой|до точки|до воскл.знака|до вопр.знака} не короче 25 и не длиннее 60 символов. Нужно для выбора заголовка из спаршенного текста.

doc · 20.09.2016

(?<=^|[.?!]\s*)[^\r\n.,?!]{25,60}(?=[.,?!])
как-то так

moRL · 20.09.2016

doc написал(а):
(?<=^|[.?!]\s*)[^\r\n.,?!]{25,60}(?=[.,?!])
как-то так

Спасибо! То что доктор прописал)

steklarul · 20.09.2016

Всем привет вопрос как поставить косую черту в конце ссылки в те строки где нет этого слеша через регулярку

karding · 20.09.2016

Народ, перепробовал варианты, но не смог получить результат, полагаюсь на ваши умы. Задача такая - имеется к примеру предложение :
"Если ты ищешь готовое сочинение по литературе - добро пожаловать!.
Требуется проверить в этом тексте наличие словоформы "сочин". Чтобы потом построить логику - по наличию данного текста, о чем идет речь.

P.s. по сути подходит это решение (?i)\bgo.*?(?=\W|\ |\r|\n|$) на примере выше. Но почему то у меня не выходит ничего, или я дико туплю. Помогите плиз.

moRL · 21.09.2016

karding написал(а):
Народ, перепробовал варианты, но не смог получить результат, полагаюсь на ваши умы. Задача такая - имеется к примеру предложение :
"Если ты ищешь готовое сочинение по литературе - добро пожаловать!.
Требуется проверить в этом тексте наличие словоформы "сочин". Чтобы потом построить логику - по наличию данного текста, о чем идет речь.

P.s. по сути подходит это решение (?i)\bgo.*?(?=\W|\ |\r|\n|$) на примере выше. Но почему то у меня не выходит ничего, или я дико туплю. Помогите плиз.

Держи: сочин.*?

А теперь вопрос к знатокам - требуется при парсинге проверить текст на количество знаков, т.е. мне нужно парсить пост где есть минимум 250 символов. Подскажите, пожалуйста, регулярку.

karding · 21.09.2016

Вроде как подходит сочин.*?\ от

moRL написал(а):
Держи: сочин.*?

А теперь вопрос к знатокам - требуется при парсинге проверить текст на количество знаков, т.е. мне нужно парсить пост где есть минимум 250 символов. Подскажите, пожалуйста, регулярку.

До этого допер сам, но встал другой вопрос, если будет слово начинаться с заглавной буквы, то данное слово он не найдет.

Severip · 21.09.2016

Отключите учет регистра: (?i)сочин.*?

Severip · 21.09.2016

moRL написал(а):
А теперь вопрос к знатокам - требуется при парсинге проверить текст на количество знаков, т.е. мне нужно парсить пост где есть минимум 250 символов. Подскажите, пожалуйста, регулярку.

.{250,}

bezvozni · 19.10.2016

Для поиска номеров телефона

Код:

(\+7|8|\b)[\(\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[)\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)

Взято отсюда

jonvy · 20.10.2016

Ребята, вот текст

вот регулярка <![\w\W]*?</head> Этой регуляркой я удаляю текст который между <! и </head> . Почему она удаляет всё кроме того что в красном квадрате? Как это побороть?

masterLomaster · 20.10.2016

jonvy написал(а):
Ребята, вот текст

вот регулярка <![\w\W]*?</head> Этой регуляркой я удаляю текст который между <! и </head> . Почему она удаляет всё кроме того что в красном квадрате? Как это побороть?

потому, что в красном кавадрате это скрипт!

AloneSlamer · 21.10.2016

подскажите регулярку что бы брать все куки в переменную
если там не сколько строк

jonvy · 21.10.2016

masterLomaster написал(а):
потому, что в красном кавадрате это скрипт!

Ка к его удалить? вот это <script[^>]*>.*?</script> и это <script>[\w\W]*?</script> не удаляет

masterLomaster · 21.10.2016

post: 231709 написал(а):
Ка к его удалить? вот это <script[^>]*>.*?</script> и это <script>[\w\W]*?</script> не удаляет

@jonvy ссыль на страницу где этот скрипт можно?

doc · 21.10.2016

jonvy написал(а):
Ка к его удалить? вот это <script[^>]*>.*?</script> и это <script>[\w\W]*?</script> не удаляет

(?i)<script[^>]*>[\w\W]*?</script>

jonvy · 21.10.2016

Как так происходит? вот эта страница http://tajny-nlo.ru/dokazatelstva-prebyvaniya-inoplanetyan-zemle-0 вот регулярка <script[^>]*>.*?</script> и вчера она не удаляла всю эту хрень

jQuery.extend(Drupal.settings, {"basePath":"\/","pathPrefix":"","ajaxPageState":{"theme":"tajny_adaptive","theme_token":"mbbalgx6glPW6DC4HTytbpBrjkmZnP2U5k7orsxoMp8","jquery_version":"1.7","css":{"modules\/system\/system.base.css":1,"modules\/system\/system.menus.css":1,"modules\/system\/system.messages.css":1,"modules\/system\/system.theme.css":1,"sites\/all\/libraries\/mediaelement\/build\/mediaelementplayer.min.css":1,"misc\/ui\/jquery.ui.core.css":1,"misc\/ui\/jquery.ui.theme.css":1,"modules\/comment\/comment.css":1,"modules\/field\/theme\/field.css":1,"modules\/node\/node.css":1,"modules\/poll\/poll.css":1,"modules\/search\/search.css":1,"modules\/user\/user.css":1,"sites\/all\/modules\/video_filter\/video_filter.css":1,"modules\/forum\/forum.css":1,"sites\/all\/modules\/views\/css\/views.css":1,"sites\/all\/modules\/ckeditor\/css\/ckeditor.css":1,"sites\/all\/modules\/cctags\/cctags.css":1,"sites\/all\/modules\/ctools\/css\/ctools.css":1,"sites\/all\/modules\/dhtml_menu\/dhtml_menu.css":1,"sites\/all\/modules\/panels\/css\/panels.css":1,"sites\/all

А сегодня удаляет. Это почему так происходит?
После добавления регулярки, проект нужно запускать заново? или можно продолжать выполнение с только что добавленного кубика с регуляркой? Может в этом дело?

masterLomaster · 21.10.2016

jonvy написал(а):
Как так происходит? вот эта страница http://tajny-nlo.ru/dokazatelstva-prebyvaniya-inoplanetyan-zemle-0 вот регулярка <script[^>]*>.*?</script> и вчера она не удаляла всю эту хрень

jQuery.extend(Drupal.settings, {"basePath":"\/","pathPrefix":"","ajaxPageState":{"theme":"tajny_adaptive","theme_token":"mbbalgx6glPW6DC4HTytbpBrjkmZnP2U5k7orsxoMp8","jquery_version":"1.7","css":{"modules\/system\/system.base.css":1,"modules\/system\/system.menus.css":1,"modules\/system\/system.messages.css":1,"modules\/system\/system.theme.css":1,"sites\/all\/libraries\/mediaelement\/build\/mediaelementplayer.min.css":1,"misc\/ui\/jquery.ui.core.css":1,"misc\/ui\/jquery.ui.theme.css":1,"modules\/comment\/comment.css":1,"modules\/field\/theme\/field.css":1,"modules\/node\/node.css":1,"modules\/poll\/poll.css":1,"modules\/search\/search.css":1,"modules\/user\/user.css":1,"sites\/all\/modules\/video_filter\/video_filter.css":1,"modules\/forum\/forum.css":1,"sites\/all\/modules\/views\/css\/views.css":1,"sites\/all\/modules\/ckeditor\/css\/ckeditor.css":1,"sites\/all\/modules\/cctags\/cctags.css":1,"sites\/all\/modules\/ctools\/css\/ctools.css":1,"sites\/all\/modules\/dhtml_menu\/dhtml_menu.css":1,"sites\/all\/modules\/panels\/css\/panels.css":1,"sites\/all

А сегодня удаляет. Это почему так происходит?
После добавления регулярки, проект нужно запускать заново? или можно продолжать выполнение с только что добавленного кубика с регуляркой? Может в этом дело?

возможно! Ктото уже писал про зависания при парсинге, возможно баг! Попробуйте повторить чтобы была ошибка и со скринами в тему о багах!

YrKa · 21.10.2016

Подскажите, пожалуйста, регулярку
нужно обрезать в конце слова все числа, если их больше 3
test4324125123
test7654542
чтобы осталось
test432
test765
заранее спасибо

doc · 21.10.2016

замена \d{4,}$ на пустоту по регулярке
или \d{4,}\b

masterLomaster · 21.10.2016

doc написал(а):
замена \d{4,}$ на пустоту по регулярке
или \d{4,}\b

Подскажи регулярку, нужно разбить строку по каждому 5му символу

doc · 21.10.2016

.{5}
или
.{1,5}
если нужен хвост, который меньше 5 символов

masterLomaster · 21.10.2016

doc написал(а):
.{5}
или
.{1,5}
если нужен хвост, который меньше 5 символов

нужен не хвост, по каждому 5 символу чтобы разбить, у меня строка из 1000 символов ее нужно разбить по каждому 5 символу.

doc · 21.10.2016

masterLomaster написал(а):
нужен не хвост, по каждому 5 символу чтобы разбить, у меня строка из 1000 символов ее нужно разбить по каждому 5 символу.

дай пример на короткой строке

masterLomaster · 21.10.2016

doc написал(а):
дай пример на короткой строке

9azYx NCRj4 dCjnW 1nncr PbQVF YugfR aBiudGjKMOxtLXKNYehjXc0jYWAvLHIbyDPgRqeFWUmFPcTY5GM4NBOHVJQA4ZMq0VN6qlsc0EHtVrIqB4j3HRmo3XlFmlOIUgFDvncRzx4s8xZO8jD0zVsdfU2y0bCbX8bbjCRgnFmamrqn1PT8YOtA3jhJcyECnvkMBsorFgkYd0F9vztuLDLwZDzMvFLpqRD3DqWYjksiimf3Ryp11d2SRy6qKoIMc8xOtPddLnHkjWZahjduzKiGW0hv3jF7AdS9

и так нужно разбить всю строку

doc · 21.10.2016

masterLomaster написал(а):
9azYx NCRj4 dCjnW 1nncr PbQVF YugfR aBiudGjKMOxtLXKNYehjXc0jYWAvLHIbyDPgRqeFWUmFPcTY5GM4NBOHVJQA4ZMq0VN6qlsc0EHtVrIqB4j3HRmo3XlFmlOIUgFDvncRzx4s8xZO8jD0zVsdfU2y0bCbX8bbjCRgnFmamrqn1PT8YOtA3jhJcyECnvkMBsorFgkYd0F9vztuLDLwZDzMvFLpqRD3DqWYjksiimf3Ryp11d2SRy6qKoIMc8xOtPddLnHkjWZahjduzKiGW0hv3jF7AdS9

и так нужно разбить всю строку

Регулярные выражения на все случаи жизни

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Новичок

Client

Новичок

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)