Регулярные выражения на все случаи жизни

Redsmokky

Client
Регистрация
06.10.2015
Сообщения
313
Благодарностей
195
Баллы
43
Коллеги подскажите как собрать все внутренние ссылки с сайтов, с некоторых нормально парсится, а на некоторых ссылки на другие страницы идут как окончание основного домена и начинаются с href="
 

Вложения

Terikon

Client
Регистрация
06.02.2016
Сообщения
184
Благодарностей
20
Баллы
18
Подскажите как исправить данную регулярку (http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?

что бы парсила такие ссылки тоже <a href='/adress/' ><span>...</span></a>
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113

Fedod

Client
Регистрация
13.09.2016
Сообщения
26
Благодарностей
0
Баллы
1
Друзья, прошу помощи...
В proxy checker`e создаю листы прокси со своих ресурсов...
Сайты, где прокси в коде идут так:
123.456.789:0123
123.456.789:0123
123.456.789:0123
Парсятся на ура!
Но есть сайты, где прокси имеют вид:
123.456.789:0123<tr>123.456.789:0123<tr>123.456.789:0123<tr>123.456.789:0123 и тд.
Подскажите регулярное выражение, чтобы убрать тэги, дабы я мог парсить и такие доски с проксями...
Заранее спасибо!
 

moRL

Client
Регистрация
18.07.2016
Сообщения
101
Благодарностей
70
Баллы
28
Добрый день, подскажите, пожалуйста, регулярку что бы можно было забрать из текста {первое предложение|до запятой|до точки|до воскл.знака|до вопр.знака} не короче 25 и не длиннее 60 символов. Нужно для выбора заголовка из спаршенного текста.
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
(?<=^|[.?!]\s*)[^\r\n.,?!]{25,60}(?=[.,?!])
как-то так
 
  • Спасибо
Реакции: moRL

moRL

Client
Регистрация
18.07.2016
Сообщения
101
Благодарностей
70
Баллы
28

steklarul

Client
Регистрация
07.09.2016
Сообщения
164
Благодарностей
7
Баллы
18
Всем привет вопрос как поставить косую черту в конце ссылки в те строки где нет этого слеша через регулярку
 

karding

Новичок
Регистрация
26.01.2016
Сообщения
27
Благодарностей
0
Баллы
1
Народ, перепробовал варианты, но не смог получить результат, полагаюсь на ваши умы. Задача такая - имеется к примеру предложение :
"Если ты ищешь готовое сочинение по литературе - добро пожаловать!.
Требуется проверить в этом тексте наличие словоформы "сочин". Чтобы потом построить логику - по наличию данного текста, о чем идет речь.

P.s. по сути подходит это решение (?i)\bgo.*?(?=\W|\ |\r|\n|$) на примере выше. Но почему то у меня не выходит ничего, или я дико туплю. Помогите плиз.
 

moRL

Client
Регистрация
18.07.2016
Сообщения
101
Благодарностей
70
Баллы
28
Народ, перепробовал варианты, но не смог получить результат, полагаюсь на ваши умы. Задача такая - имеется к примеру предложение :
"Если ты ищешь готовое сочинение по литературе - добро пожаловать!.
Требуется проверить в этом тексте наличие словоформы "сочин". Чтобы потом построить логику - по наличию данного текста, о чем идет речь.

P.s. по сути подходит это решение (?i)\bgo.*?(?=\W|\ |\r|\n|$) на примере выше. Но почему то у меня не выходит ничего, или я дико туплю. Помогите плиз.
Держи: сочин.*?

А теперь вопрос к знатокам - требуется при парсинге проверить текст на количество знаков, т.е. мне нужно парсить пост где есть минимум 250 символов. Подскажите, пожалуйста, регулярку.
 

karding

Новичок
Регистрация
26.01.2016
Сообщения
27
Благодарностей
0
Баллы
1
Вроде как подходит сочин.*?\ от
Держи: сочин.*?

А теперь вопрос к знатокам - требуется при парсинге проверить текст на количество знаков, т.е. мне нужно парсить пост где есть минимум 250 символов. Подскажите, пожалуйста, регулярку.
До этого допер сам, но встал другой вопрос, если будет слово начинаться с заглавной буквы, то данное слово он не найдет.
 

Severip

Client
Регистрация
17.10.2013
Сообщения
346
Благодарностей
98
Баллы
28
Отключите учет регистра: (?i)сочин.*?
 

Severip

Client
Регистрация
17.10.2013
Сообщения
346
Благодарностей
98
Баллы
28
А теперь вопрос к знатокам - требуется при парсинге проверить текст на количество знаков, т.е. мне нужно парсить пост где есть минимум 250 символов. Подскажите, пожалуйста, регулярку.
.{250,}
 
  • Спасибо
Реакции: moRL

bezvozni

Client
Регистрация
31.03.2013
Сообщения
306
Благодарностей
29
Баллы
28
Для поиска номеров телефона

Код:
(\+7|8|\b)[\(\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[)\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)[\s-]*(\d)
Взято отсюда
 

jonvy

Client
Регистрация
28.11.2015
Сообщения
305
Благодарностей
17
Баллы
18
Ребята, вот текст

вот регулярка <![\w\W]*?</head> Этой регуляркой я удаляю текст который между <! и </head> . Почему она удаляет всё кроме того что в красном квадрате? Как это побороть?
 
Регистрация
08.07.2015
Сообщения
2 848
Благодарностей
712
Баллы
113
Ребята, вот текст

вот регулярка <![\w\W]*?</head> Этой регуляркой я удаляю текст который между <! и </head> . Почему она удаляет всё кроме того что в красном квадрате? Как это побороть?
потому, что в красном кавадрате это скрипт!
 

AloneSlamer

Client
Регистрация
29.01.2013
Сообщения
1 404
Благодарностей
362
Баллы
83

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с AloneSlamer какие-либо сделки.

подскажите регулярку что бы брать все куки в переменную
если там не сколько строк
 

jonvy

Client
Регистрация
28.11.2015
Сообщения
305
Благодарностей
17
Баллы
18
Регистрация
08.07.2015
Сообщения
2 848
Благодарностей
712
Баллы
113
post: 231709 сказал(а):
Ка к его удалить? вот это <script[^>]*>.*?</script> и это <script>[\w\W]*?</script> не удаляет
@jonvy ссыль на страницу где этот скрипт можно?
 
Последнее редактирование:

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113

jonvy

Client
Регистрация
28.11.2015
Сообщения
305
Благодарностей
17
Баллы
18
Как так происходит? вот эта страница http://tajny-nlo.ru/dokazatelstva-prebyvaniya-inoplanetyan-zemle-0 вот регулярка <script[^>]*>.*?</script> и вчера она не удаляла всю эту хрень

jQuery.extend(Drupal.settings, {"basePath":"\/","pathPrefix":"","ajaxPageState":{"theme":"tajny_adaptive","theme_token":"mbbalgx6glPW6DC4HTytbpBrjkmZnP2U5k7orsxoMp8","jquery_version":"1.7","css":{"modules\/system\/system.base.css":1,"modules\/system\/system.menus.css":1,"modules\/system\/system.messages.css":1,"modules\/system\/system.theme.css":1,"sites\/all\/libraries\/mediaelement\/build\/mediaelementplayer.min.css":1,"misc\/ui\/jquery.ui.core.css":1,"misc\/ui\/jquery.ui.theme.css":1,"modules\/comment\/comment.css":1,"modules\/field\/theme\/field.css":1,"modules\/node\/node.css":1,"modules\/poll\/poll.css":1,"modules\/search\/search.css":1,"modules\/user\/user.css":1,"sites\/all\/modules\/video_filter\/video_filter.css":1,"modules\/forum\/forum.css":1,"sites\/all\/modules\/views\/css\/views.css":1,"sites\/all\/modules\/ckeditor\/css\/ckeditor.css":1,"sites\/all\/modules\/cctags\/cctags.css":1,"sites\/all\/modules\/ctools\/css\/ctools.css":1,"sites\/all\/modules\/dhtml_menu\/dhtml_menu.css":1,"sites\/all\/modules\/panels\/css\/panels.css":1,"sites\/all

А сегодня удаляет. Это почему так происходит?
После добавления регулярки, проект нужно запускать заново? или можно продолжать выполнение с только что добавленного кубика с регуляркой? Может в этом дело?
 
Регистрация
08.07.2015
Сообщения
2 848
Благодарностей
712
Баллы
113
Как так происходит? вот эта страница http://tajny-nlo.ru/dokazatelstva-prebyvaniya-inoplanetyan-zemle-0 вот регулярка <script[^>]*>.*?</script> и вчера она не удаляла всю эту хрень

jQuery.extend(Drupal.settings, {"basePath":"\/","pathPrefix":"","ajaxPageState":{"theme":"tajny_adaptive","theme_token":"mbbalgx6glPW6DC4HTytbpBrjkmZnP2U5k7orsxoMp8","jquery_version":"1.7","css":{"modules\/system\/system.base.css":1,"modules\/system\/system.menus.css":1,"modules\/system\/system.messages.css":1,"modules\/system\/system.theme.css":1,"sites\/all\/libraries\/mediaelement\/build\/mediaelementplayer.min.css":1,"misc\/ui\/jquery.ui.core.css":1,"misc\/ui\/jquery.ui.theme.css":1,"modules\/comment\/comment.css":1,"modules\/field\/theme\/field.css":1,"modules\/node\/node.css":1,"modules\/poll\/poll.css":1,"modules\/search\/search.css":1,"modules\/user\/user.css":1,"sites\/all\/modules\/video_filter\/video_filter.css":1,"modules\/forum\/forum.css":1,"sites\/all\/modules\/views\/css\/views.css":1,"sites\/all\/modules\/ckeditor\/css\/ckeditor.css":1,"sites\/all\/modules\/cctags\/cctags.css":1,"sites\/all\/modules\/ctools\/css\/ctools.css":1,"sites\/all\/modules\/dhtml_menu\/dhtml_menu.css":1,"sites\/all\/modules\/panels\/css\/panels.css":1,"sites\/all

А сегодня удаляет. Это почему так происходит?
После добавления регулярки, проект нужно запускать заново? или можно продолжать выполнение с только что добавленного кубика с регуляркой? Может в этом дело?
возможно! Ктото уже писал про зависания при парсинге, возможно баг! Попробуйте повторить чтобы была ошибка и со скринами в тему о багах!
 

YrKa

Client
Регистрация
20.04.2015
Сообщения
220
Благодарностей
112
Баллы
43
Подскажите, пожалуйста, регулярку
нужно обрезать в конце слова все числа, если их больше 3
test4324125123
test7654542
чтобы осталось
test432
test765
заранее спасибо
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
замена \d{4,}$ на пустоту по регулярке
или \d{4,}\b
 
  • Спасибо
Реакции: YrKa
Регистрация
08.07.2015
Сообщения
2 848
Благодарностей
712
Баллы
113

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
.{5}
или
.{1,5}
если нужен хвост, который меньше 5 символов
 
  • Спасибо
Реакции: masterLomaster
Регистрация
08.07.2015
Сообщения
2 848
Благодарностей
712
Баллы
113
.{5}
или
.{1,5}
если нужен хвост, который меньше 5 символов
нужен не хвост, по каждому 5 символу чтобы разбить, у меня строка из 1000 символов ее нужно разбить по каждому 5 символу.
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
Регистрация
08.07.2015
Сообщения
2 848
Благодарностей
712
Баллы
113
дай пример на короткой строке
9azYx NCRj4 dCjnW 1nncr PbQVF YugfR aBiudGjKMOxtLXKNYehjXc0jYWAvLHIbyDPgRqeFWUmFPcTY5GM4NBOHVJQA4ZMq0VN6qlsc0EHtVrIqB4j3HRmo3XlFmlOIUgFDvncRzx4s8xZO8jD0zVsdfU2y0bCbX8bbjCRgnFmamrqn1PT8YOtA3jhJcyECnvkMBsorFgkYd0F9vztuLDLwZDzMvFLpqRD3DqWYjksiimf3Ryp11d2SRy6qKoIMc8xOtPddLnHkjWZahjduzKiGW0hv3jF7AdS9

и так нужно разбить всю строку
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
9azYx NCRj4 dCjnW 1nncr PbQVF YugfR aBiudGjKMOxtLXKNYehjXc0jYWAvLHIbyDPgRqeFWUmFPcTY5GM4NBOHVJQA4ZMq0VN6qlsc0EHtVrIqB4j3HRmo3XlFmlOIUgFDvncRzx4s8xZO8jD0zVsdfU2y0bCbX8bbjCRgnFmamrqn1PT8YOtA3jhJcyECnvkMBsorFgkYd0F9vztuLDLwZDzMvFLpqRD3DqWYjksiimf3Ryp11d2SRy6qKoIMc8xOtPddLnHkjWZahjduzKiGW0hv3jF7AdS9

и так нужно разбить всю строку
 
  • Спасибо
Реакции: masterLomaster

Кто просматривает тему: (Всего: 11, Пользователи: 0, Гости: 11)