Регулярные выражения на все случаи жизни

alekwuy · 10.07.2015

(?<=(\r\n|^)).{18,}(?=(\r\n|$)) такая регулярка возьмет все строки, в которых больше 18 символов, а такая где до 18 включительно:
(?<=(\r\n|^)).{0,18}(?=(\r\n|$))

точно не помню где взял)

ZennoScript · 14.07.2015

^[1-9][0-9]*$ Это можно заменить просто на [1-9]\d*, тогда не будет никаких осечек.
(?i)go.*?(?=\ |\r|\n|$) - это меняем на (?i)\bgo.*?(?=\W|\ |\r|\n|$) Так будет более правильно.
http://ZennoScript.com/ru/tutorial/tutorials/regex - видеоролик Вам в помощь!

Trader1985 · 15.07.2015

Вот, есть для текста, спрашивал когда-то у местных гуру:

<.*?> – поиск всех html тегов, например, чтобы спарсенный текст очистить от кода.
\n\r - поиск всех пустых строк
(?<=(\r\n){2})(\r\n){1,} – поиск от трёх и более пустых строк. Подойдёт для создания более "красивого" текста - убирает лишние пустые строки

confirm2315 · 15.07.2015

XML тэг
За открывающей скобкой < должно стоять слово из букв — имя элемента, затем могут быть атрибуты — любые символы, кроме закрывающей скобки >. Далее — любой текст (содержимое) и закрывающий тэг, т.е. <имя />, или как минимум один пробел, слэш и закрывающаю скобка (самозакрывающийся тэг).

Паттерн:/^<([a-z]+)([^>]+)*(?:>(.*)<\/\1>|\s+\/>)$/

svaminar · 20.07.2015

подскажите регулярку.
Нужно с строки удалить первые 6 символов.
Символы маленькие английские буквы

ZennoScript · 20.07.2015

CSS сказал(а):
1. По осечкам - обновил информацию в первом посте. Не нравится ни этот код, ни тот что в первом посте, этот не нравится тем что находит при 010 => 10, а тот что в первом посте тем что после упрощения начинает точно также работать

Не видел, чтобы встречались значения ширины или высоты вида 010, это можно обойти добавив символ ^[1-9]\d* или же вообще указать просто [^0] т.е. это будет означать, что число не начинается с нуля.
По поводу наслаивающихся элементов - тут этим просто так не решить, для этого нужно искать необходимые атрибуты для поиска. Их всегда можно правильно подобрать, нужно только внимательно посмотреть на коды элементов, так же это можно регулировать номерами совпадения, т.е. устанавливать, чтобы заполнялся последний элемент, он как правило находится сверху.

ZennoScript · 20.07.2015

CSS сказал(а):
Ширина и высота это просто пример использования регулярки, сама регулярка подразумевает поиск числа, а не последовательности цифр, однако ищет именно последовательность цифр начинающуюся не с нуля.

Можете попробовать написать регулярку которая на входе пример:

Код:

0 001 100 200

и на выходе выдаст:

Код:

100 200

В таком случае она будет выполнять заявленную задачу, и можно будет её обновить в первом посте.

Решение всему есть, и мне это известно также как и вам. Данная информация об осечке служит лишь целью предупредить людей чтобы они знали её ограничения.

Например так (?<=(\D|^))[1-9]\d*
Опять же - эти вещи можно крутить как угодно, главное понимать что именно нужно.

proffman · 20.07.2015

А как сделать такую регулярку? Например, есть строки которые начинаются из символов а после них идет http - 353http://. Просто взять это мелочь, а вот как брать сначала те строки в которых число поменьше (отсортировать в числовом диапазоне). Например, первое совпадение 100http:// должно иметь приоритет выше чем 353http://, и так со всеми строками по порядку. Можно от 100 до 5000, а можно от 0 без разницы :-)

ZennoScript · 21.07.2015

riptup сказал(а):
А как сделать такую регулярку? Например, есть строки которые начинаются из символов а после них идет http - 353http://. Просто взять это мелочь, а вот как брать сначала те строки в которых число поменьше (отсортировать в числовом диапазоне). Например, первое совпадение 100http:// должно иметь приоритет выше чем 353http://, и так со всеми строками по порядку. Можно от 100 до 5000, а можно от 0 без разницы

Просто получаете все значения в список и после этого сортируете строки в списке по возрастанию.

proffman · 21.07.2015

ZennoScript сказал(а):
сортируете строки в списке по возрастанию.

Вчера так и сделал, но потом дошло что можно сделать на C# Regex после чего отсортировать и всё это в одном флаконе..

CSS сказал(а):
Выложи что на входе, и что нужно получить

Примерно то что сказал ZennoScript, но вы правы, все это можно спарсить и сразу отсортировать в одном экшине. Эх, не дошло сразу :dy:

Сори за флуд)

up_lvl · 02.09.2015

Код:
IP

Код:

(\d{1,3}\.){3}\d{1,3}

Можно ещё добавить IP

ORT (зачастую для проксей)
(\d{1,3}\.){3}\d{1,3}:\d*

Vega$ · 23.09.2015

Доброго дня, только начинаю разбираться с зеннопостером. Вопрос по регулярным выражениям. Собраю через DOM нужное значение и кладу его в переменную. Но в таблицу из переменной это значение не уходит, предполагаяю из-за того что в переменной, значение получается с пробелами перед самим значением. Как доработать регулярное выражение, чтобы очистить получаемые данные от пробелов. Значение 1,2 и более слов, плюс даты попадаются. Выражение выглядит вот так (?<=\ Город: </div>)[\w\W]*?(?=</div>). Данные приходят такие \\\\\\\\\Петропавловск Камчатский\\\

rostonix · 23.09.2015

Добавляйте в список, поток в цикле из списка берите построчно и к каждому значению применяйте Операции с текстом- Trim перед сохранением в другом месте

Vega$ · 24.09.2015

rostonix сказал(а):
Добавляйте в список, поток в цикле из списка берите построчно и к каждому значению применяйте Операции с текстом- Trim перед сохранением в другом месте

Спасибо, попмогло, только я не стал список подключать, применяю этот экшен к переменной и в нее же записываю данные.

ParfeniyAnton · 27.09.2015

Друзья, подскажите, пожалуйста каким образом из этой конструкции можно вытянуть только текст, заключённый в тег <a>?
В данном случае нужно "Keep Watch Beanie (Black/Green)"

<h2 class="field field-name-title-field field-type-text field-label-hidden">
<a href="/clothing/keep-watch-beanie-blackgreen">Keep Watch Beanie (Black/Green)</a> </h2>

+ в Карму всем откликнувшимся!)

Sergodjan · 27.09.2015

ParfeniyAnton сказал(а):
Друзья, подскажите, пожалуйста каким образом из этой конструкции можно вытянуть только текст, заключённый в тег <a>?
В данном случае нужно "Keep Watch Beanie (Black/Green)"

<h2 class="field field-name-title-field field-type-text field-label-hidden">
<a href="/clothing/keep-watch-beanie-blackgreen">Keep Watch Beanie (Black/Green)</a> </h2>

+ в Карму всем откликнувшимся!)

с помощью экшена Обработка текста - Замена, в режиме Regex: <[^>]*> заменить на пустоту..

evgen_po · 27.09.2015

ParfeniyAnton сказал(а):
Друзья, подскажите, пожалуйста каким образом из этой конструкции можно вытянуть только текст, заключённый в тег <a>?
В данном случае нужно "Keep Watch Beanie (Black/Green)"

<h2 class="field field-name-title-field field-type-text field-label-hidden">
<a href="/clothing/keep-watch-beanie-blackgreen">Keep Watch Beanie (Black/Green)</a> </h2>

+ в Карму всем откликнувшимся!)

(?<=<a.*>)[\w\W]*?(?=</a>)
Можно такой регуляркой

gnomza75 · 28.09.2015

ребята подскажите с регуляркой нужен пробел. задача экшен обработка текста в переменной состоящей из нескольких- слов пример_такой_пример , с помощью замены регексом заменить нижнее подчеркивание на пробел. пробовал менять так \s в текст пишется \
при выставлении просто пробела с клавиатуры, экшен работает правильно только до перезагрузки программы. при следующем запуске проэкта поле замены пробелом заменяется на пустоту,

evgen_po · 28.09.2015

gnomza75 сказал(а):
ребята подскажите с регуляркой нужен пробел. задача экшен обработка текста в переменной состоящей из нескольких- слов пример_такой_пример , с помощью замены регексом заменить нижнее подчеркивание на пробел. пробовал менять так \s в текст пишется \
при выставлении просто пробела с клавиатуры, экшен работает правильно только до перезагрузки программы. при следующем запуске проэкта поле замены пробелом заменяется на пустоту,

Не пробовали вместо пробела писать макрос {-String.Space-}? По-моему в Вашем случаем самое то.

Vega$ · 01.10.2015

Друзья помогите, забираю текст через DOM, сразу в список. Но Первое слово в нужном мне абзаце выделено жирным, соответственно текст я получаю такого вида - текст </strong> текст текст. Как изменить регулярное выражение, чтобы при парсинге страницы убрать этот тег. Регулярка выглядит так (?<=<div\ class="text"><strong>)[\w\W]*?(?=</div>). В нужном тексте нужны по идее только цифры и кирилица.

Список регулярных выражений и типовых контекстов использования
Поиск числа больше 0 Код: `(?<=(\D\|^))[1-9]\d` Вариант использования: в этом примере ищутся строго* видимые элементы, невидимые же (имеющие ширину 0px) игнорируются, но иногда бывают осечки - когда сайт слоями накладывает элементы (встречается например в гугле). Благодарим: CSS, ZennoScript
Разбор текста на предложения, кажется автора ZennoScript, немного мной доработано Код: `[А-ЯA-Z].{15,}?(\.\|\!\|\?)(?=\ \|\r\|\n\|$)` пример работы, на входе: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Fusce dapibus tellus nec nulla gravida, sed congue nunc hendrerit. Integer interdum elementum lorem id rutrum. Ut sit amet interdum mauris. Phasellus mollis ex eleifend lacus molestie dictum. Fusce blandit, ligula non condimentum maximus, massa nisi ullamcorper odio, et vehicula nisl nunc nec orci. Sed neque diam, gravida eu blandit ullamcorper, porttitor non lorem. Etiam sagittis diam a dolor feugiat placerat. Suspendisse enim turpis, imperdiet in tellus sit amet, consectetur porta magna. Suspendisse odio nulla, imperdiet eget augue in, pulvinar hendrerit nunc. Aenean ut cursus tellus, nec vehicula ante. Vestibulum ornare erat non ante tempus, eu aliquet felis dapibus. Vestibulum ante ipsum primis in faucibus orci luctus et ultrices posuere cubilia Curae; Mauris eget arcu imperdiet, laoreet erat non, imperdiet leo. Sed arcu mi, ornare non leo sed, faucibus semper nunc. Нажмите, чтобы раскрыть... на выходе: Благодарим: ZennoScript
Поиск слова начинающегося с определённого текста (благодарим ZennoScript за доработку) Код: `(?i)\bgo.*?(?=\W\|\ \|\r\|\n\|$)` найдёт в тексте все слова начинающиеся на go, например: goal, god, google Благодарим: CSS, ZennoScript
Ищет число в диапазоне 400-699: Код: `^([4-6][0-9][0-9])$` подробнее про диапазоне можно посмотреть здесь http://www.regular-expressions.info/numericranges.html Поделился: CSS
Виртуальные колонки с разделителем ";" Код: `(?<=(^\|;)).*?(?=(;\|$\|\r\n))` на входе: name;pass;mail на выходе: нужная вам "колонка" по номеру совпадения: вариант использования: работаем со списком, разбираем по кускам колонки как в таблице Поделился: CSS
Получить имя файла из пути windows: Код: `([^\\]+$)` на входе: С:\Program Files (x86)\ZennoLab\ZennoPoster Pro\Progs\ZennoPoster.exe Нажмите, чтобы раскрыть... на выходе: ZennoPoster.exe Поделился: CSS
Поиск строк НЕ содержащих указанную (под)строку: Код: `(?<=(^\|\r\n))((?!(test)).)*(?=($\|\r\n))` на входе: test tester gogogo ololo Нажмите, чтобы раскрыть... на выходе: gogogo ololo Нажмите, чтобы раскрыть... Поделился: CSS
Взять все строки больше 18 символов Код: `(?<=(\r\n\|^)).{18,}(?=(\r\n\|$))` Благодарим: alekwuy
Взять все строки до 18 символов Код: `(?<=(\r\n\|^)).{1,18}(?=(\r\n\|$))` Благодарим: alekwuy
Поиск всех HTML тегов Код: `<.*?>` Вариант использования - очистка текста от HTML кода Благодарим: Trader1985
Поиск всех пустых строк в тексте Код: `\n\r` Вариант использования - приведение текста в порядок Благодарим: Trader1985
Поиск от трёх и более пустых строк Код: `(?<=(\r\n){2})(\r\n){1,}` Вариант использования - приведение текста в порядок в случае когда нас устраивает 2 пустые строки Благодарим: Trader1985
Email: Код: `[\.\-_A-Za-z0-9]+?@[\.\-A-Za-z0-9]+?[\.A-Za-z0-9]{2,}`
IP Код: `(\d{1,3}\.){3}\d{1,3}`
URL Код: `(http\|ftp\|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?`
IPORT (например для парсинга прокси) Код: `(\d{1,3}\.){3}\d{1,3}:\d*` Благодарим: up_lvl

Регулярные выражения на все случаи жизни

Client

Client

Client

Moderator

Client

Client

Новичок

Client

Client

Client

Client

Moderator

Client

Moderator

Client

Client

Client

Moderator

Client

Client

Client

Известная личность

Client

Client

Administrator

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)