Регулярные выражения на все случаи жизни

Sergodjan · 05.06.2018

zios написал(а):
Можно спросить как эти данные по разным файлам раскидать? То есть в несколько списков?

Это тема уже для отдельного топика..

maryan · 29.06.2018

Как убрать строки где после символа "в "(верхний регистр)?
пример текста

хочу к тебе в гости
иду в парк
еду в Москву
в Питере

нужно убрать все тексты с названиями городов
Вариант качать базу городов не катит

doc · 29.06.2018

\bв\s+[А-ЯЁ]
удалить строки удовлетворяющие рег. выражение

maryan · 08.07.2018

как после каждого символа вставить пробел? можно и для np++

doc · 08.07.2018

maryan написал(а):
как после каждого символа вставить пробел? можно и для np++

katka2100 · 13.07.2018

какой регуляркой парсить sitekey ключ для рекапчи, так чтобы прям сразу без ковычек и всего лишнего?

katka2100 · 13.07.2018

всё, конструктором регулярных выражений сделал.
(?<=data-sitekey=")[^"]*
вот такое у меня получилось

Yuras · 23.07.2018

Исходный код в переменной:

Код:

<a class="small" href="https://сайт.ру/раздел/тут-12любые-буквы67-и-45цифры-цифры">

Нужно получить все, что стоит между последним дефисом и кавычкой.

Я смог это сделать через создание промежуточной переменной так:

Код:

(?<=<a\ class="small"\ href="https://сайт\.ру/раздел/).*?(?=")

и последующей обработкой этой переменной так:

Код:

(?<=-)[^-]+$

Подозреваю, что есть более элегантное решение. Прошу помочь. :-)

doc · 23.07.2018

Yuras написал(а):
Исходный код в переменной:

Код:

<a class="small" href="https://сайт.ру/раздел/тут-12любые-буквы67-и-45цифры-цифры">

Нужно получить цифры, стоящие между последним дефисом и кавычкой.

Я смог это сделать через создание промежуточной переменной так:

Код:

(?<=<a\ class="small"\ href="https://сайт\.ру/раздел/).*?(?=")

и последующей обработкой этой переменной так:

Код:

(?<=-)[^-]+$

Подозреваю, что есть более элегантное решение. Прошу помочь.

Код:

(?<=-)\d+(?=">)

Yuras · 23.07.2018

спасибо, работает!

katka2100 · 26.07.2018

Извиняюсь за нубство)
Подскажите, найти любую букву?
Любая цифра- \d , а буква как?)

Sergodjan · 26.07.2018

katka2100 написал(а):
Извиняюсь за нубство)
Подскажите, найти любую букву?
Любая цифра- \d , а буква как?)

Для латиницы:
[A-Za-z]

Для кириллицы:
[А-Яа-яЁё]

Универсальная:
[A-Za-zА-Яа-яЁё]

katka2100 · 26.07.2018

sergodjan66 написал(а):
Для латиницы:
[A-Za-z]

Для кириллицы:
[А-Яа-яЁё]

Универсальная:
[A-Za-zА-Яа-яЁё]

спасибо!
Ещё интересует как можно найти пустое значение?

katka2100 · 26.07.2018

Ответ нашёл, пустое значение - ^$ (^ - начало строки $- конец строки)
Вопрос, можно ли, и если да то как использовать регулярное выражение в кубике if?

doc · 26.07.2018

katka2100 написал(а):
Ответ нашёл, пустое значение - ^$ (^ - начало строки $- конец строки)
Вопрос, можно ли, и если да то как использовать регулярное выражение в кубике if?

нельзя. Можно искать текст по регулярке через обработку текста, а потом просто проверять результирующую переменную на пустоту

katka2100 · 26.07.2018

doc написал(а):
нельзя. Можно искать текст по регулярке через обработку текста, а потом просто проверять результирующую переменную на пустоту

а как проверить результирующую переменную на пустоту в случае с if ?
{-Variable.x-}== что?

Sergodjan · 26.07.2018

katka2100 написал(а):
а как проверить результирующую переменную на пустоту в случае с if ?
{-Variable.x-}== что?

"{-Variable.x-}"==""
или
'{-Variable.x-}'==''

Подробнее тут:
https://zennolab.com/wiki/ru:logic

Enigma · 26.07.2018

Подскажите, плиз. Есть вот значения такого плана

QZO6_59UV8_KITB7BGV_9fs
OEAB_U6029T0S8_A63b
g3_3RGe23ZF3_1XR67A
XLdIZS_d55O09_xccu

Мне надо получить ту часть, которая идет после последней _
Т.е. вот эти значения:

9fs
A63b
1XR67A
xccu

Какой регуляркой это можно сделать?

Profits · 26.07.2018

Enigma написал(а):
Подскажите, плиз. Есть вот значения такого плана

QZO6_59UV8_KITB7BGV_9fs
OEAB_U6029T0S8_A63b
g3_3RGe23ZF3_1XR67A
XLdIZS_d55O09_xccu

Мне надо получить ту часть, которая идет после последней _
Т.е. вот эти значения:

9fs
A63b
1XR67A
xccu

Какой регуляркой это можно сделать?

(?<=_)[^_]+$

Enigma · 26.07.2018

Шикарно, огромное спасибо!

lexadze · 27.07.2018

Подскажите пожалуйста регулярное выражение при парсинге, чтобы оставалось только значение: "дубить кожу", "дубленная кожа", "кожа"
href="/keywords/?q=%D0%B4%D0%B5%D0%BB%D0%B0%D1%82%D1%8C%20%D0%B4%D1%80%D0%B0%D0%BA%D0%BE%D0%BD%D0%B0%20%D0%B8%D0%B3%D1%80%D0%B0">дубить кожу</a>

href="/keywords/?q=%D0%BA%D0%B0%D0%BA%20%D0%B4%D0%B5%D0%BB%D0%B0%D1%8E%D1%82%20%D0%B4%D1%80%D0%B0%D0%BA%D0%BE%D0%BD%D0%BE%D0%B2%20%D0%B2%20%D0%B8%D0%B3%D1%80%D0%B5%20%D0%BF%D1%80%D0%B5%D1%81%D1%82%D0%BE%D0%BB%D0%BE%D0%B2">дубленная кожа</a>

href="/keywords/?q=%D0%BF%D0%B5%D1%80%D0%B5%D0%BF%D1%83%D1%82%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5%20%D0%B8%D0%B3%D1%80%D1%8B%20%D0%B8%20%D0%B4%D1%80%D0%B0%D0%BA%D0%BE%D0%BD%D0%BE%D0%B2">кожа</a

Profits · 27.07.2018

lexadze написал(а):
Подскажите пожалуйста регулярное выражение при парсинге, чтобы оставалось только значение: "дубить кожу", "дубленная кожа", "кожа"
href="/keywords/?q=%D0%B4%D0%B5%D0%BB%D0%B0%D1%82%D1%8C%20%D0%B4%D1%80%D0%B0%D0%BA%D0%BE%D0%BD%D0%B0%20%D0%B8%D0%B3%D1%80%D0%B0">дубить кожу</a>

href="/keywords/?q=%D0%BA%D0%B0%D0%BA%20%D0%B4%D0%B5%D0%BB%D0%B0%D1%8E%D1%82%20%D0%B4%D1%80%D0%B0%D0%BA%D0%BE%D0%BD%D0%BE%D0%B2%20%D0%B2%20%D0%B8%D0%B3%D1%80%D0%B5%20%D0%BF%D1%80%D0%B5%D1%81%D1%82%D0%BE%D0%BB%D0%BE%D0%B2">дубленная кожа</a>

href="/keywords/?q=%D0%BF%D0%B5%D1%80%D0%B5%D0%BF%D1%83%D1%82%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5%20%D0%B8%D0%B3%D1%80%D1%8B%20%D0%B8%20%D0%B4%D1%80%D0%B0%D0%BA%D0%BE%D0%BD%D0%BE%D0%B2">кожа</a

(?<=>).*?(?=</a)

Molfar · 30.07.2018

удалено

Vinovnik · 31.07.2018

Как удалить из переменной все запрещенные символы для названия файлов?

Vinovnik · 03.08.2018

keltuzhaknut · 08.08.2018

Доброго времени суток, мне нужна помощь в удалении html тегов дублей, пример:
<h5> слова слова слова </h5><h5> –слова слова слова </h5><h5><h5><h5><h5> слова слова слова (2) </h5></h5></h5></h5><ul><ul><li> слова слова слова<strong> слова </strong> . All </li></ul></ul> <p> слова слова слова </p><p> слова слова слова </p><p><p><p> слова слова слова </p></p></p>

Просто брать и делать блоком замену через </p></p></p>|</p></p>|</p></p></p></p>
На </p> я могу, мне нужно понять как правильно сделать:
1) чтобы одна регулярка удовлетворила под не ограниченное количество одинаковых рядом стоящих тегов в плотную, между ними нет и не будет пробелов и слов, они все стоят вплотную </p></p></p> или <ul><ul> или </h5></h5></h5></h5> и т.д.
2) Нужно что-то подобного вида: [</h5>]{2,}
т.е. как сделать, чтобы регулярка ловила от 2 и более одинаковых тегов </h5> или <h5> или </p> и дальше сделать замену на один тег

Sergodjan · 08.08.2018

BlackInWhite написал(а):
Доброго времени суток, мне нужна помощь в удалении html тегов дублей, пример:
<h5> слова слова слова </h5><h5> –слова слова слова </h5><h5><h5><h5><h5> слова слова слова (2) </h5></h5></h5></h5><ul><ul><li> слова слова слова<strong> слова </strong> . All </li></ul></ul> <p> слова слова слова </p><p> слова слова слова </p><p><p><p> слова слова слова </p></p></p>

Просто брать и делать блоком замену через </p></p></p>|</p></p>|</p></p></p></p>
На </p> я могу, мне нужно понять как правильно сделать:
1) чтобы одна регулярка удовлетворила под не ограниченное количество одинаковых рядом стоящих тегов в плотную, между ними нет и не будет пробелов и слов, они все стоят вплотную </p></p></p> или <ul><ul> или </h5></h5></h5></h5> и т.д.
2) Нужно что-то подобного вида: [</h5>]{2,}
т.е. как сделать, чтобы регулярка ловила от 2 и более одинаковых тегов </h5> или <h5> или </p> и дальше сделать замену на один тег

Вам ответили тут:
https://zennolab.com/discussion/threads/reguljarnoe-vyrazhenie-udalenie-dublikatov-html-tegov.50535/
Пожалуйста, не дублируйте сообщения.

INNERSPEAKER · 14.08.2018

Господа знатоки, подскажите, спарсил базу данных (больше 5к сайтов). Не могу найти способ убрать все слова после доменного имени (.com | .org | .co.uk) в урлах типа https://www.{имя сайта}.com/blog/2018/06/5-common-mistakes.
Необходимо очистить все эти категории и подкатегории и оставить голый адрес на домашнюю страницу :
(https://www.{имя сайта}.com).
Перерыл всё, что мог, очень надеюсь на ваш совет!

Sergodjan · 14.08.2018

INNERSPEAKER написал(а):
Господа знатоки, подскажите, спарсил базу данных (больше 5к сайтов). Не могу найти способ убрать все слова после доменного имени (.com | .org | .co.uk) в урлах типа https://www.{имя сайта}.com/blog/2018/06/5-common-mistakes.
Необходимо очистить все эти категории и подкатегории и оставить голый адрес на домашнюю страницу :
(https://www.{имя сайта}.com).
Перерыл всё, что мог, очень надеюсь на ваш совет!

Регулярка:

Код:

(https://|http://).*?(?=/.*/)

INNERSPEAKER · 15.08.2018

sergodjan66 написал(а):
Регулярка:

Код:

(https://|http://).*?(?=/.*/)

Посмотреть вложение 31413

Большое спасибо! А возможно ли в этот regexp добавить удаление дублей? Что бы не приходилось ставить кубик с обработкой списка.

Регулярные выражения на все случаи жизни

Administrator

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Administrator

Client

Client

Client

Client

Administrator

Client

Client

Client

Client

Client

Client

Client

Client

Client

Administrator

Новичок

Administrator

Новичок

Кто просматривает тему: (Всего: 17, Пользователи: 0, Гости: 17)