Бесплатно напишу регулярное выражение. Часть 2.

ZennoScript · 21.06.2016

Аркадий написал(а):
Скажите, а восклицательный знак какую роль в регулярке играет? Читал книгу по регулярки и что то там не было восклицательного метасимвола)))

Почитайте вот это.

Аркадий · 21.06.2016

Столкнулся еще с одной проблемой... Попытался сам составить регулярное выражение и вроде регулярка должна работать как надо, но...

Задача состоит в следующем:

Имеется DOM дерево сайта. При помощи регулярного выражения нужно:
1. найти вот такую конструкци <a href="/index.php/kontakty" >Контакты</a> то есть весь тег с текстом "Контакты".
2. сохранить результат работы в переменную и при помощи регулярки получить url адрес (с этим этапом проблем не возникает, поэтому его пропускает)

Проблема с этапом №1

Я написал регулярное выражение:

(<a .+?>)Контакты(</[ ]?a>)

И как мне казалось, все должно было работать. Но нет

Находится куча ссылок вместо одной нужно при этом в них нет текста "Контакты", но они все равно находятся...

DOM дерево брал с этого сайта auto-pokrasim точка ru

Сюда файл с DOM загрузить не получилось.

Где я ошибся?

И возможно ли сделать регулярку более универсальной, к примеру если "Контакты" будут расположены вот так:

<a href="/index.php/kontakty" >Контакты</a>

Dimionix · 22.06.2016

Код:

(?<=<a href ?= ?").*?(?=".*Контакты)

Брать последнее совпадение.

Аркадий · 22.06.2016

Dimionix написал(а):
Код:

(?<=<a href ?= ?").*?(?=".*Контакты)

Брать последнее совпадение.

Ни то что хотелось бы. Нужно написать универсальную регулярку из расчета, что контакты могут быть не последними. А получить регуляркой нужно вот такую конструкцию <a href="/index.php/kontakty" >Контакты</a> или вот такую <a href="/index.php/kontakty" class="menu">Контакты</a>

Dimionix · 22.06.2016

Аркадий написал(а):
Ни то что хотелось бы. Нужно написать универсальную регулярку из расчета, что контакты могут быть не последними. А получить регуляркой нужно вот такую конструкцию <a href="/index.php/kontakty" >Контакты</a> или вот такую <a href="/index.php/kontakty" class="menu">Контакты</a>

Ну вы бы для начала протестировали.

Аркадий · 22.06.2016

Dimionix написал(а):
Ну вы бы для начала протестировали.

Это первое, что я сделал, когда увидел ваш пост)))

Проблема в том, что если бы Контакты находились в середине то "Брать последнее совпадение", как вы написали, не помогло бы решить задачу)

Dimionix · 22.06.2016

Аркадий написал(а):
Это первое, что я сделал, когда увидел ваш пост)))

Проблема в том, что если бы Контакты находились в середине то "Брать последнее совпадение", как вы написали, не помогло бы решить задачу)

Вот это я и имел ввиду проверить.
Абсолютно без разницы в каком месте кода находится ссылка на контакты - при парсинге этой регуляркой, нужная ссылка всегда будет последним результатом.

Аркадий · 22.06.2016

Dimionix написал(а):
Вот это я и имел ввиду проверить.
Абсолютно без разницы в каком месте кода находится ссылка на контакты - при парсинге этой регуляркой, нужная ссылка всегда будет последним результатом.

ах вот оно что))) потестил, вроде работает) Получается вы одной регуляркой сразу 2 действия сделали)) Попробую разобраться в ней) Спасибо)))

Аркадий · 23.06.2016

Dimionix написал(а):
Вот это я и имел ввиду проверить.
Абсолютно без разницы в каком месте кода находится ссылка на контакты - при парсинге этой регуляркой, нужная ссылка всегда будет последним результатом.

А можно вашу регулярку еще немного улучшить, чтобы она справлялась и с таким вариантом? (пробовал свои варианты, но безрезультатно)

</li><li class="normal">
<a href="warranty/">
Гарантия
</a>

</li><li class="normal">
<a href="contact-us/">
>
Контакты
</a>

</li><li class="normal">
<a href="fotogalereya/">
>
Фотогалерея
</a>
</li>

Dimionix · 24.06.2016

Аркадий написал(а):
А можно вашу регулярку еще немного улучшить, чтобы она справлялась и с таким вариантом? (пробовал свои варианты, но безрезультатно)

Код:

(?<=<a href ?= ?").*?(?="[\w\W]*Контакты)

Аркадий · 25.06.2016

Dimionix написал(а):
Код:

(?<=<a href ?= ?").*?(?="[\w\W]*Контакты)

Спасибо все работает)) Даже немного усовершенствовать получилось)))

amyboose · 04.07.2016

Как регуляркой убрать все скобки (и открывающие "(" и закрывающие ")") одним экшеном замены. Я сколько пробовал, никак не получается.

Dimionix · 04.07.2016

amyboose написал(а):
Как регуляркой убрать все скобки (и открывающие "(" и закрывающие ")") одним экшеном замены. Я сколько пробовал, никак не получается.

Заменить \(|\) или [\(\)]+ на пустоту

amyboose · 06.07.2016

Постоянно встречаю текст со скобками и все время из-за них вылазят ошибки в тексте при поиске одного текста среди другого. Есть ли способ как-то искать текст со скобкой среди другого выражения при помощи регулярных выражений, например "3 (n)" среди текста "12sadas23 (n) - 456sdsas3 (t)"?

Dimionix · 06.07.2016

amyboose написал(а):
Постоянно встречаю текст со скобками и все время из-за них вылазят ошибки в тексте при поиске одного текста среди другого. Есть ли способ как-то искать текст со скобкой среди другого выражения при помощи регулярных выражений, например "3 (n)" среди текста "12sadas23 (n) - 456sdsas3 (t)"?

Скобки нужно экранировать символом "\". Ну и пробелы можно.

Код:

3\ \(n\)

amyboose · 06.07.2016

Dimionix написал(а):
Скобки нужно экранировать символом "\". Ну и пробелы можно.

Код:

3\ \(n\)

А если у меня каждый раз разный текст (миллионы вариантов расположения скобок) и может быть скобка и может её не быть, в разном месте бывают скобки, то есть ли возможность использовать регулярные выражения, чтобы проверить наличие текста. А то я пользуюсь заменой скобки на пустоту, но получается в итоге не слишком удобный для меня вариант в плане дальнейший действий.

Wide · 07.07.2016

старик., выручи очередной раз!!
есть регулярка для разбивки на количество слов

Код:

^( ?[^ ]+){10}

а есть предложение которое она не разбивает

Код:

планшет acer aspire switch 10 special sw5 015 nt g58er 001

я так подозреваю что из-за цифр и одиночных символов. только адвордс это один хер считает за предложение. выручи, а?))

doc · 07.07.2016

mrXrumer написал(а):
старик., выручи очередной раз!!
есть регулярка для разбивки на количество слов

Код:

^( ?[^ ]+){10}

а есть предложение которое она не разбивает

Код:

планшет acer aspire switch 10 special sw5 015 nt g58er 001

я так подозреваю что из-за цифр и одиночных символов. только адвордс это один хер считает за предложение. выручи, а?))

\b\w+\b
или
\b[^\W\d]+\b

Wide · 07.07.2016

doc написал(а):
\b\w+\b
или
\b[^\W\d]+\b

а что делает ваша регулярка? у меня ею остается только первое слово, мне нужно первые 10

Dimionix · 07.07.2016

mrXrumer написал(а):
я так подозреваю что из-за цифр и одиночных символов.

Это не влияет. Скорее всего, где-то в строке вместо пробелов встречаются другие пробельные символы.
Попробуй так

Код:

^(\s?[^\s]+){10}

Wide · 07.07.2016

Dimionix написал(а):
Это не влияет. Скорее всего, где-то в строке вместо пробелов встречаются другие пробельные символы.
Попробуй так

Код:

^(\s?[^\s]+){10}

те же яйца, только в профиль)) что интересно при пошаговой отладке все нормально режет. походу бажится зенька))

doc · 07.07.2016

mrXrumer написал(а):
а что делает ваша регулярка? у меня ею остается только первое слово, мне нужно первые 10

я неправильно понял. думал, нужно разбить на слова

Sapfire65 · 14.07.2016

Помогите написать регулярку.
Нужно всего лишь проверить наличие в поле ввода, текста и цифр.

Wide · 30.07.2016

что-то тс давно не появляется. ну да ладно, возможно кто то из форумчан подскажет. ситуация следующая, есть предложение:
слово1 слово2 слово3 слово4 слово5.
нужна регулярка которая будет разделять предложение по три слова, т.е. должно на выходе получится так
слово1 слово2 слово3
слово2 слово3 слово4
слово3 слово4 слово5
сейчас я разбиваю по два слова двумя регулярками, в два прохода
\w+\s\w+
\s\w+\s\w+
кто дружит с регулярками? подскажите братцы

mrstorm · 08.08.2016

Всем привет. Подскажите как составить регулярку для вот такой строки:
https://fotos/уааку/вуцац/793f1ad.jpg
чтобы на выходе было только 793f1ad.jpg? Перед последним слешем (/) всегда все разное!
Галочка "Самое короткое" не позволяет сделать то что нужно!

ssXXXss · 08.08.2016

гугл помагает как взять имя файла, тип файла, путь км файлу,т зачем тему писать в разных ветках, неужели т рудно один раз в поиск забить

mrstorm · 08.08.2016

ssXXXss написал(а):
гугл помагает как взять имя файла, тип файла, путь км файлу,т зачем тему писать в разных ветках, неужели т рудно один раз в поиск забить

у меня нет никакого пути к файлу, и имени файла, файла даже нет. У меня есть только ссылка.

Bening · 08.08.2016

Доброго дня всем! Уважаемые, помогите с регуляркой. Есть HTML код:
Это было частью сделки по ядерной программе", — цитирует представителя иранского правительства <noindex><a rel="nofollow" target="_blank" href="/go.php?link=http%3A%2F%2Fria.ru">РИА Новости</a></noindex>.

Из него нужно удалить теги <noindex></noindex> и ссылку на РИА Новости. Вместо РИА Новости в коде может быть и другой текст, ТАСС, Новости Яндекс и т.п. Нужно чтобы получилось вот так:
Это было частью сделки по ядерной программе", — цитирует представителя иранского правительства РИА Новости.

И еще, посоветуйте, пожалуйста хороший мануал или книгу по регулярным выражениям. Заранее премного благодарен.

Severip · 08.08.2016

<noindex>.*(РИА\ Новости|Новости\ Яндекс|ТАСС)[\w\W]*?</noindex>
А вообще надо контекст смотреть.

Bening · 08.08.2016

Severip написал(а):
<noindex>.*(РИА\ Новости|Новости\ Яндекс|ТАСС)[\w\W]*?</noindex>
А вообще надо контекст смотреть.

Спасибо, но это не совсем то. Попробовал предложенный вами вариант. Из строки:
Это было частью сделки по ядерной программе", — цитирует представителя иранского правительства <noindex><a rel="nofollow" target="_blank" href="/go.php?link=http%3A%2F%2Fria.ru">РИА Новости</a></noindex>.
Парсится только: <noindex><a rel="nofollow" target="_blank" href="/go.php?link=http%3A%2F%2Fria.ru">РИА Новости</a></noindex>
Мне же нужно чтобы спарсило весь текст с html тегами, убрав только ноиндекс и ссылку на риа новости. Т.е. чтобы в результате парсинга выдало такое:
Это было частью сделки по ядерной программе", — цитирует представителя иранского правительства РИА Новости.

Если конечно такое возможно? Уже третий день голову ломаю. Пока получилось сделать только так. Ищу в конечном тексте href="/go.php?link=http, если есть, то парсю текст чтобы получить <noindex><a rel="nofollow" target="_blank" href="/go.php?link=http%3A%2F%2Fria.ru"> и закрывающие теги </a></noindex>, а потом только удалю через замену из текста эти строки. Но это слишком муторно. Может есть метод как это проделать при парсинге, избегая лишних кубиков?

Бесплатно напишу регулярное выражение. Часть 2.

Moderator

Client

Moderator

Client

Moderator

Client

Вложения

Moderator

Client

Client

Moderator

Client

Client

Moderator

Client

Moderator

Client

Client

Client

Client

Moderator

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)