Регулярные выражения на все случаи жизни

rostonix · 01.10.2015

После парсинга еще раз пройтись по тексту экшеном операции с текстом - замена
и заменить все теги <*.?> на пустоту

Vega$ · 02.10.2015

rostonix сказал(а):
После парсинга еще раз пройтись по тексту экшеном операции с текстом - замена
и заменить все теги <*.?> на пустоту

Но тогда мне нужно строку из списка положить в переменную, убрать тег и записать в новый список. А можно как то без лишних экшенов, а то скорость мне кажется упадет в разы. Можно ли со списком уже готовым как то операцию провести, или в момент взятия DOM?

antiwindows · 02.10.2015

Извиняюсь, что-то я не то сделал. Админы, если не трудно сотрите предидущий пост.

А теперь мой вопрос

С помощью регулярных выражений надо вытащить из исходного кода (в h3-контейнере):
<h3 class="r"><a class="pstl" data-what="1" href="http://www.google.de/aclk?sa=l&ai=C-9oQygENVpujKqGXzAOfn... jsaction="spop.c">10 x Leitz Stehsammler 24230095 DIN A476mm Hartpappe RC schwarz</a></h3>

ссылку на продукт, которая стоит после adurl:
http://bueropartner24.de/Ordnen-Registrieren/Schreibtischorg...

и название продукта, которое стоит после jsaction="spop.c">:
10 x Leitz Stehsammler 24230095 DIN A476mm Hartpappe RC schwarz

Эта регулярка вроде должна работать, но не тут-то было:
<h3 class="r">\s*<a class="pstl".+?&adurl=(.+?)(?:&|")[^>]*>(.+?)<\/a>

Это последняя регулярка для того что бы закончить проект! Остальное уже всё сделано! ПОМОГИТЕЕЕЕ кто может!!!

ZennoScript · 02.10.2015

antiwindows сказал(а):
Извиняюсь, что-то я не то сделал. Админы, если не трудно сотрите предидущий пост.

А теперь мой вопрос

С помощью регулярных выражений надо вытащить из исходного кода (в h3-контейнере):
<h3 class="r"><a class="pstl" data-what="1" href="http://www.google.de/aclk?sa=l&ai=C-9oQygENVpujKqGXzAOfn... jsaction="spop.c">10 x Leitz Stehsammler 24230095 DIN A476mm Hartpappe RC schwarz</a></h3>

ссылку на продукт, которая стоит после adurl:
http://bueropartner24.de/Ordnen-Registrieren/Schreibtischorg...

и название продукта, которое стоит после jsaction="spop.c">:
10 x Leitz Stehsammler 24230095 DIN A476mm Hartpappe RC schwarz

Эта регулярка вроде должна работать, но не тут-то было:
<h3 class="r">\s*<a class="pstl".+?&adurl=(.+?)(?:&|")[^>]*>(.+?)<\/a>

Это последняя регулярка для того что бы закончить проект! Остальное уже всё сделано! ПОМОГИТЕЕЕЕ кто может!!!

Это нужно делать в 2 шага, собирая отдельно каждые данные в свою переменную.

antiwindows · 02.10.2015

можно и в один шаг (реализуется в cmd):

var googleTitelLink = new RegExp('<h3 class="r">\s*<a class="pstl".+?&adurl=(.+?)(?:&|")[^>]*>(.+?)<\/a>','g');
var match = googleLinkTitel.exec(googleSite);

writeln('Google Titel: ' + match[2]);
writeln('Google Link: http://www.google.de/' + match[1]);

antiwindows · 02.10.2015

точнее можно было бы, если бы регулярка работала )

Belwin · 23.10.2015

Подскажите, пожалуйста, как регуляркой взять из строки только цифры, без букв и прочих сиволов? Пример:

Код:

2<span class="num_delim"> </span>041<span class="num_delim"> </span>219 подписч

То есть, чтобы на выходе получилось 2041219

ssXXXss · 23.10.2015

Belwin · 23.10.2015

ssXXXss сказал(а):
\d+

спасибо, но получилось взять только первую цифру 2, остальные 041219 почему-то не спарсились.

ssXXXss · 23.10.2015

не |d+ а \d+ в список => объеденить элементы, разделитель свой, в переменную

Sergodjan · 23.10.2015

ssXXXss сказал(а):
не |d+ а \d+

это шрифт курсивный в цитатном блоке наклоняет слеш, что он начинает на | быть похожим..

ZennoScript · 23.10.2015

Belwin сказал(а):
Подскажите, пожалуйста, как регуляркой взять из строки только цифры, без букв и прочих сиволов? Пример:

Код:

2<span class="num_delim"> </span>041<span class="num_delim"> </span>219 подписч

То есть, чтобы на выходе получилось 2041219

Тут проще не взять все цифры, а удалить всё, что не является цифрой.
Обработка текста - Замена - Что менять \D - На что менять - оставляете пустым - Тип замены regex. В результатах будут все цифри из строки.

Belwin · 23.10.2015

ssXXXss сказал(а):
не |d+ а \d+ в список => объеденить элементы, разделитель свой, в переменную

Я взял именно \d , это форум так в цитате отобразил черту вертикально.

Belwin · 25.10.2015

Подскажите, пожалуйста как должна выглядеть регулярка, которая бы из переменной состоящей из одной строки, брала бы 11 символов находящихся перед последним знаком равно.
Пример:
из этой строки s39d90efh35r3rijv038535=skh349 нужно взять 3rijv038535
При этом знак = в строке может встречаться два раза, а необходимо брать текст перед самым последним. Как в этом примере:
b81husd4-394=s408bdj7mk043sd094=sd0fg нужно взять 7mk043sd094
Изначально неизвестно сколько будет равно, один или два.

ssXXXss · 25.10.2015

Belwin сказал(а):
Подскажите, пожалуйста как должна выглядеть регулярка, которая бы из переменной состоящей из одной строки, брала бы 11 символов находящихся перед последним знаком равно.
Пример:
из этой строки s39d90efh35r3rijv038535=skh349 нужно взять 3rijv038535
При этом знак = в строке может встречаться два раза, а необходимо брать текст перед самым последним. Как в этом примере:
b81husd4-394=s408bdj7mk043sd094=sd0fg нужно взять 7mk043sd094
Изначально неизвестно сколько будет равно, один или два.

если равно всё время меняется в колличестве но значение это последнее, возьми сначала через регулярку .*?(?==) раздели и забери последнее значение, ну а потом с полученной строки возьми 11цифр с конца

AvitoBot · 30.10.2015

Помогите
нужно удалить все кусочки кода где встречаются слова или символы не входящие в этот список

а-я А-Я a-z A-Z 0-9 !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

вот пример:
https://pp.vk.me/c629408/v629408176/2e276/nS2dJduVHKQ.jpg
нужно чтобы получилось так:
https://pp.vk.me/c622927/v622927194/332f2/lBJOtZsP3P8.jpg

ZennoScript · 30.10.2015

AvitoBot сказал(а):
Помогите
нужно удалить все кусочки кода где встречаются слова или символы не входящие в этот список

а-я А-Я a-z A-Z 0-9 !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

вот пример:
https://pp.vk.me/c629408/v629408176/2e276/nS2dJduVHKQ.jpg
нужно чтобы получилось так:
https://pp.vk.me/c622927/v622927194/332f2/lBJOtZsP3P8.jpg

Код:

[^а-яА-ЯёЁa-zA-Z0-9!"\#\$%&'\(\)\*\+,-\./:;<=>\?@\[\\]\^_`\{\|}~]

AvitoBot · 30.10.2015

https://pp.vk.me/c624831/v624831411/4d089/8Q2xuZqjlrM.jpg
он испортил ссылку
C:\Users\123\Desktop\1.6.8\avitobot.exe
https://pp.vk.me/c624831/v624831411/4d07f/QDG945skrhY.jpg
как сделать так чтобы эти данные не испортились?

ZennoScript · 30.10.2015

AvitoBot сказал(а):
https://pp.vk.me/c624831/v624831411/4d089/8Q2xuZqjlrM.jpg
он испортил ссылку
C:\Users\123\Desktop\1.6.8\avitobot.exe
https://pp.vk.me/c624831/v624831411/4d07f/QDG945skrhY.jpg
как сделать так чтобы эти данные не испортились?

Попробовал сейчас - ничего эта регулярка не находит в Вашем пути. Как он её испортил?

AvitoBot · 30.10.2015

https://pp.vk.me/c624831/v624831411/4d07f/QDG945skrhY.jpg
вот же
я заменил
[^а-яА-ЯёЁa-zA-Z0-9!"\#\$%&'\*\+,-\./:;<=>\?@\[\\]\^_`\{\|}~]
на пробел

ZennoScript · 30.10.2015

Пробуйте в программе. Регулярки в программе и Notepade++ работают по разному.

AvitoBot · 30.10.2015

что же я делаю не правильно?

AvitoBot · 30.10.2015

скажите как использовать эту информацию
http://habrahabr.ru/sandbox/58973/

rostonix · 02.11.2015

Тоже не понимаю что и где испортилось

AvitoBot · 02.11.2015

https://pp.vk.me/c624831/v624831411/4d089/8Q2xuZqjlrM.jpg
он испортил ссылку
C:\Users\123\Desktop\1.6.8\avitobot.exe

было так C:\Users\123\Desktop\1.6.8\avitobot.exe а стало так C: Users 123 Desktop 1.6.8 avitobot.exe

нужно чтобы знак \ не удалялся

ZennoScript · 02.11.2015

Не понимаю, где у Вас происходит ошибка. Всё работает без проблем
http://joxi.ru/n2YzlD6ILZaBA6

AvitoBot · 02.11.2015

но регулярное выражение одинаковое а в редакторе
notepad++
и
ProjectMaker for ZennoPoster v5.9.3.1
работают по разному

AvitoBot · 03.11.2015

Это понятно. Но задача стоит отсортировать именно в нотепаде

Регулярные выражения на все случаи жизни

Известная личность

Client

Новичок

Moderator

Новичок

Новичок

Client

Client

Client

Client

Administrator

Moderator

Client

Client

Client

Новичок

Moderator

Новичок

Moderator

Новичок

Moderator

Новичок

Новичок

Известная личность

Новичок

Moderator

Новичок

Client

Новичок

Client

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)