Бесплатно напишу регулярное выражение. Часть 2.

ZennoScript · 25.02.2012

В зеннопостере есть такая отличная штука - называется конструктор регулярных выражений. Вы просто ставите что должно идти перед текстом, что после, чем текст начинается и чем заканчивается, а программа сама вам сформирует нужное регулярное выражение!
Чтобы взять только сайт из данной строки, регулярка будет такой:
(?<=\<a href\=\"http:\/\/).*?(?=\/)

izubr · 06.03.2012

Прошу помочь. цель - после парсинга получить тексты лучшего качества:

Задача: из кучи напарсенного текста вырезать только предложения, похожие на предложения

то есть скажем задать, что в нужных предложениях: С Большой буквы, имеется от 4 до 10 слов и в конце .!?

А то бывают такие кучи мусора парсятся, ужас

выручайте. поиск в гугле не помог

Update: нашел вариант
[A-Z].*?[.!?](?=\s|$)
но он не ограничивает длинну.

ujanin · 07.03.2012

Помогите составить регулярку. Как взять определеннок кол-во символов из строки. Через "подстрока" не получается, если в строке меньше символов ничего не берется.
Т.е. мне надо взять из любой длинны строки не больше определенного кол-ва символов с учетом пробелов. Пример: есть строки из 10 и 100 символов, мне необходимо не более 50 символов. Итог 1я строка возмется полностью, 2я только первые 50.

ZennoScript · 07.03.2012

ujanin написал(а):
Помогите составить регулярку. Как взять определеннок кол-во символов из строки. Через "подстрока" не получается, если в строке меньше символов ничего не берется.
Т.е. мне надо взять из любой длинны строки не больше определенного кол-ва символов с учетом пробелов. Пример: есть строки из 10 и 100 символов, мне необходимо не более 50 символов. Итог 1я строка возмется полностью, 2я только первые 50.

Регулярное выражение .{1,50} - первая цифра минимально необходимая длина, вторая - максимальная.

prof · 23.03.2012

недавно приобрел zp, пока не особо силен в регулярных выражениях, прошу помощи

мне необходимо собрать соксы из текста. соксы представлены по разному:

www.boice.com:80
ppp-67-186-234-110.mi.tru.net:8080
123.45.678.90:8080
итп

сейчас юзаю такое выражение
[a-zA-Z0-9\.\-]+\.[a-zA-Z0-9]{2,4}\:\d{2,5}

но собирается много мусора типа:
lw.boy.oeu:7784
32.043:9092
.pdh.keq:6178

в итоге, мусора получается около 30%

есть ли возможность (подправить мое выражение/написать новое) чтоб сократить количество ненужных записей?

Rise · 15.04.2012

Только сейчас заметил эту тему. Большая просьба помочь с этим.

zloy666 · 23.04.2012

Код:
Hello Constantine Bozeman, To verify your email address, please click the following link: <a href=http://blogbugs.org/verify.php?u=58557&c=QS5wDJPj rel=nofollow target='_blank'>http://blogbugs.org/verify.php?u=58557&c=QS5wDJPj</a> How to earn money with your blogs? List of some affiliate programs for blogs' traffic: <a href=http://blogbugs.org/programs.php rel=nofollow target='_blank'>http://blogbugs.org/programs.php</a> ---- Thank You <a href=http://blogbugs.org/ rel=nofollow target='_blank'>http://blogbugs.org/</a> 

 
Спарсить: http://blogbugs.org/verify.php?u=58557&c=QS5wDJPj

Регулярка: (http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?

ZennoScript · 23.04.2012

(?<=\<a href\=)http:\/\/blogbugs\.org\/verify\.php\?u.*?(?= rel)

Valiksim · 29.04.2012

Регулярка по удалению лишних символов

Хочу попросить помочь создать регулярку. Задача вроде бы простая. Есть строка, надо сохранить её, предварительно удалив лишние символы. Строка должна стать названием файла. Вот, для примера, условная строка, в которой расставлены произвольно символы, которые требуется удалить

Код:

Слово1@ слово2.cлово3 слово4&слово5 слово6 слово7? слово8: слово9; слово10 "слово11слово" слово12 (слово13) Человек [Люди] ещё люди {разные человек}

Составил регулярку, которая всё вычищает, НО, ставить все слова столбиком, а надо, чтобы слова остались строкой. Регулярка вот эта

Код:

[^@ ^& ^? ^: ^; ^" ^% ^/ ^\\ ^\( ^\) ^\[ ^\] ^\{ ^\} ^\. ]*

Результат получается вот такой

Код:

----------------------------------- совпадение № 0 -----------------------------------
Слово1
----------------------------------- совпадение № 1 -----------------------------------

----------------------------------- совпадение № 2 -----------------------------------

----------------------------------- совпадение № 3 -----------------------------------
слово2
----------------------------------- совпадение № 4 -----------------------------------

----------------------------------- совпадение № 5 -----------------------------------
cлово3
----------------------------------- совпадение № 6 -----------------------------------

----------------------------------- совпадение № 7 -----------------------------------
слово4
----------------------------------- совпадение № 8 -----------------------------------

Мало того, что в столбик, так ещё и пустые строки появляются
Если регулярку изменить на такую вот:

Код:

(?<=(\r|\n| |^))[^@ ^& ^? ^: ^; ^" ^% ^/ ^\\ ^\( ^\) ^\[ ^\] ^\{ ^\} ^\. ]*

Тогда пустые строки исчезают, но зато другая беда появляется. В слова где символ идёт слитно с словами (слово2.cлово3 - слово4&слово5), слова удаляются вместе с символами.

Код:

----------------------------------- совпадение № 0 -----------------------------------
Слово1
----------------------------------- совпадение № 1 -----------------------------------
слово2
----------------------------------- совпадение № 2 -----------------------------------
слово4
----------------------------------- совпадение № 3 -----------------------------------
слово6
----------------------------------- совпадение № 4 -----------------------------------
слово7
----------------------------------- совпадение № 5 -----------------------------------

Как решить задачу?

lucian · 30.04.2012

Как вариант в несколько действий можно решить

Valiksim · 30.04.2012

Не очень привлекательный вариант. Неужели такое сложное задание?

Я нашёл более привлекательную регулярку, ею можно в два прохода пройтись

Код:

\w\W*[a-zA-Zа-яА-Я0-9-,\. ]*

ею получаем всё, в столбик, без пустых строк, далее, выстраиваем всё в одну строку.

Но, тоже как-то хоцца найти решение в одну проходку...

safer · 10.05.2012

Помогите составить регулярку. Нужно, чтобы парсились урлы, где в корневом каталоге есть две точки, т.е.:
http://servers.real-gaming.net/
http://fable.u8o.info/

ZennoScript · 11.05.2012

safer написал(а):
Помогите составить регулярку. Нужно, чтобы парсились урлы, где в корневом каталоге есть две точки, т.е.:
http://servers.real-gaming.net/
http://fable.u8o.info/

Вот как-то так можно попробовать:
(http|https):\/\/.*\..*\..*

Valiksim · 11.05.2012

Решилось вот так - в другой теме показал

rostonix · 20.05.2012

UPD

Уже не надо)

ujanin · 09.07.2012

Гуру регулярок помогите составить регулярки для отчистки текста от мусора. Текст такого вида http://disk.tom.ru/z7r616a# необходимо, что бы остались только правильные предложения.

Dimionix · 31.07.2012

Нужна помощь.

Из этой строки:

Код:

<a href="http://zennolab.com" target="_blank">ZennoPoster 4</a>

спарсить и привести результат к такому формату:

Код:

http://zennolab.com#ZennoPoster 4

rostonix · 31.07.2012

В два шага:

http://zennolab.com получаем такой регуляркой: (?<=href=").*?(?=")
ZennoPoster 4 получаем такой: (?<=_blank">).*?(?=</a>)

SnowWind · 27.10.2012

есть вот такой тест

Код:

 Мои задания 

         
       
       
       1 мин. 
        CreatorEP 
       
       0,02

никак не могу выбрать из этого всё что стоит после 1 мин. (тут м.б и 3 ч. и т.д) и до 0,02 (тут м.б и 0,17 и т.д)

вот что пытался написать сам при помощи конструктора рег. выр.

Код:

(?<=Мои\ задания[\s]+)[\w\W](?=[0-9],[0-9]+)

rostonix · 27.10.2012

Код:

(?<=\.)[\w\W]*?(?=\d)

Чтобы избавится от пустоты в результате. его нужно потом пропустить через операции с текстом - trim

SnowWind · 27.10.2012

rostonix написал(а):
Чтобы избавится от пустоты в результате. его нужно потом пропустить через операции с текстом - trim

trim убирает пробелы только в начале, или конце файла, а тут в середине

rostonix · 27.10.2012

Вы попробовали что я написал или просто так отпостили?

SnowWind · 27.10.2012

нет не пробовал, пока я ждал ответ, я переделал всю логику, а про трим я написал, т.к знаю что не удалит пробелы из середины
а то, что Вы написали, мне понятно, но всё же словосочетание - "Мои задания" должно присутствовать в выражении

этот текст я получил забрав его из outertext и получая много пробелов, но теперь проще стало забирать из outerhtml

SnowWind · 28.10.2012

Имею файл вот с таким содержимым, забираю из него весь текст

Код:

Кухни на заказ в Ростове
tw:а самое что интересное, это сноуборд!
Аккаунты для работы:
Slipix
New_StartUP
Stilus
Rexus

и мне нужно забрать из него ВСЁ что стоит после словосочетания "Аккаунты для работы:"
написал вот такое выражение -

PHP:

(?s)(?<=Аккаунты\ для\ работы:.*)[a-zA-Z_]*

но работает это не так как нужно и в результат получаю

PHP:

Slipix


New_StartUP


Stilus


Rexus

Как избавиться от пробелов?! :huh:
Точнее как избавиться от них при парсинге, как переписать выражение, через условие я знаю как избавиться

rostonix · 28.10.2012

Ваща регулярка у меня не работает.

ZennoScript · 29.10.2012

(?<=Аккаунты\ для\ работы:.*)[\w\W]*

Так попробуйте

Evgeny · 28.12.2012

Помогите пожалуйста сделать самую легку регулярку

вот пример:

domen|login|password|ftp|papka1|papka2|papka3

Нужно поотдельности вывести все данные
domen-
login-
password-
ftp-
papka1-
papka2-
papka3-

Все названия привел для примера, просто не получается сделать в конструкторе
потомучто домен может быть и ru и com, логины и пароли могут быть разные, там где написано papka1,2,3 - могут быть любые слова
а как вот сделать регулярку, чтобы по счету делала, например до первой| - это одно
после первой | -это второе
между первой и второй(или после первой|) | - это третье
после четвертой | - это четвертое и т.д.

Можно ли так сделать?

ZennoScript · 28.12.2012

Это под какую версию программы?
Если под 3, то проще взять эту строку и потом разделить по | и уже подстроки записывать как необходимо.
Если под 4, то можно вставить эту строку в список, в котором указать разделение строки | и соответственно уже брать нужную строку...
Как то так.

Evgeny · 28.12.2012

Под 4 ку все.
И ведь только что ведь дошло.. Можно же и в таблицу все засунуть

ZennoScript · 28.12.2012

Да, можно и в таблицу, как удобно будет.

Бесплатно напишу регулярное выражение. Часть 2.

Moderator

Client

Client

Moderator

Client

Client

Client

Moderator

Client

Client

Вложения

Client

Client

Moderator

Client

Мистер

Client

Moderator

Мистер

Client

Мистер

Client

Мистер

Client

Client

Мистер

Вложения

Moderator

Client

Moderator

Client

Moderator

Кто просматривает тему: (Всего: 11, Пользователи: 0, Гости: 11)