Бесплатно напишу регулярное выражение. Часть 2.

Severip

Client
Регистрация
17.10.2013
Сообщения
346
Благодарностей
98
Баллы
28
Когда я РИА парсил, то шел таким путем: 1- Сначала через regex берем всю новость по тегам в отдельную переменную, 2- потом уже из этой переменной регулярками ее разбираем на зоголовок, теги, картинку и текст, 3- и уже в заголовке, тексте и тегах просто убивается весь html и все левые символы просто через замену. Для удаления html регулярка вот: <[\w\W]*?>
 
  • Спасибо
Реакции: Bening

Bening

Client
Регистрация
25.05.2016
Сообщения
6
Благодарностей
0
Баллы
1
Когда я РИА парсил, то шел таким путем: 1- Сначала через regex берем всю новость по тегам в отдельную переменную, 2- потом уже из этой переменной регулярками ее разбираем на зоголовок, теги, картинку и текст, 3- и уже в заголовке, тексте и тегах просто убивается весь html и все левые символы просто через замену. Для удаления html регулярка вот: <[\w\W]*?>
Спасибо! Буду пробовать.
 

xuligan

Client
Регистрация
07.03.2011
Сообщения
156
Благодарностей
42
Баллы
28
есть вот такие строк, надо брать то что выделено, ну это я их выделил что бы понятней было что надо
Киевская, Киев, р-н. Галицький, Волощака
Киевская, Киев, р-н. Личаківський, Личаківська вулиця
Киевская, Киев, р-н. Лычаковский, Шафарика&nbsp; улица
Киевская, Киев, р-н. Галицький, Балабана Маєра вулиця
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
(?<=([^,\n]+,){2}\s*)[А-Я]\w+(\s+[А-Я]\w+)*
 
  • Спасибо
Реакции: xuligan

xuligan

Client
Регистрация
07.03.2011
Сообщения
156
Благодарностей
42
Баллы
28
(?<=([^,\n]+,){2}\s*)[А-Я]\w+(\s+[А-Я]\w+)*
если не затруднит, переделайте/доделайте чутка, просто попадаются и другие строки, вот такого плана,
Киевская, Киев, Дж. Ленона
Киевская, Киев, р-н. Франківський, В.Великого
 

konfuciy

Client
Регистрация
07.05.2014
Сообщения
1 402
Благодарностей
131
Баллы
63
если не затруднит, переделайте/доделайте чутка, просто попадаются и другие строки, вот такого плана,
Киевская, Киев, Дж. Ленона
Киевская, Киев, р-н. Франківський, В.Великого
такое попробуй
(?<=,)[^,&]+?(?=(улица|вулиця|\&|\n))
 

xuligan

Client
Регистрация
07.03.2011
Сообщения
156
Благодарностей
42
Баллы
28

konfuciy

Client
Регистрация
07.05.2014
Сообщения
1 402
Благодарностей
131
Баллы
63
всё как бы нармуль, только последние не ловит Киевская, Киев, р-н. Франківський, В.Великого
а так спасибо
неправда ваша, проверил, ловит все из ваших примеров, кроме как если идет последняя строка в тексте, этот момент я упустил, дополняю
(?<=,)[^,&]+?(?=(улица|вулиця|\&|\n|$))
 
  • Спасибо
Реакции: xuligan

xuligan

Client
Регистрация
07.03.2011
Сообщения
156
Благодарностей
42
Баллы
28
Спасибо, сейчас всё просто шоколадно))))))
 
  • Спасибо
Реакции: konfuciy

arthyrgrex

Client
Регистрация
12.05.2013
Сообщения
104
Благодарностей
31
Баллы
28
Ребят, подскажите пожалуйста, как удалить все после 33 символа в строке?
 

konfuciy

Client
Регистрация
07.05.2014
Сообщения
1 402
Благодарностей
131
Баллы
63

arthyrgrex

Client
Регистрация
12.05.2013
Сообщения
104
Благодарностей
31
Баллы
28

silent

Client
Регистрация
05.04.2014
Сообщения
237
Благодарностей
85
Баллы
28
(?<=.{33})\w+
 

konfuciy

Client
Регистрация
07.05.2014
Сообщения
1 402
Благодарностей
131
Баллы
63
это регулярка удаляет все символы до 33, а мне нужно после 33 =)
чет все до меня не дойдет, как это сделать.
дык пользуешь Обработка текста/Регекс и получаешь искомое - строку за вычетом всего после 33го символа. берешь в ту же переменную
 

konfuciy

Client
Регистрация
07.05.2014
Сообщения
1 402
Благодарностей
131
Баллы
63

arthyrgrex

Client
Регистрация
12.05.2013
Сообщения
104
Благодарностей
31
Баллы
28
В нотепад++ работает следующая регулярка:
(?<=^.{33}).+

Спасибо doc
 

Nord

Client
Регистрация
22.03.2012
Сообщения
2 406
Благодарностей
1 473
Баллы
113
а как найти в тексте кей который в кавычках и состоит из 32 символов(цифры и маленькие латинские)?

Спасибо вики)
(?<=")\w{32}(?=")
 
Последнее редактирование:

silent

Client
Регистрация
05.04.2014
Сообщения
237
Благодарностей
85
Баллы
28
  • Спасибо
Реакции: Nord

Nord

Client
Регистрация
22.03.2012
Сообщения
2 406
Благодарностей
1 473
Баллы
113

silent

Client
Регистрация
05.04.2014
Сообщения
237
Благодарностей
85
Баллы
28
  • Спасибо
Реакции: Nord

Sanekk

Client
Регистрация
24.06.2016
Сообщения
999
Благодарностей
390
Баллы
63
Хлопцы помогите вытащить этот номер:
{\"hash\":\"f990f9a75fe190bd35\",\"sureBoxText\":false,\"strongCode\":0,\"joinParams\":false,
конструктор рег.выражений не помогает,там получается такая регулярка (?<=hash\\":\\").*?(?=\\) но в с# коде лезут ошибки,требует вставить скобки или ;
Наверное нужно что-то еще экранировать,но не знаю как,пробовал ставить @ перед регуляркой,но тоже не спасает.
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
Хлопцы помогите вытащить этот номер:
{\"hash\":\"f990f9a75fe190bd35\",\"sureBoxText\":false,\"strongCode\":0,\"joinParams\":false,
конструктор рег.выражений не помогает,там получается такая регулярка (?<=hash\\":\\").*?(?=\\) но в с# коде лезут ошибки,требует вставить скобки или ;
Наверное нужно что-то еще экранировать,но не знаю как,пробовал ставить @ перед регуляркой,но тоже не спасает.
если ставишь @ то двойные кавычки нужно даблить
@"(?<=hash\\"":\\"").*?(?=\\)"
 
  • Спасибо
Реакции: Sanekk

Nord

Client
Регистрация
22.03.2012
Сообщения
2 406
Благодарностей
1 473
Баллы
113
Есть урл на картинку. Нужно спарсить расширение файла, тоесть от последней точки до конца строки. Подскажите? Честное пионерское, сяду за изучение регулярок =)
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113

silent

Client
Регистрация
05.04.2014
Сообщения
237
Благодарностей
85
Баллы
28
уже ответили
либо так .*\.(.*)$
 
  • Спасибо
Реакции: Nord

sidor800

Client
Регистрация
16.04.2013
Сообщения
123
Благодарностей
41
Баллы
28
Подскажите как удалить все после 20 слов в много строчном тексте
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113
  • Спасибо
Реакции: sidor800

sidor800

Client
Регистрация
16.04.2013
Сообщения
123
Благодарностей
41
Баллы
28
Подскажите как взять 3 последних слова
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113
  • Спасибо
Реакции: sidor800

sidor800

Client
Регистрация
16.04.2013
Сообщения
123
Благодарностей
41
Баллы
28
Подскажите как одним регулярным выражение удалить все теги, но оставить определенные p br img
есть выражение [^\s\d\w-":] удаляет все спецсимволы кроме -": надо что то наподобие но для тегов
 

Кто просматривает тему: (Всего: 6, Пользователи: 0, Гости: 6)