помогите с регуляркой

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28
Нужна регулярка, которая разберет текст(инглиш) на отдельные предложения т.е. каждое предложение с новой строки... нашел одну [А-ЯA-Z].{15,}?(\.|\!|\?)(?=\ |\r|\n|$) в теме: http://zennolab.com/discussion/threads/reguljarnye-vyrazhenija-na-vse-sluchai-zhizni.20829/ , но она не работает так как нужно( из текста в 2к символов выбирает пару - тройку предложений)

заранее спасибо
 

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 454
Благодарностей
5 913
Баллы
113
Лучше не искать регулярки, а самому научится составлять.
Код:
[A-Z].*?\.
 

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
попробуй так [A-Z].*?\w\.
 

dudits

Client
Регистрация
17.08.2013
Сообщения
38
Благодарностей
2
Баллы
8
Проще дам тебе прогу, меня она не раз выручала, он может не только разбивать на предложения, но и еще чистить текст от мусора, лишних предложений и т.д. , и можно задавать свои фильтры собственные.Чтобы она сделала то , что ты просишь, просто сними все галочки как отмечено на скрине и поставь галку " с новой строки" . Файл с текстом просто перенеси в прогу перетаскиванием.

http://rghost.ru/private/8lZkJ95hT/9725c61a22d2cfa70382f24f24dd365b ( можешь проверить на вирустотале и т.д., но файлу уже больше года , сам пользовался)

скрин : http://prntscr.com/8u36jm
 

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28
Проще дам тебе прогу, меня она не раз выручала, он может не только разбивать на предложения, но и еще чистить текст от мусора, лишних предложений и т.д. , и можно задавать свои фильтры собственные.Чтобы она сделала то , что ты просишь, просто сними все галочки как отмечено на скрине и поставь галку " с новой строки" . Файл с текстом просто перенеси в прогу перетаскиванием.

http://rghost.ru/private/8lZkJ95hT/9725c61a22d2cfa70382f24f24dd365b ( можешь проверить на вирустотале и т.д., но файлу уже больше года , сам пользовался)

скрин : http://prntscr.com/8u36jm
этой прогой я пользуюсь уже несколько лет ... штука хорошая, но как ее вкрячить в шаблон зенки??
 

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 454
Благодарностей
5 913
Баллы
113
Текст тоже надо сразу приводить. Регулярка всегда составляется под конкретный текст.
Попробуйте так:
Код:
[A-Z].*?[\.\!\?](?=\s)
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
Текст тоже надо сразу приводить. Регулярка всегда составляется под конкретный текст.
Попробуйте так:
Код:
[A-Z].*?[\.\!\?](?=\s)
если будет так Teachers T.V. content то не получается тоже, знаки препинания вырезает, попробуй ещё одну ну надо домудрить что бы последнее предложение брало
Код:
[A-Z].*?[\.\!\?](?=\s[A-Z])
покурил, во что в голову пришло, попробуй
Код:
[A-Z].*?\w[\.\!\?](?=\s[A-Z])
 
Последнее редактирование:

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28
Текст тоже надо сразу приводить. Регулярка всегда составляется под конкретный текст.
Попробуйте так:
Код:
[A-Z].*?[\.\!\?](?=\s)
фишка в том, что тексты всегда разные
 

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28
если будет так Teachers T.V. content то не получается тоже, знаки препинания вырезает, попробуй ещё одну ну надо домудрить что бы последнее предложение брало
Код:
[A-Z].*?[\.\!\?](?=\s[A-Z])
покурил, во что в голову пришло, попробуй
Код:
[A-Z].*?\w[\.\!\?](?=\s[A-Z])
не работает ...((((((((((((
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
  1. [A-Z].*?\w[\.\!\?](?=\s[A-Z]) вот я ведь дал
 

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
текст хоть кинь, он у тебя наверно с переносами
 

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28
текст хоть кинь, он у тебя наверно с переносами
упс..... вынос мозга..((( приношу всем свои извинения ....
итак: делаю ГЕТ запрос к сайту imdb: http://www.imdb.com/title/tt4046784/reviews
открываю результат запроса в обычном блокноте .. и там в коде все шоколадно ... а вот если открыть в notepad++ то х.з. какие то непонятные переносы строк нарисовываются ... отсюда и все ошибки.... еще раз ... мои извинения
 

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28
развиваю тему: после очистки текст выглядит так:
Код:
It is as if the concern of the producers and story writers were so
focused on the movies DBOX worthiness that they forgot to include the
story line. I went to this movie with two friends that have not read the books, as
I have. Both walked out of the movie confused...Where did the virus
come from? was the first question that they asked.  The beginning of the movie should have included the reason why
W.I.C.K.E.D. created the Maze, explained what the Flare is, and
introduced both groups of Maze runners. Instead, the audience is lost
in visual effects without knowing why the action is happening. To add
insult to injury, the writers turn the virus infected people into
inhuman, biologically altered zombies. The immune are now a commodity
for a short term fix to the virus problem. So much has been lost by
these adaptations that the result is a vague and confusing zombie
flick. I almost walked out. This was a wonderful book that should have been an incredible movie.
что бы разбить его на отдельные предложения предложенными выше регулярками, нужно сначала выпрямить(в одну строку) текст, и вот тут у меня начинается х.з. что... пытаюсь заменой: ентер на пробел неполучается...(((((((
может кто подскажет что я делаю не так?
пы. сы можно конечно сохранить в файл, и оттуда циклом брать по строке и сохранять в другой файл с пробелом на конце и без переноса строки... но уж оч. коряво получается((
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 451
Благодарностей
1 885
Баллы
113

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
Всё сразу и выяснилось
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
...
C#:
string res = project.Variables["response"].Value.Replace("\r\n", " ");
var parse = res;
var regex = new Regex(@"[A-Z].*?\w[\.\!\?](?=\s[A-Z])");
var list = project.Lists["OutputList"];
regex.Matches(parse).Cast<Match>().ToList().ForEach(m=>list.Add(m.Value));
 
  • Спасибо
Реакции: blud

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28
...
C#:
string res = project.Variables["response"].Value.Replace("\r\n", " ");
var parse = res;
var regex = new Regex(@"[A-Z].*?\w[\.\!\?](?=\s[A-Z])");
var list = project.Lists["OutputList"];
regex.Matches(parse).Cast<Match>().ToList().ForEach(m=>list.Add(m.Value));
и вам большое спасибо
 
Регистрация
09.11.2015
Сообщения
264
Благодарностей
10
Баллы
18
Здравствуйте. Не работает регулярка парсинга текста [0-9]* Пытаюсь забрать текст в экшене обработка текста, возвращает пустое значение. Скажите что не так делаю?
 

Bot_Sculptor

Client
Регистрация
11.06.2012
Сообщения
787
Благодарностей
239
Баллы
43
Регистрация
09.11.2015
Сообщения
264
Благодарностей
10
Баллы
18
Спасибо большущее за помощь. Причем в конструкторе регулярных выражений все работает, а в экшене нет
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 451
Благодарностей
1 885
Баллы
113
В принципе, Ваше регулярное выражение тоже верно, ведь оно работало в конструкторе, значит должно было работать и в экшене. Просто видимо вместе с регуляркой в экшен у Вас прокрался какой то символ, например пробел, который мешал работе.
 
Регистрация
09.11.2015
Сообщения
264
Благодарностей
10
Баллы
18
Нет пробелов и ли лишних знаков. Проверял не один раз, не работает. Возможно ли то, что в принципе софт работает не корректно?
Просто вот ещё один момент, добавляю в конструктор действий окно комментариев последнего поста в группе в контакте, добавляю экшин в проект, перезагружаю страницы, экшн не срабатывает, в окно текст не прописывается. Перепробовал уже все атрибуты. Скажите возможно ли то, что некоторые задачи не решаемы с помощью Zenno?
 

blud

Client
Регистрация
19.04.2011
Сообщения
657
Благодарностей
77
Баллы
28
Нет пробелов и ли лишних знаков. Проверял не один раз, не работает. Возможно ли то, что в принципе софт работает не корректно?
Просто вот ещё один момент, добавляю в конструктор действий окно комментариев последнего поста в группе в контакте, добавляю экшин в проект, перезагружаю страницы, экшн не срабатывает, в окно текст не прописывается. Перепробовал уже все атрибуты. Скажите возможно ли то, что некоторые задачи не решаемы с помощью Zenno?
а вы обращаете внимание на значения атрибутов?? зачастую они меняются при перезагрузке
 

bad robot

Client
Регистрация
07.03.2011
Сообщения
203
Благодарностей
51
Баллы
28
...
C#:
string res = project.Variables["response"].Value.Replace("\r\n", " ");
var parse = res;
var regex = new Regex(@"[A-Z].*?\w[\.\!\?](?=\s[A-Z])");
var list = project.Lists["OutputList"];
regex.Matches(parse).Cast<Match>().ToList().ForEach(m=>list.Add(m.Value));
можно то же самое, но чтобы результат клался не в список, а в переменную?
 

Кто просматривает тему: (Всего: 4, Пользователи: 0, Гости: 4)