Поиск и замена стоп слов в списке

fakecrisis

Client
Регистрация
01.07.2014
Сообщения
24
Благодарностей
0
Баллы
1
Подскажите пожалуйста как покороче организовать поиск и замену всех стоп слов в списке.

Есть файл со списком (назовем его Список1)
и 15 стоп слов.

Берем строку из Списка1 записываем ее в переменную. Модулем Обработка текста удаляем из строки стоп слово, вторым модулем Обработка текста удаляем из строки 2 стоп слово.. И так 15 раз. После чего записываем обработанную строку в новый список2. После чего берем вторую строку и проделываем тех же 15 операций..

Хотелось бы немного оптимизировать процесс удаления 15 стоп слов из списка.
 

S16er1um

Client
Регистрация
14.04.2016
Сообщения
826
Благодарностей
240
Баллы
43
Первое, что пришло в голову

Как вы и сказали, кладёте каждое слово из списка стоп слов в переменую и через цикл проганяете через ваше предложение (не забывайте, только после этого предложение пересохранять в списке, чтоб оно обновлялось уже без пройденого слова). А заменяете на пустоту. Все гениальное просто:-)
 

fakecrisis

Client
Регистрация
01.07.2014
Сообщения
24
Благодарностей
0
Баллы
1
у меня сейчас это и реализовано.. Хочется оптимизировать. В идеале иметь файлик со стоп словами.

 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 130
Баллы
113
Обработка текста - Замена - Regex - заменить (словоРаз|слово2|слово15) на пустоту.
И чтоб избавиться от лишних пробелов, вторым экшеном заменить (^\s+|\s+(?=\W)|\s+$) на пустоту.
 

fakecrisis

Client
Регистрация
01.07.2014
Сообщения
24
Благодарностей
0
Баллы
1
со словами работает хорошо, чистит пошустрее. Но вот такие "\u0026amp;" спец символы что то не обрабатывает. Не подскажешь как и их заменять?
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 130
Баллы
113
  • Спасибо
Реакции: fakecrisis

fakecrisis

Client
Регистрация
01.07.2014
Сообщения
24
Благодарностей
0
Баллы
1
Спасибо большое. Получилось все.
А не подскажешь еще, если заводить файл - блек лист со стоп словами. Какая логика должна быть оптимальной работы с ним?
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 130
Баллы
113
Спасибо большое. Получилось все.
А не подскажешь еще, если заводить файл - блек лист со стоп словами. Какая логика должна быть оптимальной работы с ним?
Например, так:
Операции над списком - Объединить элементы списка, выбрать список со стоп-словами, разделитель указать свой "|" (вертикальная черта, без кавычек).
При замене, вместо (словоРаз|слово2|слово15) прописать свою переменную, в которую объединяли список.
 

fakecrisis

Client
Регистрация
01.07.2014
Сообщения
24
Благодарностей
0
Баллы
1
Спасибо за подсказку, буду пробовать.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)