Как создать парсер текста?

Nixens

Client
Регистрация
18.02.2018
Сообщения
288
Благодарностей
7
Баллы
18
Хочу сделать парсер, который будет парсить просто текст со страницы.
Обычный структурированный текст, без тегов и пр. Просто текст. Как сделать? У меня получаются огромные нагромождения, может есть универсальная регулярка под такие случаи?
Просто, есть статья - 15 лайфхаков для жизни. Хочу получить её текст.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113
Хочу сделать парсер, который будет парсить просто текст со страницы.
Обычный структурированный текст, без тегов и пр. Просто текст. Как сделать? У меня получаются огромные нагромождения, может есть универсальная регулярка под такие случаи?
Было что то на эту тему на форуме, попробуйте поискать.
А пока можете попробовать работу этой регулярки: (\b[A-ZА-Я](?:\w+[,;:]?\s+){3,}\w{2,}[.!?])
 
  • Спасибо
Реакции: udder и Nixens

radv

Client
Регистрация
11.05.2015
Сообщения
3 788
Благодарностей
1 952
Баллы
113
Хочу сделать парсер, который будет парсить просто текст со страницы.
Если хотите научиться парсить, посмотрите готовые бесплатные проекты и конкурсные статьи/шаблоны, там были конкретные примеры, а так же рекомендуется использовать xpath вместо регулярок.
 
  • Спасибо
Реакции: Nixens

discus

Client
Регистрация
21.09.2020
Сообщения
87
Благодарностей
44
Баллы
18
  • Спасибо
Реакции: Nixens, Alex.A и Sergodjan

udder

Client
Регистрация
28.03.2017
Сообщения
618
Благодарностей
128
Баллы
43
Было что то на эту тему на форуме, попробуйте поискать.
А пока можете попробовать работу этой регулярки: (\b[A-ZА-Я](?:\w+[,;:]?\s+){3,}\w{2,}[.!?])
попробовал эту регулярку, но в таком случае она как раз мусор из переменной оставляет, а нормальный текст удаляется.
88536
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113
попробовал эту регулярку, но в таком случае она как раз мусор из переменной оставляет, а нормальный текст удаляется.
Сейчас проверил на первом попавшемся сайте - получаю чистый текст.
Попробуйте такой штатный метод еще (тоже проверил, он полнее пропарсил текст и тоже без мусора):

88538
 
  • Спасибо
Реакции: udder

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)