Парсер статей - формат txt

focus7899

Client
Регистрация
14.10.2021
Сообщения
9
Реакции
0
Баллы
1
Добрый день! Есть необходимость в парсинге статей с новостных сайтов по ссылке, требуется результат на выходе только текст в формате txt, сам файл с названием заголовка - без фото, видео и внутренних ссылок. Спасибо огроменное, если это - хоть кто-нибудь знающий прочитает!!!:bn:
 

Вложения

  • 2022-01-04_003601.png
    2022-01-04_003601.png
    502,2 KB · Просмотры: 226
В одном из конкурсов я выкладывал шаблон, где парсятся статьи с новостных сайтов для создания видео, как раз в формате txt.
Меняй только источник и XPath.
 
  • Спасибо
Реакции: focus7899
В одном из конкурсов я выкладывал шаблон, где парсятся статьи с новостных сайтов для создания видео, как раз в формате txt.
Меняй только источник и XPath.
Благодарю за Совет!
 
В одном из конкурсов я выкладывал шаблон, где парсятся статьи с новостных сайтов для создания видео, как раз в формате txt.
Меняй только источник и XPath.

Как-то сталкивался с подобной задачей, с первого набега в новостных статьях было очень много мусора (фреймы, реклама, отзывы, комментарии, лишние html/js код и другое)...
Потом увидел один вариант решения, но так и не добрался до реализации, так как сменились приоритеты.

Вопрос - в вашем решении чистый контент на выходе? ( как пример сайт рбк любой раздел https://sportrbc.ru/news/61d342549a794733f45fa7eb?ruid=UET9B2G2Kao2UxDMBCDiAg== ) . На тот момент за решение предлагали около 4млн руб. Но решение должно было быть чистым и универсальным (там работы было примерно на год командой)
 
Вопрос - в вашем решении чистый контент на выходе? ( как пример сайт рбк любой раздел https://sportrbc.ru/news/61d342549a794733f45fa7eb?ruid=UET9B2G2Kao2UxDMBCDiAg== ) . На тот момент за решение предлагали около 4млн руб. Но решение должно было быть чистым и универсальным (там работы было примерно на год командой)
Чистый текст, конечно.
Он же в дальнейшем для озвучки видео используется, по-другому нельзя.
С rbc.ru не вижу больших проблем получения информации.
 
Чистый текст, конечно.
Он же в дальнейшем для озвучки видео используется, по-другому нельзя.
С rbc.ru не вижу больших проблем получения информации.


Нюансы
"-заходит на указанный сайт, парсит заголовок и часть текста новости "
"Шаблон можно легко переделать на парсинг любого ресурса с однообразной структурой статей- новости, рецепты, анекдоты, фильмы, интернет-магазины и т.д. "


Как будет время посмотрю, спасибо за шаб.
 

Нюансы
"-заходит на указанный сайт, парсит заголовок и часть текста новости "
"Шаблон можно легко переделать на парсинг любого ресурса с однообразной структурой статей- новости, рецепты, анекдоты, фильмы, интернет-магазины и т.д. "

Как будет время посмотрю, спасибо за шаб.
Нет проблемы и полную новость спарсить.
Структура статей везде однообразна.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)