Написать сниппет универсального парсера статей

  • Автор темы Автор темы toxass
  • Дата начала Дата начала

toxass

Client
Регистрация
18.03.2010
Сообщения
280
Реакции
12
Баллы
18
Нужно многопоточно копировать новости, статьи и другой контент (где текста больше чем 2 абзаца).

Важно, чтобы бралась верстка статьи (с картинками, фреймами, видео), но без верстки самого сайта.

Сайты и вёрстки абсолютно разные.

Сниппет должен работать на GET запросах и выдавать адекватную нагрузку при парсинге минимум в 30 потоков.

Кто и за сколько готов написать такое?
 
В данном случае УНИВЕРСАЛЬНО означает сбор данных с ошибками.
Где-то лишнее спарсит, где-то наоборот недопарсит в статье.
Не представляю как можно универсально без ошибок отделить содержимое статьи от остальной части сайта.
Если не универсально, и с последующим допилом, то можно реализовать.
 
Пока вижу такую логику:

Находим блок, где больше всего текста.

Парсим от начала до конца этого текста, где "якори" начало и конец текста + закраивающие HTML теги.

Чтобы избежать мусорного парсинга, ставим ограничение, чтобы в статье было минимум 500 символов, например.
 
Полагаю, что только вариант с последующим допилом, как предложил @VerBin.
Если только бюджет ТС не полтора миллиона евро.
https://cordis.europa.eu/project/rcn/206936/factsheet/en

Люди по универсальным парсерам докторские защищают :)))
 
На форуме подобное обсуждалось:
Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)
там в итоге идеального варианта я так и не нашел. Если верстка разная, то проще через сервисы или платные библиотеки парсить на запросах тело статьи чем самому алгоритм составлять.
 
На форуме подобное обсуждалось:
Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)
там в итоге идеального варианта я так и не нашел. Если верстка разная, то проще через сервисы или платные библиотеки парсить на запросах тело статьи чем самому алгоритм составлять.

Я смотрел этот топик ранее. У меня есть вариант лучше (по логике, что описал выше). Но он на 5 потоках грузит cpu на 100%, что мешает масштабированию, да и не на гетах работает.
 
тут по сути можно парсить в базу все. а затем уже из базы соскабливать по определенному алгоритму. вся загвостка в алгоритме.
 
да давайте за лям рублями напишем, распределим вёрстки на человек 10
 
  • Спасибо
Реакции: zortexx
Ребят вы слишком усложняете, тот же X-parser это разработка не за лям рублей))) Давайте по сути идеи какие...
 
По сути идеи - юзать уже готовые разработки, пускай даже и опенсорсные на php/python/c#/etc. Объединить их в систему и написать алгоритм, который будет выбирать лучший результат парсинга из всех, что выйдут.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)