Написать сниппет универсального парсера статей

toxass · 16.07.2019

Нужно многопоточно копировать новости, статьи и другой контент (где текста больше чем 2 абзаца).

Важно, чтобы бралась верстка статьи (с картинками, фреймами, видео), но без верстки самого сайта.

Сайты и вёрстки абсолютно разные.

Сниппет должен работать на GET запросах и выдавать адекватную нагрузку при парсинге минимум в 30 потоков.

Кто и за сколько готов написать такое?

VerBin · 16.07.2019

В данном случае УНИВЕРСАЛЬНО означает сбор данных с ошибками.
Где-то лишнее спарсит, где-то наоборот недопарсит в статье.
Не представляю как можно универсально без ошибок отделить содержимое статьи от остальной части сайта.
Если не универсально, и с последующим допилом, то можно реализовать.

toxass · 16.07.2019

Пока вижу такую логику:

Находим блок, где больше всего текста.

Парсим от начала до конца этого текста, где "якори" начало и конец текста + закраивающие HTML теги.

Чтобы избежать мусорного парсинга, ставим ограничение, чтобы в статье было минимум 500 символов, например.

fri-lancer · 16.07.2019

Если не обязательно на зенке, то http://x-parser.ru/software/1-x-parser-light.html

zortexx · 16.07.2019

Полагаю, что только вариант с последующим допилом, как предложил @VerBin.
Если только бюджет ТС не полтора миллиона евро.
https://cordis.europa.eu/project/rcn/206936/factsheet/en

Люди по универсальным парсерам докторские защищают

))

orka13 · 16.07.2019

На форуме подобное обсуждалось:
Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)
там в итоге идеального варианта я так и не нашел. Если верстка разная, то проще через сервисы или платные библиотеки парсить на запросах тело статьи чем самому алгоритм составлять.

toxass · 16.07.2019

orka13 написал(а):
На форуме подобное обсуждалось:
Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)
там в итоге идеального варианта я так и не нашел. Если верстка разная, то проще через сервисы или платные библиотеки парсить на запросах тело статьи чем самому алгоритм составлять.

Я смотрел этот топик ранее. У меня есть вариант лучше (по логике, что описал выше). Но он на 5 потоках грузит cpu на 100%, что мешает масштабированию, да и не на гетах работает.

VerBin · 17.07.2019

тут по сути можно парсить в базу все. а затем уже из базы соскабливать по определенному алгоритму. вся загвостка в алгоритме.

ssXXXss · 17.07.2019

да давайте за лям рублями напишем, распределим вёрстки на человек 10

VerBin · 17.07.2019

ssXXXss написал(а):
да давайте за лям рублями напишем, распределим вёрстки на человек 10

Поддерживаю идею стартапа

zortexx · 17.07.2019

Завернем в ИНС и продадим как Native Language Processing :-)

toxass · 17.07.2019

Ребят вы слишком усложняете, тот же X-parser это разработка не за лям рублей))) Давайте по сути идеи какие...

Lord_Alfred · 17.07.2019

По сути идеи - юзать уже готовые разработки, пускай даже и опенсорсные на php/python/c#/etc. Объединить их в систему и написать алгоритм, который будет выбирать лучший результат парсинга из всех, что выйдут.

Поиск

Написать сниппет универсального парсера статей

toxass

Client

VerBin

Client

toxass

Client

fri-lancer

Client

zortexx

Client

orka13

Client

toxass

Client

VerBin

Client

ssXXXss

Client

VerBin

Client

zortexx

Client

toxass

Client

Lord_Alfred

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)