Написать сниппет универсального парсера статей

toxass

Client
Регистрация
18.03.2010
Сообщения
280
Благодарностей
12
Баллы
18
Нужно многопоточно копировать новости, статьи и другой контент (где текста больше чем 2 абзаца).

Важно, чтобы бралась верстка статьи (с картинками, фреймами, видео), но без верстки самого сайта.

Сайты и вёрстки абсолютно разные.

Сниппет должен работать на GET запросах и выдавать адекватную нагрузку при парсинге минимум в 30 потоков.

Кто и за сколько готов написать такое?
 

VerBin

Client
Регистрация
28.05.2016
Сообщения
555
Благодарностей
457
Баллы
63
В данном случае УНИВЕРСАЛЬНО означает сбор данных с ошибками.
Где-то лишнее спарсит, где-то наоборот недопарсит в статье.
Не представляю как можно универсально без ошибок отделить содержимое статьи от остальной части сайта.
Если не универсально, и с последующим допилом, то можно реализовать.
 

toxass

Client
Регистрация
18.03.2010
Сообщения
280
Благодарностей
12
Баллы
18
Пока вижу такую логику:

Находим блок, где больше всего текста.

Парсим от начала до конца этого текста, где "якори" начало и конец текста + закраивающие HTML теги.

Чтобы избежать мусорного парсинга, ставим ограничение, чтобы в статье было минимум 500 символов, например.
 

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
418
Благодарностей
156
Баллы
43

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 226
Баллы
113
Полагаю, что только вариант с последующим допилом, как предложил @VerBin.
Если только бюджет ТС не полтора миллиона евро.
https://cordis.europa.eu/project/rcn/206936/factsheet/en

Люди по универсальным парсерам докторские защищают :-)))
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
На форуме подобное обсуждалось:
Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)
там в итоге идеального варианта я так и не нашел. Если верстка разная, то проще через сервисы или платные библиотеки парсить на запросах тело статьи чем самому алгоритм составлять.
 

toxass

Client
Регистрация
18.03.2010
Сообщения
280
Благодарностей
12
Баллы
18
На форуме подобное обсуждалось:
Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)
там в итоге идеального варианта я так и не нашел. Если верстка разная, то проще через сервисы или платные библиотеки парсить на запросах тело статьи чем самому алгоритм составлять.
Я смотрел этот топик ранее. У меня есть вариант лучше (по логике, что описал выше). Но он на 5 потоках грузит cpu на 100%, что мешает масштабированию, да и не на гетах работает.
 

VerBin

Client
Регистрация
28.05.2016
Сообщения
555
Благодарностей
457
Баллы
63
тут по сути можно парсить в базу все. а затем уже из базы соскабливать по определенному алгоритму. вся загвостка в алгоритме.
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
да давайте за лям рублями напишем, распределим вёрстки на человек 10
 
  • Спасибо
Реакции: zortexx

VerBin

Client
Регистрация
28.05.2016
Сообщения
555
Благодарностей
457
Баллы
63

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 226
Баллы
113

toxass

Client
Регистрация
18.03.2010
Сообщения
280
Благодарностей
12
Баллы
18
Ребят вы слишком усложняете, тот же X-parser это разработка не за лям рублей))) Давайте по сути идеи какие...
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
По сути идеи - юзать уже готовые разработки, пускай даже и опенсорсные на php/python/c#/etc. Объединить их в систему и написать алгоритм, который будет выбирать лучший результат парсинга из всех, что выйдут.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)