1 место Универсальный экстрактор™ контента (основной статьи страницы)

Lord_Alfred · 06.03.2020

Пару месяцев назад я публиковал в своём блоге видео с конференции, где рассказывалось какие есть сложности в реализации универсального парсера контента (основной статьи страницы без мусора: без меню, футера и тд) из html-кода. В комментариях к той записи мы обсудили, что хотелось бы использовать готовую библиотеку, дабы не писать свои велосипеды из регулярок, и именно тогда мой взор пал на пакет для Golang, который базируется на Readability.js (самом актуальном решении этой задачи от разработчиков Mozilla). Go'шная реализация переписана практически строчка-в-строчку, а что самое важное - её можно скомпилировать в исполняемый файл, чтобы получить максимальную производительность от языка, который сделали инженеры Google. Я взял этот go'шный пакет, скрестил его с другим (для работы из CLI) и сделал шаблон поверх этого добра, чтоб выполнять предварительную валидацию и постобработку.

Для чего нужен такой парсер контента? Чтобы ~~грабить корованы конечно же!~~ наполнять этим контентом доры/копипастные сайты, использовать его для переводов или исследований (составление датасетов).

Инструкция по компиляции парсера:

Скачайте архив из аттача, распакуйте его
Установите git: https://git-scm.com/download/win (необходим для установки зависимостей)
Установите go: https://golang.org/dl/ (я использовал версию 1.14, инсталлятор "go1.14.windows-amd64.msi")
После установки откройте cmd.exe и перейдите в папку с распакованным шаблоном и файлами:
Установите зависимости:
Код:
```
go get github.com/urfave/cli
go get github.com/go-shiori/go-readability
```
Скомпилируйте парсер:
Код:
```
go build readability_cli.go
```
Протестируйте его работоспособность (данный текст означает что всё хорошо, просто мы не передали обязательный параметр --url):

После этих простых манипуляций вы можете парсить контент без мусора просто в гигантских масштабах с

молниеносной скоростью. А чтобы понять как это всё работает - я добавил тестовый шаблон readability_example.xmlz, который уже и запускает вложенный шаблон-парсер со следующим функционалом:

Парсинг на запросах, без браузера.
Очень точное получение основного контента за счёт использования актуальной библиотеки (а не старых решений на php/python/.net 2000-2010 годов, которые мало того что грузят CPU, так ещё и парсят мусор).
Мультиязычная обработка (нет привязки к языкам, парсер должен переварить хоть тайский, хоть китайский).
Встроенное кеширование через md5-хэш URL (в случае если вы парсите контент в реалтайме под каждую страницу как я, то вам нет смысла гонять парсер по одним и тем же ссылкам несколько раз).
Использование рандомного прокси из проксичекера (можно отключить для ускорения).
Валидация HTTP-статус кода (проверка, что страница отдала 200 код).
Пропуск всех результатов, где контент закодирован Brotli (в данный момент ZP не поддерживает декодирование).
Проверка типа данных (поддерживается парсинг только html, чтоб не попадались pdf/docx или другие документы).
Очистка результата от любых ссылок (очень крутой алгоритм, который я уже давно использую, но если нужно - это можно отключить).
Исправление пробелов/табов/переводов строк (дублей и некорректных завершений).
Исправление пробелов перед важными пунктуационными символами.
Два метода для удаления дубликатов (среди строк и предложений).
Эвристический метод для определения бинарных данных (может иногда быть слишком агрессивным, но на больших объемах лучше так).
Эвристический метод для удаления результатов, состоящих практически из одних цифр.
Сохранение метаданных рядом в кэше (добавлено сохранение только URL в xml-подобной структуре, но с легкостью можно добавить свои данные: нишу, запрос и тд).

Те, кто протестируют шаблон - будут приятно удивлены скоростью парсинга и минимальной нагрузкой на CPU, которая достигается как раз за счёт использования golang 8-)

Valandersi · 06.03.2020

Техничка подъехала. Возможно это мне не пригодиться сейчас, но пригодиться в дальнейшем. Спс

Supergrok · 06.03.2020

Это матрица, детка. Какой же я тупой, чтобы понять все это, все эти термины, алгоритмы,да и вобще ход этих мыслей

Lord_Alfred · 06.03.2020

Supergrok написал(а):
Это матрица, детка. Какой же я тупой, чтобы понять все это, все эти термины, алгоритмы,да и вобще ход этих мыслей

Чем больше информации ты впитываешь и пропускаешь через себя (не обязательно даже полностью воспроизводя её и понимая) - тем умнее ты становишься

Valandersi написал(а):
Техничка подъехала. Возможно это мне не пригодиться сейчас, но пригодиться в дальнейшем. Спс

Да, забыл написать в посте - это будет полезно для тех кто в будущем захочет скрестить зенку и golang. Чуть сложнее уже будет через gRPC обмениваться данными, но может и что-то такое я когда-нибудь расковыряю для себя и выложу для всех ;-)

Сибиряк · 06.03.2020

Пошла жара! Вот такие шабы интересны!

goldenbux · 06.03.2020

Ihj2WDkmYfKFpSvc16bgV8rnJ8gbhikQ9HW-YmR5Ex12SYNZWoiFW0K0a9ZcYDC6tRrqkFMNJib_kGCHtGUXLaT-8rU

Danny · 06.03.2020

Вау!
Спасибо большое за труды и классный шаблон! )

goldenbux · 06.03.2020

Lord_Alfred написал(а):
Очистка результата от любых ссылок (очень крутой алгоритм, который я уже давно использую, но если нужно - это можно отключить).

Посмотреть вложение 51506

Привет, спасибо за материал, реально интересная тема. Можно отдельно поподробнее про алгоритм очистки, по какому принципу он работает? Есть шаблон, в который что то подобное очень бы пригодилось, нужна идея по какому принципу работать))

Может быть можно где то прочитать поподробнее об этом крутом алгоритме?

Lord_Alfred · 06.03.2020

goldenbux написал(а):
Может быть можно где то прочитать поподробнее об этом крутом алгоритме?

Там несколько киллер-регулярок, которые в том числе умеют корректно определять доменную зону (за счет использования их в виде списка внутри). Шаблон открытый если что - там это в последнем кубике "fix content" )

Astraport · 06.03.2020

Это удивительно, но вчера как раз с @specialist копали в том же направлении, но на чистом C#.
И ты забыл добавить пункт о наличии Git в системе.
А почему Универсальный экстрактор™ <=?

Astraport · 06.03.2020

Немного потестил. Пара вопросов.
1. На некоторых сайтах в результатах - Пожалуйста, обновите свой браузер. Мы рекомендуем Google Chromeпоследней версии.
2. Как парсить оставляя нужные теги? Например списки, таблицы, картинки?

Lord_Alfred · 06.03.2020

Astraport написал(а):
И ты забыл добавить пункт о наличии Git в системе.

Ого! Большое спасибо за это замечание, у меня он стоял по дефолту и я даже не подозревал, что он необходим! :-)

Astraport написал(а):
А почему Универсальный экстрактор™

Что бы у кого-нибудь триггернуло и кто-нибудь спросил...))

Astraport написал(а):
1. На некоторых сайтах в результатах - Пожалуйста, обновите свой браузер. Мы рекомендуем Google Chromeпоследней версии.

Можно пример? Вряд ли я смогу что-то поправить, но любопытно посмотреть что там за верстка если такое выдаётся.

Astraport написал(а):
2. Как парсить оставляя нужные теги? Например списки, таблицы, картинки?

Определённые теги никак не оставить, максиму что - это можно поправить мой исходник "readability_cli.go" и за место сохранения тела статьи article.TextContent - можно подтянуть из оригинального пакета следующие данные:

Код:

article.Title // тайтл
article.TextContent // текстовый контент без тегов
article.Content // контент с html-тегами
article.Byline // автор из метаданных
article.Excerpt // короткое содержание статьи (саммари)
article.SiteName // название сайта
article.Image // какое-то изображение из статьи из метаданных
article.Favicon // фавикон

Astraport · 06.03.2020

Lord_Alfred написал(а):
Можно пример?

Эволюция 2020: от Homo sapiens к человеку публичному

Наверное, многие из вас слышали историю о блогере Екатерине Диденко, муж которой умер по причине собственной глупости (забросил 25 кг сухого льда в бассейн, затем прыгнул в него и задохнулся, не зная банальных химических свойств, которым учат в школе). Вместе с её мужем погибло ещё 2 человека, а...

seoded.d3.ru

inilim · 06.03.2020

Примеров не хватает.

Asmus003 · 06.03.2020

Lord_Alfred написал(а):
Чуть сложнее уже будет через gRPC обмениваться данными, но может и что-то такое я когда-нибудь расковыряю для себя и выложу для всех

А в чем преимущество такой связки зенки и голанга?

Lord_Alfred · 06.03.2020

@Astraport, там нет контента в исходном коде ) А данный пакет не строит DOM-дерево (точнее не обрабатывает javascript), поэтому такой результат - вполне логичный. Я даже вот lynx поставил потестить ради интереса, чтоб узнать что он выдаст на ту страницу:

правда, кириллический шрифт почему-то не подтянулся, ну да ладно.

inilim написал(а):
Примеров не хватает.

Каких именно примеров? В архиве лежит шаблон readability_example.xmlz, который и подраузмевался как пример :-)

Asmus003 написал(а):
А в чем преимущество такой связки зенки и голанга?

Если через gRPC гонять запросы, то можно было бы исполняемый файл golang сделать в виде демона, который постоянно висел и ожидал бы данных - это ещё бы сократило время на обработку. Но и в текущей реализации я не успеваю заметить как запускается и умирает процесс в диспетчере задач, потому что они очень быстро обрабатывают данные.

MasterX · 06.03.2020

У Алфреда как всегда годнота, которую понимают и применяют еденицы. НО ты крут.

Lord_Alfred · 06.03.2020

MasterX написал(а):
У Алфреда как всегда годнота, которую понимают и применяют еденицы. НО ты крут.

Спасибо за добрые слова! :dh:

Max · 07.03.2020

а где экстрактор то взяв либу и скомпилив тупо ее...эх...плюс либа на момент когда последний раз тестил была сыровата и не очень хорошо выделяла статью...
при твои знаниях мен - мог бы что нить поинтересней придумать... у нас же конкурс шаблонов где должна быть интересная реализация или сложная.
короче я просто плачу от конкурса...даже отцы не порадовали...

TwistDanceR · 07.03.2020

Неплохо) Надо будет затестить. В мире SEO оч пригодится) Учитывая, что есть синонимайзер под статьи - для доров и сателлитов прям хорошая. Нраица)

Lord_Alfred · 07.03.2020

Max написал(а):
а где экстрактор то взяв либу и скомпилив тупо ее.

А зачем писать ещё один велосипед, который будет с квадратными колёсами, если есть уже готовые с овальными? :bn:

Max написал(а):
плюс либа на момент когда последний раз тестил была сыровата и не очень хорошо выделяла статью...

Примеры? Я её месяц гонял перед конкурсом - результат меня полностью устраивал.

Max написал(а):
при твои знаниях мен - мог бы что нить поинтересней придумать... у нас же конкурс шаблонов где должна быть интересная реализация или сложная.

Быть первым, кто скрестит супер-мощный и быстрый golang и ZP - разве не интересно? :-)

Думаю, те, кто шарят как ты - могут такие вещи взять на заметку и применить их в чём-то другом, более интересном.

К слову, ты посмотрел внутрь шаба? Там есть несколько любопытных мест (предварительная валидация и пост обработка).

Nike59 · 07.03.2020

Попробовал демо. Быстро. Даже очень быстро парсит. Посмотрел основной шаблон. Влет мне не разобраться, но очень интересно. @Lord_Alfred в очередной раз впечатлил меня своей программистской и исследовательской дотошностью и полетом мысли. Буду голосовать за этот конкурсный проект.

udder · 07.03.2020

Великолепный шаблон.
Текст на выходе чистый. Теперь нужно научиться добывать ссылки на статьи для парсинга

P.S Шаблон запускать можно в многопоток?

Max · 07.03.2020

1. статью можно писать в системный аут а не файлы
2. я не увидел скрещивания го и шарпа. скрещивание было бы если написал мост с помощью которого из зенки можно было вызывать модули голанга и функции напрямую.
3. лучшим решением было бы создать экзешник с асинхронным хттп-сервером. на вход данные на выход результат. тот же микросервис.

про четкость определения статьи - я давно юзал.. возможно качество улучшили.
ну и в целом шаб норм наверное...но пока ничего не вставило из конкурса от слова совсем...

держу пальцы за симпатии разрабов и оригинальность. успехов.

intagens · 08.03.2020

супер инструмент! вот, прям, то что искал!)

Lord_Alfred написал(а):
можно поправить мой исходник "readability_cli.go"

что именно поправить и как это сделать?

Lord_Alfred написал(а):
за место сохранения тела статьи article.TextContent - можно подтянуть из оригинального пакета следующие данные

это надо исправить в исходнике или добавить в сниппетах(если в сниппетах, то article.TextContent я не нашел)

и еще подскажи, можно ли настроить шаблон, чтобы он не парсил подписи к картинкам и названия разделов статьи?

radv · 08.03.2020

Полезная штука :ay:

Lord_Alfred · 09.03.2020

udder написал(а):
Текст на выходе чистый. Теперь нужно научиться добывать ссылки на статьи для парсинга

Думаю, кто угодно сможет скрестить его с каким-нибудь из бесплатных шаблонов:

udder написал(а):
P.S Шаблон запускать можно в многопоток?

Конечно!

intagens написал(а):
что именно поправить и как это сделать?

Для парсинга контента с тегами нужно найти в файле readability_cli.go строку article.TextContent и заменить её на article.Content.

intagens написал(а):
и еще подскажи, можно ли настроить шаблон, чтобы он не парсил подписи к картинкам и названия разделов статьи?

Нельзя, только если хакать саму либу

intagens · 09.03.2020

Lord_Alfred написал(а):
Для парсинга контента с тегами нужно найти в файле readability_cli.go строку article.TextContent и заменить её на article.Content

мне не нужны теги) мне нужно получать из статьи article.TextContent, article.Title и article.Image ... так получиться?

Lord_Alfred написал(а):
article.Image // какое-то изображение из статьи из метаданных

а что значит "какое-то"? рандомное? а если изображений несколько - можно получить все?

slcor · 09.03.2020

Просто шикарный шаблон, спасибо!

intagens написал(а):
мне не нужны теги) мне нужно получать из статьи article.TextContent, article.Title и article.Image ... так получиться?

Там в самом конце файла, есть dstTxtFile.WriteString(article.TextContent)
Просто дописываешь дальше, что тебе нужно, например так:

Код:

dstTxtFile.WriteString(article.TextContent)
dstTxtFile.WriteString("Title:\n")
dstTxtFile.WriteString(article.Title)
dstTxtFile.WriteString("Image:\n")
dstTxtFile.WriteString(article.Image)

intagens · 09.03.2020

slcor написал(а):
Просто дописываешь дальше, что тебе нужно, например так:

дописал ... чет не фурычит .... как брало, только, тело статьи так и берет

1 место Универсальный экстрактор™ контента (основной статьи страницы)

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)