1 место Универсальный экстрактор™ контента (основной статьи страницы)

Valandersi · 06.03.2020

Техничка подъехала. Возможно это мне не пригодиться сейчас, но пригодиться в дальнейшем. Спс

Supergrok · 06.03.2020

Это матрица, детка. Какой же я тупой, чтобы понять все это, все эти термины, алгоритмы,да и вобще ход этих мыслей

Сибиряк · 06.03.2020

Пошла жара! Вот такие шабы интересны!

goldenbux · 06.03.2020

Danny · 06.03.2020

Вау!
Спасибо большое за труды и классный шаблон! )

goldenbux · 06.03.2020

Lord_Alfred сказал(а):
Очистка результата от любых ссылок (очень крутой алгоритм, который я уже давно использую, но если нужно - это можно отключить).

Посмотреть вложение 51506

Привет, спасибо за материал, реально интересная тема. Можно отдельно поподробнее про алгоритм очистки, по какому принципу он работает? Есть шаблон, в который что то подобное очень бы пригодилось, нужна идея по какому принципу работать))

Может быть можно где то прочитать поподробнее об этом крутом алгоритме?

Astraport · 06.03.2020

Это удивительно, но вчера как раз с @specialist копали в том же направлении, но на чистом C#.
И ты забыл добавить пункт о наличии Git в системе.
А почему Универсальный экстрактор™ <=?

Astraport · 06.03.2020

Немного потестил. Пара вопросов.
1. На некоторых сайтах в результатах - Пожалуйста, обновите свой браузер. Мы рекомендуем Google Chromeпоследней версии.
2. Как парсить оставляя нужные теги? Например списки, таблицы, картинки?

Astraport · 06.03.2020

Lord_Alfred сказал(а):
Можно пример?

Эволюция 2020: от Homo sapiens к человеку публичному – Про Интернет

Наверное, многие из вас слышали историю о блогере Екатерине Диденко, муж которой умер по причине собственной глупости (забросил 25 кг сухого льда в бассейн, затем прыгнул в него и задохнулся, не зная банальных химических свойств, которым учат в школе). Вместе с её мужем погибло ещё 2 человека, а...

seoded.d3.ru

inilim · 06.03.2020

Примеров не хватает.

Asmus003 · 06.03.2020

Lord_Alfred сказал(а):
Чуть сложнее уже будет через gRPC обмениваться данными, но может и что-то такое я когда-нибудь расковыряю для себя и выложу для всех

А в чем преимущество такой связки зенки и голанга?

MasterX · 06.03.2020

У Алфреда как всегда годнота, которую понимают и применяют еденицы. НО ты крут.

Max · 07.03.2020

а где экстрактор то взяв либу и скомпилив тупо ее...эх...плюс либа на момент когда последний раз тестил была сыровата и не очень хорошо выделяла статью...
при твои знаниях мен - мог бы что нить поинтересней придумать... у нас же конкурс шаблонов где должна быть интересная реализация или сложная.
короче я просто плачу от конкурса...даже отцы не порадовали...

TwistDanceR · 07.03.2020

Неплохо) Надо будет затестить. В мире SEO оч пригодится) Учитывая, что есть синонимайзер под статьи - для доров и сателлитов прям хорошая. Нраица)

Nike59 · 07.03.2020

Попробовал демо. Быстро. Даже очень быстро парсит. Посмотрел основной шаблон. Влет мне не разобраться, но очень интересно. @Lord_Alfred в очередной раз впечатлил меня своей программистской и исследовательской дотошностью и полетом мысли. Буду голосовать за этот конкурсный проект.

udder · 07.03.2020

Великолепный шаблон.
Текст на выходе чистый. Теперь нужно научиться добывать ссылки на статьи для парсинга

P.S Шаблон запускать можно в многопоток?

Max · 07.03.2020

1. статью можно писать в системный аут а не файлы
2. я не увидел скрещивания го и шарпа. скрещивание было бы если написал мост с помощью которого из зенки можно было вызывать модули голанга и функции напрямую.
3. лучшим решением было бы создать экзешник с асинхронным хттп-сервером. на вход данные на выход результат. тот же микросервис.

про четкость определения статьи - я давно юзал.. возможно качество улучшили.
ну и в целом шаб норм наверное...но пока ничего не вставило из конкурса от слова совсем...

держу пальцы за симпатии разрабов и оригинальность. успехов.

intagens · 08.03.2020

супер инструмент! вот, прям, то что искал!)

Lord_Alfred сказал(а):
можно поправить мой исходник "readability_cli.go"

что именно поправить и как это сделать?

Lord_Alfred сказал(а):
за место сохранения тела статьи article.TextContent - можно подтянуть из оригинального пакета следующие данные

это надо исправить в исходнике или добавить в сниппетах(если в сниппетах, то article.TextContent я не нашел)

и еще подскажи, можно ли настроить шаблон, чтобы он не парсил подписи к картинкам и названия разделов статьи?

radv · 08.03.2020

Полезная штука :ay:

intagens · 09.03.2020

Lord_Alfred сказал(а):
Для парсинга контента с тегами нужно найти в файле readability_cli.go строку article.TextContent и заменить её на article.Content

мне не нужны теги) мне нужно получать из статьи article.TextContent, article.Title и article.Image ... так получиться?

Lord_Alfred сказал(а):
article.Image // какое-то изображение из статьи из метаданных

а что значит "какое-то"? рандомное? а если изображений несколько - можно получить все?

slcor · 09.03.2020

Просто шикарный шаблон, спасибо!

intagens сказал(а):
мне не нужны теги) мне нужно получать из статьи article.TextContent, article.Title и article.Image ... так получиться?

Там в самом конце файла, есть dstTxtFile.WriteString(article.TextContent)
Просто дописываешь дальше, что тебе нужно, например так:

Код:

dstTxtFile.WriteString(article.TextContent)
dstTxtFile.WriteString("Title:\n")
dstTxtFile.WriteString(article.Title)
dstTxtFile.WriteString("Image:\n")
dstTxtFile.WriteString(article.Image)

intagens · 09.03.2020

slcor сказал(а):
Просто дописываешь дальше, что тебе нужно, например так:

дописал ... чет не фурычит .... как брало, только, тело статьи так и берет

1 место Универсальный экстрактор™ контента (основной статьи страницы)

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)