А парсер заново скомпилировал?дописал ... чет не фурычит .... как брало, только, тело статьи так и берет
А парсер заново скомпилировал?дописал ... чет не фурычит .... как брало, только, тело статьи так и берет
Все изображения и без такого сложного парсера можно получить (просто регуляркой из html-кода взять всё, что в тегах img лежит).а если изображений несколько - можно получить все?
Там берется изображение скорее всего из meta (opengraph, schemaorg и тд)а что значит "какое-то"? рандомное?
ср, 5 декабря, 14:00
Обратите внимание на полезные советы, как украсить дом на Новый год 2019.
Читайте также о том, чем поразят звезды в конце 2019 года – гороскоп для всех знаков зодиака.
Смотрите видео, какими продуктами на новогодний стол надо запастись уже сейчас:
Присоединяйтесь к каналу "Украина" в меседжерах, чтобы узнавать первыми об актуальных и избранных материалах по ссылкам:
Viber – Telegram –
загрузка...
Git скачать и установить.что я делаю не так?
Astraport верно написал - нужно установить git (об этом написано в пункте №2).что я делаю не так?
Это всё из-за того, что включено удаление ссылок в шаблоне Выключи его просто и всё ок будет.Поставил article.Content и получаю в тексте, что он вырезает и ссылки и картинки из html статьи. Это так и должно быть или можно поправить, чтобы оставлял?
В выложенном варианте парсится чистый текст, а чтоб были картинки (и другие теги), то я выше писал что нужно заменить в readability_cli.go + нужно будет отключить в шаблоне очистку ссылок.Можно вопрос, шаблон парсит чистый текст или вместе с картинками(если такие имеются)?
Да, это очистка контента срабатывает (т.к. данный парсер я пилил для текстового контента без тегов).то есть перед "com" и перед "jpg" появляются пробелы. Это можно как-то исправить?
// fix spaces around some symbols
content = Regex.Replace(content, @"\s+([!%\),\.:;\?\]\}]+)", "$1");
content = Regex.Replace(content, @"([\.!,\?])([^\s\.!,\?]+)", "$1 $2");
Спасибо. Ну эти все замены можно будет уже потом сделатьКонечно, в текстовке тогда не будут исправляться концы строк и пробелы между некоторыми символами, но тут уж никуда не денешься
Большое спасибо!Это лучший шаб. Мой голос за Вас. Я вообще так много времени убил на это средствами зенки и С#, но так и более-менее идеальный вариант не сделал.
На это несколько причин (и все они скорее всего субъективны):А зачем использовать go? Есть же решения на c#, в виде dll.
Например SmartReader
Давай ссылки, попробую сравнить.На это несколько причин (и все они скорее всего субъективны):
1. SmartReader почти никто не знает, у него мало Stars/Forks на гитхабе - я о нем даже не слышал ранее
2. Он использует AngleSharp
3. Go будет меньше тратить ресурсы CPU из-за его архитектуры
По качеству не буду оценивать - он тоже базируется на Readability.js, тоже есть тесты (что удивительно).
Может быть тут найдутся желающие и пробенчат их вместе, у меня как раз 30к ссылок есть, которые я прогонял через свой парсер, чтоб отловить баги
Давай ссылки, попробую сравнить.
Я писал ранее, что тестил тему и как раз с SmartReader благодаря помощи @specialist . Меня результат вполне устроил.Может быть тут найдутся желающие и пробенчат их вместе, у меня как раз 30к ссылок есть, которые я прогонял через свой парсер, чтоб отловить баги
Вот про SmartReader ты не писал в том постеЯ писал ранее, что тестил тему и как раз с SmartReader
Не хотел вносить сумятицу в обсуждение и смущать юзеров.Вот про SmartReader ты не писал в том посте
Оценивал лишь качество.По нагрузке как было? Сильно оно жрало CPU?
@dafaroff, большое спасибо за столь подробное сравнение!Реализация от @Lord_Alfred быстрее и стабильнее, но нужно дополнительно устанавливать софт.
Уже разобрался ) В пути к шаблону не должно быть пробелов либо взять путь в кавычки...Запускаю шаблон, но получаю ошибку:
Подпроект readability. Выполнение действия CSharp OwnCode: fix content. Could not find file 'D:\ZP\Универсальный экстрактор контента\cache\fox4kc.com\d7dd584862b52bec9fd6d38d5ef0d54c.txt'.
Id ошибки - 7bff479e-abad-482d-92b0-250a6b6f15ba.
Также приложил скриншот. Прошу подсказать, почему не работает. Спасибо.
Посмотреть вложение 51932