3 место Конвейер ⃰ по парсингу баз ключевиков (заголовков статей) от Грибника

Спасибо.
Тупанул))


UPD
Обработало все.
Результат
результат парсинга.png
 
Последнее редактирование:
Салют!
Пробую кириллицу парсить.
Вот такая ошибка вылазит http://skrinshoter.ru/s/110619/0jFXymmR

Код:
Развернуть Свернуть Копировать
Выполнение действия CSharp OwnCode [FastSqliteHelper.Insert]: 'Ошибка: constraint failed
UNIQUE constraint failed: pages.url'. Last query: 'INSERT INTO pages (domain_id, url, status, is_index_page, attempts) VALUES(@param_domain_id, @param_url, @param_status, @param_is_index_page, @param_attempts)'
id cb358a8c-6df2-43f5-b4b5-fd52b237db02

Я так понимаю не нравится урл?
Это нормально?
 
Пробую кириллицу парсить.
  • Самое важное замечание, которое хотелось бы отметить: данный шаблон не тестировался со страницами на русском языке. Мне это абсолютно не нужно, да и разбираться с "кракозябрами" в виде кодировки не хотелось. Поэтому я не даю никакой гарантии, что сайты в кодировке windows-1251 будут выдавать результаты, которые пригодны для использования. Но благодаря тому, что я покрыл комментариями ~95% кода - для тех, кому это жизненно необходимо - есть возможность исправить такое недоразумение и сделать, чтоб всё парсилось в нужной кодировке. Хотя есть подозрения, что AngleSharp может делать это автоматически, поэтому в любом случае - нужно тестировать и смотреть.
---------------
От дублей вначале список нужно почистить предварительно, чтоб такого не было
 
  • Спасибо
Реакции: Сибиряк
От дублей вначале список нужно почистить предварительно, чтоб такого не было
Точняк. Надо будет в начале шаба прикруть удаление дублей.))
Почистил от дублей. Но ошибка иногда проскакивает. Редко. Пойдет!
 
Добрый день,

подскажите пожалуйста, вроде все правильно делаю, для теста собрал список ~ 500 URL с почти разных доменов (нужной тематики En), дублей нет,
прокси в чекер набил, в bad папке ничего, база немного наполнилась но выходных файлов никаких, объединенный united файл пустой, фильтрация отключена.

Не пойму где промашка может быть?

в логе только вот такой лист (где то выше видел что другие операции отражаются)

Screenshot_6.jpg




Благодарю!
 
для теста собрал список ~ 500 URL
Это маловато, конечно, но для теста должно хватить.

прокси в чекер набил, в bad папке ничего, база немного наполнилась но выходных файлов никаких, объединенный united файл пустой, фильтрация отключена
Это весьма странно. Какие значения у save_results и save_results_by_tag в настройках? filter_output выключен и в filter_file файле нет содержимого?
 
Это маловато, конечно, но для теста должно хватить.


Это весьма странно. Какие значения у save_results и save_results_by_tag в настройках? filter_output выключен и в filter_file файле нет содержимого?

результаты получены вот при таких значениях

save_results=1
save_results_by_tag=1
filter_output=0

в файле с ключами строки были, сейчас перезапустил убрав данные из файла с ключами,
вижу что база наполняется но выходные файлы (в папку separeted) не создаются и не наполняются, созданный руками файл united
также не наполняется

может все дело в версии зенки 5.29.3.0?
 
Отправь мне в личку целиком все файлы вместе с шаблоном и созданной бд. Я если будет время на досуге - посмотрю
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)