3 место Конвейер ⃰ по парсингу баз ключевиков (заголовков статей) от Грибника

Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
Спасибо.
Тупанул))


UPD
Обработало все.
Результат
результат парсинга.png
 
Последнее редактирование:
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
Салют!
Пробую кириллицу парсить.
Вот такая ошибка вылазит http://skrinshoter.ru/s/110619/0jFXymmR

Код:
Выполнение действия CSharp OwnCode [FastSqliteHelper.Insert]: 'Ошибка: constraint failed
UNIQUE constraint failed: pages.url'. Last query: 'INSERT INTO pages (domain_id, url, status, is_index_page, attempts) VALUES(@param_domain_id, @param_url, @param_status, @param_is_index_page, @param_attempts)'
id cb358a8c-6df2-43f5-b4b5-fd52b237db02

Я так понимаю не нравится урл?
Это нормально?
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Пробую кириллицу парсить.
  • Самое важное замечание, которое хотелось бы отметить: данный шаблон не тестировался со страницами на русском языке. Мне это абсолютно не нужно, да и разбираться с "кракозябрами" в виде кодировки не хотелось. Поэтому я не даю никакой гарантии, что сайты в кодировке windows-1251 будут выдавать результаты, которые пригодны для использования. Но благодаря тому, что я покрыл комментариями ~95% кода - для тех, кому это жизненно необходимо - есть возможность исправить такое недоразумение и сделать, чтоб всё парсилось в нужной кодировке. Хотя есть подозрения, что AngleSharp может делать это автоматически, поэтому в любом случае - нужно тестировать и смотреть.
---------------
От дублей вначале список нужно почистить предварительно, чтоб такого не было
 
  • Спасибо
Реакции: Сибиряк
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
От дублей вначале список нужно почистить предварительно, чтоб такого не было
Точняк. Надо будет в начале шаба прикруть удаление дублей.))
Почистил от дублей. Но ошибка иногда проскакивает. Редко. Пойдет!
 

Vasilijvg

Client
Регистрация
24.10.2018
Сообщения
335
Благодарностей
151
Баллы
43
Добрый день,

подскажите пожалуйста, вроде все правильно делаю, для теста собрал список ~ 500 URL с почти разных доменов (нужной тематики En), дублей нет,
прокси в чекер набил, в bad папке ничего, база немного наполнилась но выходных файлов никаких, объединенный united файл пустой, фильтрация отключена.

Не пойму где промашка может быть?

в логе только вот такой лист (где то выше видел что другие операции отражаются)

Screenshot_6.jpg




Благодарю!
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
для теста собрал список ~ 500 URL
Это маловато, конечно, но для теста должно хватить.

прокси в чекер набил, в bad папке ничего, база немного наполнилась но выходных файлов никаких, объединенный united файл пустой, фильтрация отключена
Это весьма странно. Какие значения у save_results и save_results_by_tag в настройках? filter_output выключен и в filter_file файле нет содержимого?
 

Vasilijvg

Client
Регистрация
24.10.2018
Сообщения
335
Благодарностей
151
Баллы
43
Это маловато, конечно, но для теста должно хватить.


Это весьма странно. Какие значения у save_results и save_results_by_tag в настройках? filter_output выключен и в filter_file файле нет содержимого?
результаты получены вот при таких значениях

save_results=1
save_results_by_tag=1
filter_output=0

в файле с ключами строки были, сейчас перезапустил убрав данные из файла с ключами,
вижу что база наполняется но выходные файлы (в папку separeted) не создаются и не наполняются, созданный руками файл united
также не наполняется

может все дело в версии зенки 5.29.3.0?
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Отправь мне в личку целиком все файлы вместе с шаблоном и созданной бд. Я если будет время на досуге - посмотрю
 

Vasilijvg

Client
Регистрация
24.10.2018
Сообщения
335
Благодарностей
151
Баллы
43

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)