3 место Конвейер ⃰ по парсингу баз ключевиков (заголовков статей) от Грибника

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 983
Благодарностей
4 433
Баллы
113
Спасибо что подняли тему, давно хотел затестить шаблон.
Главное - он работает, но результаты у меня несколько странные. Всё те же тонны мусора, всякие Highlights, Contact Us. Годных фраз процентов 20.
А в output\[project]\united.txt и output\[project]\separated\ у меня пустота.
Может я что-то не так сделал?
1. По ключу bitcoin сторонним софтом спарсил у Гугла 100 урлов.
2. Добавил их в текстовик.
3. В конфиге почти ничего не менял. Только указал txt с урлами, filter_output=0 отключил потому что не совсем понял что это за фильтрация. Ну всё.
4. Результаты смотрел в таблице titles из test_parsing.sqlite3 - там всего 411 заголовков напарсилось.
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113

emel

Client
Регистрация
21.02.2015
Сообщения
86
Благодарностей
18
Баллы
8
Полезная статья. Было интересно прочитать. Возник 1 вопрос. Ключевики != заголовки или равны. И если не равны, то можно ли их собрать подобным способом?
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Полезная статья. Было интересно прочитать. Возник 1 вопрос. Ключевики != заголовки или равны. И если не равны, то можно ли их собрать подобным способом?
В контексте данного способа они равны )
 

emel

Client
Регистрация
21.02.2015
Сообщения
86
Благодарностей
18
Баллы
8
В контексте данного способа они равны )
Ну это да. Здесь проблема решена.) А если дополнять семантику таким путем. то это вопрос, можно ли добиться результата таким путем. Очень интересный вопрос.)
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Ну это да. Здесь проблема решена.) А если дополнять семантику таким путем. то это вопрос, можно ли добиться результата таким путем. Очень интересный вопрос.)
Тут всё зависит от донора, тематики и полученных результатов. Но мне кажется, что этот способ должен помочь улучшить семантическое ядро
 

Meteorburn

Client
Регистрация
23.05.2016
Сообщения
1 472
Благодарностей
575
Баллы
113
Очень интересную особенность я заметил при использовании этого шаблона.
Шаблон Лорда не даёт нормально работать другому шаблону из зенно.

Шаблон Альфреда выполнялся, потом я запустил свой шаблон не имеющий отношения к этому. Без библиотек, базы данных итп.
В моём шаблоне начались валиться ошибки связанные то ли с запросами, то ли с Regex. Что-то одно из двух.

Думаю в чём же дело, всё работало исправно недавно. Проверил в ПМ, всё ок. Думаю, может лаг какой-то, дай перезагружу постер.
Перезагрузил и вновь запустил шаблон Лорда, после свой. Повалились ошибки.

Остановил шаблон Лорда и запустил свой, ошибок нет. Думаю, вот интересно то как...

Во время выполнения своего шаблона запускаю шаблон Лорда, в середине выполнения моего шаблона начинают валиться ошибки. Останавливаю шаблон, ошибки проходят.

Ошибки только на определённых запросах, не на всех.
И вот как так?

Машина Windows 10, ZP - 5.19

Проверю на другом ПК и на других версиях ZP
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Очень интересную особенность я заметил при использовании этого шаблона.
Шаблон Лорда не даёт нормально работать другому шаблону из зенно.

Шаблон Альфреда выполнялся, потом я запустил свой шаблон не имеющий отношения к этому. Без библиотек, базы данных итп.
В моём шаблоне начались валиться ошибки связанные то ли с запросами, то ли с Regex. Что-то одно из двух.

Думаю в чём же дело, всё работало исправно недавно. Проверил в ПМ, всё ок. Думаю, может лаг какой-то, дай перезагружу постер.
Перезагрузил и вновь запустил шаблон Лорда, после свой. Повалились ошибки.

Остановил шаблон Лорда и запустил свой, ошибок нет. Думаю, вот интересно то как...

Во время выполнения своего шаблона запускаю шаблон Лорда, в середине выполнения моего шаблона начинают валиться ошибки. Останавливаю шаблон, ошибки проходят.

Ошибки только на определённых запросах, не на всех.
И вот как так?

Машина Windows 10, ZP - 5.19

Проверю на другом ПК и на других версиях ZP
Забавно :-) может ресурсов не хватает или много потоков моего шаба запущено?

P.S.: на 5.19 не тестил, но шаб открыт - всегда можно глянуть что там

P.P.S.: какие-нибудь общие библиотеки есть? Проверь плиз обязательно, наверняка дело в них
 

barmaglot

Новичок
Регистрация
20.12.2018
Сообщения
18
Благодарностей
6
Баллы
3
Парсинг происходит только с использованием прокси. Это не конфигурируемо и не отключаемо через настройки. Сделано в целях вашей же защиты от самих себя :-) Чтобы потом не оказалось, что вы случайно "уронили" какой-то сайт парсингом, да ещё и со своего IP. Прокси берутся из ZennoPoster, поэтому учтите, что там они должны быть добавлены.
Я сейчас демку пользую... Там нет возможности прокси добавить... Хочу через проксифаер его запустить, но надо отключить как-то использование прокси. Как сделать. А то шаб, первую часть отработал на ура(было добавлено порядка 3500 ссылок), а потом все... Требует прокси... Что можно сделать, куда посмотреть?
 

kveldulv

Client
Регистрация
08.05.2011
Сообщения
45
Благодарностей
16
Баллы
8
Thank you sir!
 

nomer8

Client
Регистрация
29.09.2009
Сообщения
14
Благодарностей
4
Баллы
3
Не могу понять что я сделал не так.
Добавил 200к урлов с 1.2к доменов. Некоторые могли быть мёртвыми, да, но не все же.
Проблема как у @Astraport - пусто в аутпуте. Делал так же - отключил фильтрацию и запустил, оставил на выходные в 50 потоков.
В самой базе тоже тайтлов нет.
база http://rgho.st/6ZKZlMjvn
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Не могу понять что я сделал не так.
Добавил 200к урлов с 1.2к доменов. Некоторые могли быть мёртвыми, да, но не все же.
Проблема как у @Astraport - пусто в аутпуте. Делал так же - отключил фильтрацию и запустил, оставил на выходные в 50 потоков.
В самой базе тоже тайтлов нет.
база http://rgho.st/6ZKZlMjvn
Так а что в логе то пишет?
Судя по всему просто урлы в базу добавились, парсинг даже не начался.
Попробуйте в ProjectMaker запустить проект и посмотрите куда пойдет.
В таблице "pages" все ссылки со status = "new", по ним даже не начат обход. Таблица titles просто пустая.
 
  • Спасибо
Реакции: nomer8

nomer8

Client
Регистрация
29.09.2009
Сообщения
14
Благодарностей
4
Баллы
3
Ого, такой быстрый ответ, я почему-то думал что ответ прийдётся ждать неделю. В любом случае, спасибки.
Так а что в логе то пишет?
Единственная ошибка которая есть в логе:
Выполнение действия CSharp OwnCode [FastSqliteHelper.Insert]: 'Ошибка: constraint failed
UNIQUE constraint failed: pages.url'. Last query: 'INSERT INTO pages (domain_id, url, status, is_index_page, attempts) VALUES(@param_domain_id, @param_url, @param_status, @param_is_index_page, @param_attempts)'
Попробуйте в ProjectMaker запустить проект и посмотрите куда пойдет.
Спасибо, чёт поленился сначала разбиратся и запускал с расчётом что всё само пойдёт.
Судя по логике шаблона, он сначала все урлы загоняет в базу, и только потом начинает парсить. У моего urls.txt было 2кк строк с урлами, а поставил на выполнение всего 200к. Соответсвенно все те 200к что я поставил на выполнение - просто добавлялись в базу. Сейчас проверяю как будет работать если убрать из urls.txt все строки, и тем самым пустить шаблон на путь парсинга.
Проверил. Тайтлы и h* в базе теперь есть.
Я правильно понимаю, что после того как шаблон пройдётся по всем ссылкам в базе, то только после этого начнёт фильтровать тайтлы и h* от мусора и покладёт результат в output?
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Ого, такой быстрый ответ, я почему-то думал что ответ прийдётся ждать неделю
Бывает и такое, я просто рядом с компом был)

Ошибка: constraint failed
UNIQUE constraint failed: pages.url'.
Указанный урл уже есть в базе, нужно было от дублей вначале почистить urls.txt чтоб такого не произошло :-) Но критичного ничего нет.

Судя по логике шаблона, он сначала все урлы загоняет в базу, и только потом начинает парсить
Верно.

У моего urls.txt было 2кк строк с урлами, а поставил на выполнение всего 200к.
В первом посте есть примерная формула расчёта того, сколько нужно выполнений шаблона выставлять :-)

Я правильно понимаю, что после того как шаблон пройдётся по всем ссылкам в базе, то только после этого начнёт фильтровать тайтлы и h* от мусора и покладёт результат в output?
Верно, после добавления ссылок в базу - пойдет парсинг, а уже после того как пройдёт парсинг - тогда уже чистить тайтлы будет и в итоге выдаст результат.
 
  • Спасибо
Реакции: nomer8

nomer8

Client
Регистрация
29.09.2009
Сообщения
14
Благодарностей
4
Баллы
3
Указанный урл уже есть в базе, нужно было от дублей вначале почистить urls.txt чтоб такого не произошло :-) Но критичного ничего нет.
чистил функцией зенки "удалить дубли". Где-то читал что зенка плохо работает со списками больше 1кк стандартными экшонами. Возможно это. Возможно вторая страница была с уникальным урлом но редиректом на первую которая уже есть в базе. Не критично, уже хорошо.
Верно, после добавления ссылок в базу - пойдет парсинг, а уже после того как пройдёт парсинг - тогда уже чистить тайтлы будет и в итоге выдаст результат.
Всё понятно, спасибо ещё раз!
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Всё понятно, спасибо ещё раз!
Расскажи потом как тебе результат работы шаблона)
А то много кто его протестил, но почти никто ничего не рассказал. А мне ж любопытно )))
 

nomer8

Client
Регистрация
29.09.2009
Сообщения
14
Благодарностей
4
Баллы
3
Расскажи потом как тебе результат работы шаблона)
А то много кто его протестил, но почти никто ничего не рассказал. А мне ж любопытно )))
мне в первую очередь для сплогов, где будет спиненый контент, а не для дорвеев и трафа.
Задача: максимум очеловечить текст под гугл, что б из индекса не выплёвывал веб20льки. Для этого собирался заюзать эти тайтлы, и внутри ещё проставлять h* человеческие.
Поэтому сильно сомневаюсь что мой опыт будет тебе релевантным, но как будут результаты обязательно сообщу!
 
  • Спасибо
Реакции: Astraport

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
мне в первую очередь для сплогов, где будет спиненый контент, а не для дорвеев и трафа.
Задача: максимум очеловечить текст под гугл, что б из индекса не выплёвывал веб20льки. Для этого собирался заюзать эти тайтлы, и внутри ещё проставлять h* человеческие.
Поэтому сильно сомневаюсь что мой опыт будет тебе релевантным, но как будут результаты обязательно сообщу!
Наоборот, такой опыт - даже лучше, т.к. он как раз будет покрывать ту часть, где я сам ничего не делал ))
Ну и мне в первую очередь качество работы шаблона интересно, насколько хорошо он справился со своей задачей. Понятно дело, что не будет идеального результата, но в целом по ощущениям - на сколько это будет лучше выборок из баз ключей и парсинга всяких вордстатов)
 
  • Спасибо
Реакции: nomer8

nomer8

Client
Регистрация
29.09.2009
Сообщения
14
Благодарностей
4
Баллы
3
Шаблон справился отлично, конечно пришлось чистить от мусора, но это ок.
Чисто по субьективным ощущениям: посты с тайтлами сидят в индексе чаще-лучше чем посты без них на моих сплогах.
Ещё раз спасибо за отличный шаблон!
 
  • Спасибо
Реакции: Lord_Alfred
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
Всем салют!
Через год только смог добрать до этого шаблона ))
Столкнулся тоже с тем что все урл в базу загружены и все. 1,5 суток колбасило.
Начал разбираться в ПМ и нашел
http://skrinshoter.ru/s/140419/gOV5VFCD?a
Нет ответа и урл помечается как не рабочий. Хотя открывается в браузере.
Может прокси дурят?
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Может прокси дурят?
А что именно в логе пишет, если убрать красную ветку от этого кубика?
Ну и вообще надо смотреть почему там с этими проксями пустой ответ валится. Может в кубике выше ошибка вылезла какая?

Так со всеми урлами на сколько я понял?
 
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
А что именно в логе пишет, если убрать красную ветку от этого кубика?
Это лог.. что было
Тип Время Сообщение
22:29:36 Установка значения переменной {-Variable.template_part-} Результат: part1
22:29:36 Начинаем загрузку конфигурации из файла:config.ini
22:29:36 Нашли секцию Project
22:29:36 наши параметр name
22:29:36 Переменная cfg_Project_name уже существует - присваиваем ей значение
22:29:36 наши параметр input_file
22:29:36 Переменная cfg_Project_input_file уже существует - присваиваем ей значение
22:29:36 наши параметр save_results
22:29:36 Переменная cfg_Project_save_results уже существует - присваиваем ей значение
22:29:36 наши параметр output_file
22:29:36 Переменная cfg_Project_output_file уже существует - присваиваем ей значение
22:29:36 наши параметр save_results_by_tag
22:29:36 Переменная cfg_Project_save_results_by_tag уже существует - присваиваем ей значение
22:29:36 наши параметр output_by_tag_dir
22:29:36 Переменная cfg_Project_output_by_tag_dir уже существует - присваиваем ей значение
22:29:36 наши параметр filter_output
22:29:36 Переменная cfg_Project_filter_output уже существует - присваиваем ей значение
22:29:36 наши параметр filter_file
22:29:36 Переменная cfg_Project_filter_file уже существует - присваиваем ей значение
22:29:36 наши параметр bad_data_dir
22:29:36 Переменная cfg_Project_bad_data_dir уже существует - присваиваем ей значение
22:29:36 наши параметр user_agents_file
22:29:36 Переменная cfg_Project_user_agents_file уже существует - присваиваем ей значение
22:29:36 наши параметр additional_headers_file
22:29:36 Переменная cfg_Project_additional_headers_file уже существует - присваиваем ей значение
22:29:36 Нашли секцию Checks
22:29:36 наши параметр response_attempts
22:29:36 Переменная cfg_Checks_response_attempts уже существует - присваиваем ей значение
22:29:36 наши параметр page_size_max
22:29:36 Переменная cfg_Checks_page_size_max уже существует - присваиваем ей значение
22:29:36 наши параметр data_max_length
22:29:36 Переменная cfg_Checks_data_max_length уже существует - присваиваем ей значение
22:29:36 наши параметр data_min_length
22:29:36 Переменная cfg_Checks_data_min_length уже существует - присваиваем ей значение
22:29:36 наши параметр skip_index_pages
22:29:36 Переменная cfg_Checks_skip_index_pages уже существует - присваиваем ей значение
22:29:36 наши параметр min_pages_for_check
22:29:36 Переменная cfg_Checks_min_pages_for_check уже существует - присваиваем ей значение
22:29:36 Нашли секцию Tags
22:29:36 наши параметр title_selector
22:29:36 Переменная cfg_Tags_title_selector уже существует - присваиваем ей значение
22:29:36 наши параметр title_result_stored
22:29:36 Переменная cfg_Tags_title_result_stored уже существует - присваиваем ей значение
22:29:36 наши параметр title_clean_algo
22:29:36 Переменная cfg_Tags_title_clean_algo уже существует - присваиваем ей значение
22:29:36 наши параметр title_clean_params
22:29:36 Переменная cfg_Tags_title_clean_params уже существует - присваиваем ей значение
22:29:36 наши параметр og_title_selector
22:29:36 Переменная cfg_Tags_og_title_selector уже существует - присваиваем ей значение
22:29:36 наши параметр og_title_result_stored
22:29:36 Переменная cfg_Tags_og_title_result_stored уже существует - присваиваем ей значение
22:29:36 наши параметр og_title_clean_algo
22:29:36 Переменная cfg_Tags_og_title_clean_algo уже существует - присваиваем ей значение
22:29:36 наши параметр og_title_clean_params
22:29:36 Переменная cfg_Tags_og_title_clean_params уже существует - присваиваем ей значение
22:29:36 наши параметр twitter_title_selector
22:29:36 Переменная cfg_Tags_twitter_title_selector уже существует - присваиваем ей значение
22:29:36 наши параметр twitter_title_result_stored
22:29:36 Переменная cfg_Tags_twitter_title_result_stored уже существует - присваиваем ей значение
22:29:36 наши параметр twitter_title_clean_algo
22:29:36 Переменная cfg_Tags_twitter_title_clean_algo уже существует - присваиваем ей значение
22:29:36 наши параметр twitter_title_clean_params
22:29:36 Переменная cfg_Tags_twitter_title_clean_params уже существует - присваиваем ей значение
22:29:36 наши параметр h1_selector
22:29:36 Переменная cfg_Tags_h1_selector уже существует - присваиваем ей значение
22:29:36 наши параметр h1_result_stored
22:29:36 Переменная cfg_Tags_h1_result_stored уже существует - присваиваем ей значение
22:29:36 наши параметр h1_clean_algo
22:29:36 Переменная cfg_Tags_h1_clean_algo уже существует - присваиваем ей значение
22:29:36 наши параметр h1_clean_params
22:29:36 Переменная cfg_Tags_h1_clean_params уже существует - присваиваем ей значение
22:29:36 наши параметр h2_selector
22:29:36 Переменная cfg_Tags_h2_selector уже существует - присваиваем ей значение
22:29:36 наши параметр h2_result_stored
22:29:36 Переменная cfg_Tags_h2_result_stored уже существует - присваиваем ей значение
22:29:36 наши параметр h2_clean_algo
22:29:36 Переменная cfg_Tags_h2_clean_algo уже существует - присваиваем ей значение
22:29:36 наши параметр h2_clean_params
22:29:36 Переменная cfg_Tags_h2_clean_params уже существует - присваиваем ей значение
22:29:36 наши параметр h3_selector
22:29:36 Переменная cfg_Tags_h3_selector уже существует - присваиваем ей значение
22:29:36 наши параметр h3_result_stored
22:29:36 Переменная cfg_Tags_h3_result_stored уже существует - присваиваем ей значение
22:29:36 наши параметр h3_clean_algo
22:29:36 Переменная cfg_Tags_h3_clean_algo уже существует - присваиваем ей значение
22:29:36 наши параметр h3_clean_params
22:29:36 Переменная cfg_Tags_h3_clean_params уже существует - присваиваем ей значение
22:29:36 наши параметр h4_selector
22:29:36 Переменная cfg_Tags_h4_selector уже существует - присваиваем ей значение
22:29:36 наши параметр h4_result_stored
22:29:36 Переменная cfg_Tags_h4_result_stored уже существует - присваиваем ей значение
22:29:36 наши параметр h4_clean_algo
22:29:36 Переменная cfg_Tags_h4_clean_algo уже существует - присваиваем ей значение
22:29:36 наши параметр h4_clean_params
22:29:36 Переменная cfg_Tags_h4_clean_params уже существует - присваиваем ей значение
22:29:36 наши параметр h5_selector
22:29:36 Переменная cfg_Tags_h5_selector уже существует - присваиваем ей значение
22:29:36 наши параметр h5_result_stored
22:29:36 Переменная cfg_Tags_h5_result_stored уже существует - присваиваем ей значение
22:29:36 наши параметр h5_clean_algo
22:29:36 Переменная cfg_Tags_h5_clean_algo уже существует - присваиваем ей значение
22:29:36 наши параметр h5_clean_params
22:29:36 Переменная cfg_Tags_h5_clean_params уже существует - присваиваем ей значение
22:29:36 наши параметр h6_selector
22:29:36 Переменная cfg_Tags_h6_selector уже существует - присваиваем ей значение
22:29:36 наши параметр h6_result_stored
22:29:36 Переменная cfg_Tags_h6_result_stored уже существует - присваиваем ей значение
22:29:36 наши параметр h6_clean_algo
22:29:36 Переменная cfg_Tags_h6_clean_algo уже существует - присваиваем ей значение
22:29:36 наши параметр h6_clean_params
22:29:36 Переменная cfg_Tags_h6_clean_params уже существует - присваиваем ей значение
22:29:36 Выполнение кода C# Результат: ok
22:29:36 -->> Загружаем конфиг + изменяем пути в переменных для удобства
22:29:36 Вызов оповещения Результат: ok
22:29:36 Выполнение кода C# Результат: ok
22:29:36 Привязка списка к файлy Результат: ok
22:29:36 Получение количества элементов в списке Результат: 0
22:29:37 -->> Получаем количество ссылок, которые нужно добавить в базу
22:29:37 Вызов оповещения Результат: ok
22:29:37 Установка значения переменной {-Variable.template_part-} Результат: part2
22:29:37 Выполнение кода C# Результат: ok
22:29:37 -->> Подключаемся к базе и разбираем теги
22:29:37 Вызов оповещения Результат: ok
22:29:37 Получили имена тегов: title, h1, h2, h3, h4, h5, h6, og_title, twitter_title
22:29:37 Сохранили в контекст: title, h1, h2, h3, h4, h5, h6, og_title, twitter_title
22:29:37 Выполнение кода C# Результат: ok
22:29:38 Выполнение кода C# Результат: 40331
22:29:38 Выполнение логического оператора If Результат: True
22:29:38 Выполнение кода C# Результат: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:49.0.2) Gecko/20100101 Firefox/49.0.2
22:29:38 "Выполнение кода C# Результат: Accept-Language: de-DE,de;q=0.5
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
22:29:38 Получение новой прокси Результат: http://199.21.97.210:80
22:29:38 Выполнение кода C# Результат: ok
22:29:38 -->> Получаем данные о ссылке из базы
22:29:38 Вызов оповещения Результат: ok
22:29:39 Выполнение HTTP-запроса Результат: ok
22:29:39 Выполнение кода C# Результат: ok
22:29:39 Выполнение кода C# Результат: ok
22:29:39 -->> Отключаемся от базы
22:29:39 Вызов оповещения Результат: ok
22:34:30 Выполнение HTTP-запроса Результат: ok
22:36:43 Установка значения переменной {-Variable.template_part-} Результат: part1
22:36:43 Начинаем загрузку конфигурации из файла:config.ini
22:36:43 Нашли секцию Project
22:36:43 наши параметр name
22:36:43 Переменная cfg_Project_name уже существует - присваиваем ей значение
22:36:43 наши параметр input_file
22:36:43 Переменная cfg_Project_input_file уже существует - присваиваем ей значение
22:36:43 наши параметр save_results
22:36:43 Переменная cfg_Project_save_results уже существует - присваиваем ей значение
22:36:43 наши параметр output_file
22:36:43 Переменная cfg_Project_output_file уже существует - присваиваем ей значение
22:36:43 наши параметр save_results_by_tag
22:36:43 Переменная cfg_Project_save_results_by_tag уже существует - присваиваем ей значение
22:36:43 наши параметр output_by_tag_dir
22:36:43 Переменная cfg_Project_output_by_tag_dir уже существует - присваиваем ей значение
22:36:43 наши параметр filter_output
22:36:43 Переменная cfg_Project_filter_output уже существует - присваиваем ей значение
22:36:43 наши параметр filter_file
22:36:43 Переменная cfg_Project_filter_file уже существует - присваиваем ей значение
22:36:43 наши параметр bad_data_dir
22:36:43 Переменная cfg_Project_bad_data_dir уже существует - присваиваем ей значение
22:36:43 наши параметр user_agents_file
22:36:43 Переменная cfg_Project_user_agents_file уже существует - присваиваем ей значение
22:36:43 наши параметр additional_headers_file
22:36:43 Переменная cfg_Project_additional_headers_file уже существует - присваиваем ей значение
22:36:43 Нашли секцию Checks
22:36:43 наши параметр response_attempts
22:36:43 Переменная cfg_Checks_response_attempts уже существует - присваиваем ей значение
22:36:43 наши параметр page_size_max
22:36:43 Переменная cfg_Checks_page_size_max уже существует - присваиваем ей значение
22:36:43 наши параметр data_max_length
22:36:43 Переменная cfg_Checks_data_max_length уже существует - присваиваем ей значение
22:36:43 наши параметр data_min_length
22:36:43 Переменная cfg_Checks_data_min_length уже существует - присваиваем ей значение
22:36:43 наши параметр skip_index_pages
22:36:43 Переменная cfg_Checks_skip_index_pages уже существует - присваиваем ей значение
22:36:43 наши параметр min_pages_for_check
22:36:43 Переменная cfg_Checks_min_pages_for_check уже существует - присваиваем ей значение
22:36:43 Нашли секцию Tags
22:36:43 наши параметр title_selector
22:36:43 Переменная cfg_Tags_title_selector уже существует - присваиваем ей значение
22:36:43 наши параметр title_result_stored
22:36:43 Переменная cfg_Tags_title_result_stored уже существует - присваиваем ей значение
22:36:43 наши параметр title_clean_algo
22:36:43 Переменная cfg_Tags_title_clean_algo уже существует - присваиваем ей значение
22:36:43 наши параметр title_clean_params
22:36:43 Переменная cfg_Tags_title_clean_params уже существует - присваиваем ей значение
22:36:43 наши параметр og_title_selector
22:36:43 Переменная cfg_Tags_og_title_selector уже существует - присваиваем ей значение
22:36:43 наши параметр og_title_result_stored
22:36:43 Переменная cfg_Tags_og_title_result_stored уже существует - присваиваем ей значение
22:36:43 наши параметр og_title_clean_algo
22:36:43 Переменная cfg_Tags_og_title_clean_algo уже существует - присваиваем ей значение
22:36:43 наши параметр og_title_clean_params
22:36:43 Переменная cfg_Tags_og_title_clean_params уже существует - присваиваем ей значение
22:36:43 наши параметр twitter_title_selector
22:36:43 Переменная cfg_Tags_twitter_title_selector уже существует - присваиваем ей значение
22:36:43 наши параметр twitter_title_result_stored
22:36:43 Переменная cfg_Tags_twitter_title_result_stored уже существует - присваиваем ей значение
22:36:43 наши параметр twitter_title_clean_algo
22:36:43 Переменная cfg_Tags_twitter_title_clean_algo уже существует - присваиваем ей значение
22:36:43 наши параметр twitter_title_clean_params
22:36:43 Переменная cfg_Tags_twitter_title_clean_params уже существует - присваиваем ей значение
22:36:43 наши параметр h1_selector
22:36:43 Переменная cfg_Tags_h1_selector уже существует - присваиваем ей значение
22:36:43 наши параметр h1_result_stored
22:36:43 Переменная cfg_Tags_h1_result_stored уже существует - присваиваем ей значение
22:36:43 наши параметр h1_clean_algo
22:36:43 Переменная cfg_Tags_h1_clean_algo уже существует - присваиваем ей значение
22:36:43 наши параметр h1_clean_params
22:36:43 Переменная cfg_Tags_h1_clean_params уже существует - присваиваем ей значение
22:36:43 наши параметр h2_selector
22:36:43 Переменная cfg_Tags_h2_selector уже существует - присваиваем ей значение
22:36:43 наши параметр h2_result_stored
22:36:43 Переменная cfg_Tags_h2_result_stored уже существует - присваиваем ей значение
22:36:43 наши параметр h2_clean_algo
22:36:43 Переменная cfg_Tags_h2_clean_algo уже существует - присваиваем ей значение
22:36:43 наши параметр h2_clean_params
22:36:43 Переменная cfg_Tags_h2_clean_params уже существует - присваиваем ей значение
22:36:43 наши параметр h3_selector
22:36:43 Переменная cfg_Tags_h3_selector уже существует - присваиваем ей значение
22:36:43 наши параметр h3_result_stored
22:36:43 Переменная cfg_Tags_h3_result_stored уже существует - присваиваем ей значение
22:36:43 наши параметр h3_clean_algo
22:36:43 Переменная cfg_Tags_h3_clean_algo уже существует - присваиваем ей значение
22:36:43 наши параметр h3_clean_params
22:36:43 Переменная cfg_Tags_h3_clean_params уже существует - присваиваем ей значение
22:36:43 наши параметр h4_selector
22:36:43 Переменная cfg_Tags_h4_selector уже существует - присваиваем ей значение
22:36:43 наши параметр h4_result_stored
22:36:43 Переменная cfg_Tags_h4_result_stored уже существует - присваиваем ей значение
22:36:43 наши параметр h4_clean_algo
22:36:43 Переменная cfg_Tags_h4_clean_algo уже существует - присваиваем ей значение
22:36:43 наши параметр h4_clean_params
22:36:43 Переменная cfg_Tags_h4_clean_params уже существует - присваиваем ей значение
22:36:43 наши параметр h5_selector
22:36:43 Переменная cfg_Tags_h5_selector уже существует - присваиваем ей значение
22:36:43 наши параметр h5_result_stored
22:36:43 Переменная cfg_Tags_h5_result_stored уже существует - присваиваем ей значение
22:36:43 наши параметр h5_clean_algo
22:36:43 Переменная cfg_Tags_h5_clean_algo уже существует - присваиваем ей значение
22:36:43 наши параметр h5_clean_params
22:36:43 Переменная cfg_Tags_h5_clean_params уже существует - присваиваем ей значение
22:36:43 наши параметр h6_selector
22:36:43 Переменная cfg_Tags_h6_selector уже существует - присваиваем ей значение
22:36:43 наши параметр h6_result_stored
22:36:43 Переменная cfg_Tags_h6_result_stored уже существует - присваиваем ей значение
22:36:43 наши параметр h6_clean_algo
22:36:43 Переменная cfg_Tags_h6_clean_algo уже существует - присваиваем ей значение
22:36:43 наши параметр h6_clean_params
22:36:43 Переменная cfg_Tags_h6_clean_params уже существует - присваиваем ей значение
22:36:43 Выполнение кода C# Результат: ok
22:36:43 -->> Загружаем конфиг + изменяем пути в переменных для удобства
22:36:43 Вызов оповещения Результат: ok
22:36:44 Выполнение кода C# Результат: ok
22:36:44 Привязка списка к файлy Результат: ok
22:36:44 Получение количества элементов в списке Результат: 0
22:36:44 -->> Получаем количество ссылок, которые нужно добавить в базу
22:36:44 Вызов оповещения Результат: ok
22:36:44 Установка значения переменной {-Variable.template_part-} Результат: part2
22:36:44 Выполнение кода C# Результат: ok
22:36:44 -->> Подключаемся к базе и разбираем теги
22:36:44 Вызов оповещения Результат: ok
22:36:44 Получили имена тегов: title, h1, h2, h3, h4, h5, h6, og_title, twitter_title
22:36:44 Сохранили в контекст: title, h1, h2, h3, h4, h5, h6, og_title, twitter_title
22:36:44 Выполнение кода C# Результат: ok
22:36:45 Выполнение кода C# Результат: 40330
22:36:45 Выполнение логического оператора If Результат: True
22:36:45 Выполнение кода C# Результат: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:49.0.2) Gecko/20100101 Firefox/49.0.2
22:36:45 "Выполнение кода C# Результат: Accept-Language: de-DE,de;q=0.5
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
22:36:45 Получение новой прокси Результат: http://104.28.2.16:80
22:36:45 Выполнение кода C# Результат: ok
22:36:45 -->> Получаем данные о ссылке из базы
22:36:45 Вызов оповещения Результат: ok
22:36:46 Выполнение HTTP-запроса Результат: ok
22:37:12 Получение новой прокси Результат: http://104.28.23.46:80
22:37:15 Выполнение кода C# Результат: ok
22:37:16 -->> Получаем данные о ссылке из базы
22:37:16 Вызов оповещения Результат: ok
22:37:17 Выполнение HTTP-запроса Результат: ok
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
В логе всё ок, смотри что именно с прокси и с урлом )
 
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
  • Спасибо
Реакции: Сибиряк
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
Обновил все прокси. Заработало
 
  • Спасибо
Реакции: Lord_Alfred
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
Последнее редактирование:

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 226
Баллы
113
А вот интересно, если жертвы/доноры прячутся за cloudflare или имеют какую-нибудь свою скриптовую защиту от ботов, что спарсит шаблон на гет-запросах?
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Вообще ничего в output? Скинь мне в личку sqlite базу заархивированную

А вот интересно, если жертвы/доноры прячутся за cloudflare или имеют какую-нибудь свою скриптовую защиту от ботов, что спарсит шаблон на гет-запросах?
Логично, что ничего не спарсит :-)
 
  • Спасибо
Реакции: zortexx

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
UPD по проблеме @Сибиряка:

Всё дело в том, что в конфиге была включена фильтрация - настройка "filter_output" (включить в результаты только строки, содержащие данные из фильтра), а в файле со списком строк для фильтрации (настройка "filter_file") - пусто.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)