1 место Универсальный экстрактор™ контента (основной статьи страницы)

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Коллеги, подскажите, что пофиксить?
Скорее всего тут поможет только ап зенки.. Внутри шаблона нет ничего такого, что могло бы привести к этой ошибке. Поэтому скорее всего просто проблема в том что я создал его в более новой версии где есть что-то такое, что отбрыкивает ошибкой на старой версии.
 
  • Спасибо
Реакции: zennoman

slcor

Client
Регистрация
08.03.2010
Сообщения
25
Благодарностей
13
Баллы
3
  • Спасибо
Реакции: zennoman и Lord_Alfred

zennoman

Client
Регистрация
14.09.2012
Сообщения
35
Благодарностей
25
Баллы
18
  • Спасибо
Реакции: Lord_Alfred

Juniorcpa

Client
Регистрация
27.05.2014
Сообщения
2 031
Благодарностей
1 286
Баллы
113
Боже, 100 голосов. Грац Лорд, техничка всегда в тренде :-)
 
  • Спасибо
Реакции: Lord_Alfred

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Боже, 100 голосов. Грац Лорд, техничка всегда в тренде :-)
99 пока.. :bn:
Но я сам сижу всю неделю офигеваю от голосования... Из всех моих конкурсных работ - эта заняла самое меньшее время на разработку )
Видимо, многим оказалось полезно :-)
 

infosimple

Client
Регистрация
01.01.2015
Сообщения
427
Благодарностей
61
Баллы
28
Буду сотым)
 
  • Спасибо
Реакции: Lord_Alfred

Nike59

Client
Регистрация
05.08.2011
Сообщения
122
Благодарностей
122
Баллы
43
За "соточку" перевалило голосование за статью. Респект автору! Мало кому удавался такой результат.
 
  • Спасибо
Реакции: frion-seo и Lord_Alfred

frion-seo

Client
Регистрация
27.02.2011
Сообщения
538
Благодарностей
470
Баллы
63
Респект! Спасибо за старания!
 
  • Спасибо
Реакции: Nike59 и Lord_Alfred

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Всем большое спасибо! :bp:
Не зря старался, буду продолжать вас радовать своими наработками в рамках конкурсов и просто так :az:
 

vesb

Client
Регистрация
13.03.2010
Сообщения
139
Благодарностей
18
Баллы
18
@Lord_Alfred

А вы не можете подсказать, для чего вот эта конструкция.
Получается при запуске обрабатывается 50 ссылок, но при этом можно запускать в многопоток. Для чего это сделано? ведь можно поставить самим "сделать 50 шт"
7ef3f2ee4d.png
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Получается при запуске обрабатывается 50 ссылок, но при этом можно запускать в многопоток. Для чего это сделано?
Как написано выше в комменте - это парсинг кусками, чтоб ускорить работу.
Я не уверен в том, что открытие и привязка списка в ZP при старте потока (в многопотоке) - это "дешёвая" операция, которая не требует лишних накладных расходов, поэтому (по моему мнению!) - так будет быстрее парсится.
Но, конечно, нужно бенчить оба варианта - может быть там не будет большой разницы, поэтому можно было бы и просто через потоки регулировать количество.
 
  • Спасибо
Реакции: vesb

Rampage

Client
Регистрация
14.11.2013
Сообщения
36
Благодарностей
8
Баллы
8
Годнота, когда-то делал генератор статейников под гугл адсенс. Только использовал API разных читалок для парсинга текста(На тот момент результаты были лучше чем с либ и самодельных велосипедов).
При комплексном подходе получалось добывать трафик в норм обьемах.
 
  • Спасибо
Реакции: Lord_Alfred

dohrelion

Client
Регистрация
22.03.2018
Сообщения
130
Благодарностей
37
Баллы
28
ого-го. этот автор сильный мозг, все его посты вызывают у меня зуд в мозгах. Достойная победа.
 
  • Спасибо
Реакции: Lord_Alfred

Zoron

Client
Регистрация
24.09.2014
Сообщения
145
Благодарностей
39
Баллы
28
>Эвристический метод для определения бинарных данных
@Lord_Alfred, подскажи, что это за метод и для чего нужен?

Я так понимаю, удаляет статьи, где много бинарных символов, типа +-%/ и прочие?
 
Последнее редактирование:

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Я так понимаю, удаляет статьи, где много бинарных символов, типа +-%/ и прочие?
Да, удаляет целиком весь контент если там много (больше 15%) символов regex-классов: \p{P}\p{S}\p{C}, за исключением хороших пунктуационных символов (как раз которые ты указал, ну и других).

Внутри шаблона я оставил urlы на документацию, которой пользовался. Может быть у кого-то по ней и лучше идеи появятся как качественнее фильтровать всякую жесть :-)
 
  • Спасибо
Реакции: Zoron

russya

Client
Регистрация
08.07.2014
Сообщения
743
Благодарностей
78
Баллы
28

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113

russya

Client
Регистрация
08.07.2014
Сообщения
743
Благодарностей
78
Баллы
28

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113

jcknick

Client
Регистрация
10.05.2013
Сообщения
154
Благодарностей
9
Баллы
18
@Lord_Alfred, оочень подозреваю, это то, что я искал последние годы :-)) Надо как-то ее протестить в полевых условиях, правда...

Вопрос 1: Будет ли этот парсер обновляться по мере развития движков и т.п.?
Вопрос 2: Прочел всю тему, все возможные проблемы и решения, и в результате все равно уперся в вот это:

52452


52453
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Вопрос 1: Будет ли этот парсер обновляться по мере развития движков и т.п.?
Да, потому что он не мой :D

Вопрос 2: Прочел всю тему, все возможные проблемы и решения, и в результате все равно уперся в вот это:
А readability_cli.exe точно скомилированный лежит рядом?
Если через cmd.exe его запустить, то выведет результат как показано в стартпосте?
 

jcknick

Client
Регистрация
10.05.2013
Сообщения
154
Благодарностей
9
Баллы
18
А readability_cli.exe точно скомилированный лежит рядом?
Если через cmd.exe его запустить, то выведет результат как показано в стартпосте?
Да и да..

52456


52457


Единственное, что я зенку почти год не обновлял.. Может быть в этом причина? Винда на VirtualBox еще.
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Единственное, что я зенку почти год не обновлял.. Может быть в этом причина? Винда на VirtualBox еще.
Нет, вряд ли.

Попробуй другие урлы. Мне кажется, что там какая-то бага с тем адресом вылезла (лень перебивать его руками с картинки и тестить), я уже не одну сотню тысяч страниц спарсил и не видел чтоб так валилось всё
 

jcknick

Client
Регистрация
10.05.2013
Сообщения
154
Благодарностей
9
Баллы
18
Пробовал. У меня уже десятки тысяч урлов заготовлены под это дело :-) Ни один урл не сработал. И в папке кэш тоже создаются только папки под именем доменов, никаких временных текстовых файлов в них не вижу.
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Что в переменной "cmd_stdout" после запуска кубика "Run program"?
 

jcknick

Client
Регистрация
10.05.2013
Сообщения
154
Благодарностей
9
Баллы
18

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Даже если взять прям оригинальный мой проект (файлы шаблонов) из стартпоста и запустить на тех же урлах? Такое чувство что где-то что-то было подредактировано, поэтому валится с ошибкой.
 

jcknick

Client
Регистрация
10.05.2013
Сообщения
154
Благодарностей
9
Баллы
18
Я оттуда и взял.. Единственное, что сделал - это скопировал в новые проекты, как ты в форуме рекомендовал, чтобы скинуть возможные несовпадения по версиям в зенно.

Прямо перед "Run Program" блоком, у меня вот это в переменных творится - домен исправил для "приватности":

52459


Стоит отметить, что в url_filepath - временного .txt файла нет.
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Стоит отметить, что в url_filepath - временного .txt файла нет.
Там итоговый должен появиться ) Временный - это response_body_filepath

Распакуй содержимое этого архива по соседству со всеми файлами и запусти батник.
Покажи что он выведет.
И проверь появится ли test_out.txt файл по соседству.
 

Вложения

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 866
Баллы
113
Я оттуда и взял.. Единственное, что сделал - это скопировал в новые проекты, как ты в форуме рекомендовал, чтобы скинуть возможные несовпадения по версиям в зенно.
А у тебя был проблема как у юзера страницей раньше или ты просто так всё скопировал?

Попробуй без копирований этих. Они нужны только совсем с древним ZP, где ошибки валятся как у https://zennolab.com/discussion/threads/universalnyj-ehkstraktor-tm-kontenta-osnovnoj-stati-stranicy.75657/post-510141
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)