WebArchiveMaster - парсер Вебархива

Bahus · 08.12.2017

Зависает что-то Контент-вотч периодически

footashes · 08.12.2017

Вы получили сегодня обновление? Последнее обновление решает эту проблему. Дело в том, что проверка чекера прокси вызывало зависание из-за самого зависания сервиса (такое не было предусмотрено, так-как фирма серьёзная.). Или это что-то другое? Из-за сбоя компьютера обновление дошло не до всех. Сбросьте свой емейл в личку или на почту. Ручная проверка через браузер показывает то-же самое. Кстати, сейчас можно использовать прокси из встроенного проксичекера и своих прокси. Спасибо неравнодушным, кто хочет улучшений.
Можно сделать проверку прокси через другой сервис или средствами Зенно, чтобы ни от кого не зависеть.
Можете проверить чекер https://hidemy.name/ru/proxy-checker/ и отписаться.
Чуть позже выложу видео парсинга прокси из встроенного в Зеннопостер проксичекера (напишите, нужно это или нет).

Вот проверка через обычный браузер. Что-то у них сломалось, надеюсь, ненадолго. Такое висит уже целый день.

StarLight · 08.12.2017

footashes написал(а):
Что-то у них сломалось, надеюсь, ненадолго. Такое ваисит ужу целый день

Поэтому я и говорю что нужно использовать встроенный алгоритм проверки уникальности, чтобы не надеяться

footashes · 08.12.2017

Как ни прискорбно, но на этот раз ты прав. Вот только вся эта система заработает если не сегодня-завтра, а ты как был лузером, так и останешся, Ну или решится как нибудь без тебя.

ailebedev · 08.12.2017

Скрипт на хостинге. И в scraper и в настройках проекта менял все и я так понимаю через раз работает

StarLight · 08.12.2017

footashes написал(а):
был лузером, так и останешся

приятно познакомиться

footashes написал(а):
нибудь без тебя

конечно без меня, скоро выкачу пабликаналог. опенсорс

буддь здоров

footashes · 08.12.2017

И тебе привет, старлаут
Неоднократно было

ailebedev написал(а):
Скрипт на хостинге. И в scraper и в настройках проекта менял все и я так понимаю через раз работает

Всё работает чётко. я неоднократно объяснял, что нужно использовать Опен Сервер на своём компьютере - то, что обработчик работает через раз на непонятном хостинге не говорит, что он работает неправильно.

StarLight · 08.12.2017

footashes написал(а):
старлаут

...и пять по английскому
как же ты софт пишешь по eng таким скилом

footashes · 08.12.2017

Забей, это был стёб. Ну и вот тебе, для... (сам придумаешь) - http://www.alleng.ru/d/rusl/rusl683.htm. Блядь, ты следишь за мной?http://www.alleng.ru/d/rusl/rusl683.htm

ailebedev · 08.12.2017

Опенсервер запущен. Папка со скриптом по заданному домену запущена и открывается в браузере. В файлике "C:\bots\WebArchiveMasters\scraper.txt" указан этот домен со скриптом. Все равно не работает, не пойму почему

footashes · 08.12.2017

Судя по нестандартным ошибкам даже из скриншота, что-то у вас не так. Не в моих правилах, но давайте я посмотрю через TeamViewer.

footashes · 08.12.2017

Вот у меня через Опен сервер. Всё как и должно быть, без сбоев.

ibelieve · 08.12.2017

Только вчера добрались руки затестить шаблоны. За несколько часов достал уйму уник текста! Спасибо footashes за шабы и за то, что оставил их открытыми! Кое-что подправил под себя.

footashes · 09.12.2017

footashes написал(а):
Судя по нестандартным ошибкам даже из скриншота, что-то у вас не так. Не в моих правилах, но давайте я посмотрю через TeamViewer.

Извиняюсь, запустил TeamViewer, он попросил обновиться и компьютер ушел в синий экран. Только сейчас удалось восстановить систему, нужно бы переустановить уже давно, но слишком много программ требует перепривязки после переустановки, придется пока так. Если ещё актуально, напишите на почту.

StarLight · 09.12.2017

чужие программы требуют перепривязки. привет матёрым кодерам

footashes · 11.12.2017

StarLight написал(а):
чужие программы требуют перепривязки. привет матёрым кодерам

Ну да, типа хрума, зенно и т.д. Иди лучше свою админку доделай.

footashes · 11.12.2017

Ребята, эти шаблоны должны быть у вас маст хэв, все темы дохнут, а Вебархив вас будет кормить до конца жизни.

footashes · 12.12.2017

Обновление проверки на плагиат через Text.ru и Content-watch.

Сейчас в приоритете использование встроенного проксичекера со своими источниками. Как работать с чекером, смотрите в справке Зеннопостер.

На данный момент логика такая - берем прокси из проксичекера (сейчас приоритет сместился именно на него, спасибо пользователям, которые предлагают идеи, как им будет более удобно работать), затем проверяет файл My_proxys на наличие прокси (если у вас есть список своих прокси), и затем, если ничего не нашлось, включается резервный вариант - забрать прокси онлайн и проверить их на работоспособность.

Но в связи с тем, что чекер https://hidemy.name/ru/proxy-checker/ стал периодически подвисать, будет добавлен ещё один резервный вариант, который включится, если ничего не сработает. Повторяю, что это всё резервные варианты - сейчас приоритет у встроенного проксичекера с вашими паблик-источниками (которые у всех свои, в этом и смысл).

Завтра напишу помощь и всем разошлю новый вариант проверки на уникальность.
P.S.
Сейчас внезапно именно в декабре у всех свадьбы, дни рождения, похороны, Новый год, поэтому, если я кому то где то что то не то написал и спросил, прошу отнестись с пониманием. Больше так делать не буду. Хотя ничего не обещаю.

footashes · 12.12.2017

Поступило предложение совместить парсинг текста и проверку на уникальность. Такой комбайн - берется несколько статей с домена и проверяется на уникальность, если уникальность высокая, то парсятся все статьи, иначе проверяется следующий домен. Она будет идти в дополнение, возможно, кому-то так будет удобнее.

ailebedev · 12.12.2017

Да, это будет намного удобнее и меньше действий в итоге

footashes · 12.12.2017

Хорошо, разберусь с проксичекером и займусь.

ailebedev · 13.12.2017

Вот за это "Перед каждым файлом пишется процент уникальности - например, Уникальность 0_13% - ваш текст.txt или Уникальность 83_04%" огромное спасибо.
От 70% уника можно доработать до 100% уник и использовать в работе

Xamius · 13.12.2017

А вот это ошибка почему выскакивает?
Warning : DOMElement::setAttribute(): ID readability-content already defined in C:\Users\root\Desktop\OpenServer\domains\localhost\libraries\readability\Readability.php on line 697

footashes · 13.12.2017

Xamius написал(а):
А вот это ошибка почему выскакивает?
Warning : DOMElement::setAttribute(): ID readability-content already defined in C:\Users\root\Desktop\OpenServer\domains\localhost\libraries\readability\Readability.php on line 697

У вас должна быть последняя версия OpenServer. Или залейте скрипт на хостинг, такая ошибка бывает, когда не хватает библиотеки на локальном сервере.

footashes · 13.12.2017

Готова резервная проверка прокси, если чекер по каким-то причинам не будет работать. Разошлю завтра, нужно протестировать на объемах. Также готова помощь, многое переписано и добавлено. Можно её скачать сейчас.

Насчет совмещения скачивания текста и выборочной проверки на уникальность - возникли неожиданные технические проблемы, хотя, казалось бы - всё очень просто; причем такие, что дальнейшая разработка о совмещении под вопросом, так-как не имеет смысла. Попробуем разобрать некоторые:

Берем несколько статей и проверяем на уникальность - сразу проблема - нужно взять несколько ссылок и прогнать их через фильтрацию, чтобы на начальном этапе отсечь мусор, вероятность, что из этих нескольких ссылок мусором окажутся все, запредельная. Значит, это нужно учесть - создание лишних списков, чтобы не затронуть основной, логика, циклы и т.д. Дальше, отфильтровали ссылки и пошли брать текст для проверки - вот только то, что есть ссылка, значит, будет текст, с Вебархивом не работает - этот текст он давно мог просто удалить, потребуется проверка через снепшоты, а это лишний запрос и время с, наверняка, нулевым результатом.

Дальше ещё веселее - учет уника и неуника. Есть большая вероятность, что из оставшихся на проверку 4-5 статей могут оказаться уником, а весь остальной сайт копипастой и наоборот. Данные придется хранить в памяти плюс особо важные писать в файлы конфигурации. Ещё прокси - они могут попасться крайне медленными и то время, за которое скачался бы текст с сайта, будут проверены 3-4 статьи (прокси и загруженность сервиса, что неконтролируемо).

Не менее важно, что всё учесть невозможно, и одна неучтенная ошибка разбалансирует всю систему, после чего баги полезут как тараканы со всех щелёй. Придется всё это тестировать и отлаживать на ходу, что неприемлемо - получится слишком громоздко.

В принципе, все шаблоны открыты и вы можете подогнать это всё для себя, и тестировать также на себе. Я ещё подумаю, как это всё правильно сделать, но, по-моему, всё оказалось гораздо сложней. Это всё на опыте, я знаю, что обязательно произойдет что-то неучтенное и нестандартное.

Да, лучше работать на своих прокси, даже пабликах. Проверка - один поток - одна папка, чтобы не было пересечений, что будет при пересечении потоков, без понятия, но что-то будет.

Да, и поаккуратнее с восстановлением сайтов - если видите, что текст очень хороший, но на скачивание его слишком много - значит, там залит дорвей и сайт просто бросили. Лучше отсекать текст.

Xamius · 13.12.2017

Ошибка лезет, что значит?

footashes · 14.12.2017

Xamius написал(а):
Ошибка лезет, что значит?

Сбросьте id ошибки, так ничего не понятно. Если бесшаблонный парсер стоит на сервере, возможно, из-за пинга просто не успевает отвечать. Установите новую версию Open Server у себя. Может, слишком загружен процессор или нехватка памяти.

footashes · 14.12.2017

С Дзеном усиленно никто не работал? Попробовал, что-то слабовато. Хотел запулить текстов из Вебархива - сейчас там жестко, нужен только уникальный текст - https://zen.yandex.ru/media/id/5989816de86a9e47babe5719.

martner · 14.12.2017

footashes написал(а):
С Дзеном усиленно никто не работал? Попробовал, что-то слабовато. Хотел запулить текстов из Вебархива - сейчас там жестко, нужен только уникальный текст - https://zen.yandex.ru/media/id/5989816de86a9e47babe5719.
Посмотреть вложение 25362

Привет!
Отпиши, пожалуйста, в ЛС (на счет покупки шаблона)

footashes · 14.12.2017

Всем отправил. Обновлены Content-watch и Textru (добавлен резервный чекер прокси, обновление не критичное, на случай сбоя основного чекера). Если кому-то не пришло, пишите в ЛС или на емейл.

WebArchiveMaster - парсер Вебархива

Client

Client

Пользователь

Client

Client

Пользователь

Client

Пользователь

Client

Client

Client

Client

Client

Client

Пользователь

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Client

Client

Новичок

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)