WebArchiveMaster - парсер Вебархива2

Пишет что недоступен вэбархив, хотя прописал прокси (прокси покупные, индивидуальные). Что может быть не так?
 
Андрей, в новой версии баг и серьезный, я перезапустил зенку и после перезапуска у шаблона поменялись настройки, теперь шаблон проверяет на доступность домена сам домен, который на обработке, этого никогда не было, а вот после обработки и очистки текстов, он перестал собирать ссылки с сайта. Думал может быть у меня зенка глюкнула, переустановил шаблоны заново и всё тоже самое, идет проверка основного домена на работоспособность, а ссылки с сайте не собирает и не проверяет. Исправьте, сами понимаете, эта функция очень важна. Заранее спасибо.
 
Это будет великолепно! Вдохновения:ar:
Нужно, так как мне пришлось отключить эту функцию, глючит. Но здесь согласуйте с ТС конечно.

Сделал что вы просили. Добавил регулярки и научил свой редактор искать похожие тексты. Читайте хелп. Качайте там же. В дальнейшем добавлю ещё пару фитч. Пока нет времени кодить. Писать больше в этот топик не буду. Себе я сделал. Когда будут апдейты выложу туду же. Кому прога будет полезна - пользуйтесь.

На счёт фитчи поиска похожих текстов. Никакие шинглы я не использовал. Там просто сравниваются слова как есть и места где они находятся в тексте. Но этого за глаза хватает чтобы надёжно отфильтровать дубли.
 
  • Спасибо
Реакции: Olegator и maestroOm
Небольшая фича для отслеживания кликов по рекламе РСЯ - пригодится для Ден-каналов, чтобы не было вопросов, почему за 1000 просмотров приходит 10 рублей. Показывает, сколько раз кликнули по рекламе. По рекламе могут кликнуть гораздо больше, но антифрод Яндекса покажет и засчитает только учтенные клики.

1.jpg


Как вы видите, в аналитике канала показывается поле "Клики РСЯ". Сейчас один (они учитываются не в реальном времени, а после проверки на антифрод).
2.jpg


Заходим в настройки.


3.jpg

Добавляем цель и вписываем такую строку: an.yandex.ru/count/
4.jpg


После этого добавляем виджет.
5.jpg
Теперь вы можете более-менее точно знать, сколько получите денег. Также это пригодится для анализа того, если вы будете ставить ссылки в статье, сколько народу из тысячи по ней перейдет. Практически всё зависит от тематики статей.
 
  • Спасибо
Реакции: specialist и Buch
Есть возможность проверять на уникальность много и быстро.
Кому интересно обращайтесь.
 
Небольшая фича для отслеживания кликов по рекламе РСЯ - пригодится для Ден-каналов, чтобы не было вопросов, почему за 1000 просмотров приходит 10 рублей. Показывает, сколько раз кликнули по рекламе. По рекламе могут кликнуть гораздо больше, но антифрод Яндекса покажет и засчитает только учтенные клики.

Посмотреть вложение 40389

Как вы видите, в аналитике канала показывается поле "Клики РСЯ". Сейчас один (они учитываются не в реальном времени, а после проверки на антифрод).
Посмотреть вложение 40390

Заходим в настройки.


Посмотреть вложение 40391
Добавляем цель и вписываем такую строку: an.yandex.ru/count/
Посмотреть вложение 40392

После этого добавляем виджет.
Посмотреть вложение 40393
Теперь вы можете более-менее точно знать, сколько получите денег. Также это пригодится для анализа того, если вы будете ставить ссылки в статье, сколько народу из тысячи по ней перейдет. Практически всё зависит от тематики статей.
Андрей, ну с дзеном и его рекламировать, надо поосторожней, у меня в магазине пошло много жалоб, что каналы вылетают у клиентов. А причина до банальности проста, раньше дзен не индексировался и кто поумнее тянули оттуда отменный копирайт для своих сайтов и в любых объемах и индекса не было долгое время. С учетом, что статьями из вебархива забиты все биржи, в том числе и дзен и когда яндекс стал вгонять дзен в индекс и он закрывал массово каналы, то статьи так и остались уником для яндекса, а вот для дзена нет, он сохраняет их в памяти, как етхт. Человек загрузит 500 статей к примеру и канал живет долго, но стоит выгрузить хоть одну такую статью "из памяти дзена", то всё, канал улетит за неуникальный контент и человек не узнает из-за какой именно статьи он вылетел, отсюда и грабли.
 
  • Спасибо
Реакции: Buch
Андрей, ну с дзеном и его рекламировать, надо поосторожней, у меня в магазине пошло много жалоб, что каналы вылетают у клиентов. А причина до банальности проста, раньше дзен не индексировался и кто поумнее тянули оттуда отменный копирайт для своих сайтов и в любых объемах и индекса не было долгое время. С учетом, что статьями из вебархива забиты все биржи, в том числе и дзен и когда яндекс стал вгонять дзен в индекс и он закрывал массово каналы, то статьи так и остались уником для яндекса, а вот для дзена нет, он сохраняет их в памяти, как етхт. Человек загрузит 500 статей к примеру и канал живет долго, но стоит выгрузить хоть одну такую статью "из памяти дзена", то всё, канал улетит за неуникальный контент и человек не узнает из-за какой именно статьи он вылетел, отсюда и грабли.
Эта тема умерла год назад. Помню, даже просили сделать шаблон парсинга статей с дзена для перепродажи. Но там авторские статьи с авторскими фотографиями, поэтому сразу же вой поднялся. Но это недоработка самого Яндекса, что он не пускал их в индекс, этим сразу воспользовались.
 
Новая версия - WebArchiveMastersV4.9. Увеличена скорость обработки+обновлена фильтрация на основе анализа спаршенных текстов. Рассылка будет после выходных.

Также можно купить здесь
- catcut.net/y2IB
 
Последнее редактирование:
Black Widow Spider больше в комплекте не идет?
 
Black Widow Spider больше в комплекте не идет?
Он давно встроен в WebArchiveMasters. Сразу забирает все домены из комментариев и страницы и потом проверяет на работоспособность. Смотрите этот файл - WebArchiveMasters.pdf, там всё написано.
 
  • Спасибо
Реакции: Amiramus
в чем может быть проблема в текстах этот текст
Warning : Use of undefined constant ATOM - assumed 'ATOM' (this will throw an Error in a future version of PHP) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 201
Warning : Use of undefined constant ATOM - assumed 'ATOM' (this will throw an Error in a future version of PHP) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedItem.php on line 104
Warning : Cannot modify header information - headers already sent by (output started at /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php:201) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 93
Warning : Cannot modify header information - headers already sent by (output started at /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php:201) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 96
 
в чем может быть проблема в текстах этот текст
Warning : Use of undefined constant ATOM - assumed 'ATOM' (this will throw an Error in a future version of PHP) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 201
Warning : Use of undefined constant ATOM - assumed 'ATOM' (this will throw an Error in a future version of PHP) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedItem.php on line 104
Warning : Cannot modify header information - headers already sent by (output started at /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php:201) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 93
Warning : Cannot modify header information - headers already sent by (output started at /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php:201) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 96
Похоже на сбитую или нестандартную кодировку сайта. Скрипт не может обработать данные, я такое встречал 2-3 раза за всё время. В новой версии будет проверка на сбой. Хотелось еще прикрутить Яндекс.Спеллер, там есть API - https://yandex.ru/dev/speller/. Если кому не лень покопаться киньтесь кодом в треде.
P.S.
На сервере, где проходила вся работа, произошел сбой (просто снесли винду), поэтому новая версия будет позже, так-как придется делать всё сначала уже на ноутбуке.
 
ждем новой версии очень нужно
 
Здравствуйте, я хочу купить программу для скачивания сайтов их Вебархива, поиск привел на этот сайт, прочла информацию что все ждут новой версии. Пожалуйста, сообщите мне тоже когда будет новая версия. Заранее большое спасибо!
 
Доброго здравия всем!) Прога Вебархив еще продается ? И подскажите как новичку , обязательно работать через прокси?
 
Доброго здравия всем!) Прога Вебархив еще продается ? И подскажите как новичку , обязательно работать через прокси?
Это зависит от потоков, к примеру у меня зенка лайт версия и я работаю без прокси на 1 потоке, прокси использую только для проверки уникальности на text ru
 
  • Спасибо
Реакции: Dzxtckfd
Привет форумчане! Подскажите нубу на счёт проверки текстов с помощью прокси ipv6.
Взял для пробы 20 прокси, которые очень быстро отработались и сдохли.
Шаб пишет: "С этого прокси было слишком много запросов или он не анонимный".
Как быть? Сколько покупать прокси, чтобы хватало на проверку хотя бы сотни текстов в день?
Чё то не догоняю:(
 

Вложения

  • проверка.jpg
    проверка.jpg
    31,2 KB · Просмотры: 488
  • проверка.jpg
    проверка.jpg
    31,2 KB · Просмотры: 460
  • проверка.jpg
    проверка.jpg
    31,2 KB · Просмотры: 457
Привет форумчане! Подскажите нубу на счёт проверки текстов с помощью прокси ipv6.
Взял для пробы 20 прокси, которые очень быстро отработались и сдохли.
Шаб пишет: "С этого прокси было слишком много запросов или он не анонимный".
Как быть? Сколько покупать прокси, чтобы хватало на проверку хотя бы сотни текстов в день?
Чё то не догоняю:(
С одного нормального прокси по умолчанию можно проверить примерно до 10 текстов. После чего появится надпись "С этого прокси было слишком много запросов или он не анонимный". В текст ру есть суточные ограничения по ip на проверку.
Возможно вместе с вами эти прокси уже кто то юзает, по этому они уже полудохлые или в бане. Качественные индивидуальные прокси дорого стоят. Не выгодно покупать под это дело))

Вот считайте сами)
 
Последнее редактирование:
Кто может подсказать нужно с дзена собрать адреса каналов существуют скрипты для этой цели?
 
Версии 4.9 пока не будет - спелчекер от Яндекс работает хуже встроенного, заменяет слова синонимами и меняет смысл, поэтому используется внутренняя замена.

В скором времени шаблоны уйдут в приват, так-как продажа через Textnet идет неплохо, также будут добавлены новые сервисы антиплагиата. Все это будет рассылаться только ранее купившим.

Пока можно купить здесь - catcut.net/y2IB, в дальнейшем скорее всего продажи будут остановлены. Поспешите, пока есть возможность взять за копейки.
Screenshot_20190830-125026.jpg
 
Последнее редактирование:
В скором времени шаблоны уйдут в приват, так-как продажа через Textnet идет неплохо

И тем более по ключу Магазин статей он в топе яндекса, уступая только етхт и адвего и опережая текс.ру и всех остальных
 
WebArchiveMastersV4.9. Увеличена скорость обработки+обновлена фильтрация на основе анализа спаршенных текстов. Рассылка будет после выходных.
Когда в итоге будет рассылка новой версии шаблона?
 
Когда в итоге будет рассылка новой версии шаблона?
Скоро. Проблема, что новая программа писалась на сервере, после чего он сбросил данные и все улетело. Я уже писал об этом. Там было много наработок, я связывался с ними, ничего не сохранилось.
Так что пишется заново.

Тем не менее, версия 4.8 работает стабильно.
В версии 4.9 приоритет был больше на нестандартные (ненужные в принципе решения).
 
  • Спасибо
Реакции: specialist
Подскажите , может ли шаблон в актуальной версии парсить сайты из вебархива полностью ?
 
А как парсить сайты из зоны .рф? Я что-то даже в обычном браузере не могу посмотреть, что было на сайте. Перекидывает на главную страницу вебархива, и когда ввожу туда кирилицу и вариант с punicode. Хотя вебархив содержит какие-то данные: календарь с голубенькими точками он показывает. Кликаешь на точку и попадаешь на главную.
 
РФ - нестандарный домен. Непонятно, зачем его парсить, там ничего хорошего нет. К тому же, эта зона слишком молодая.
Р.С.
Также продам ненужеый мне сайт и канал ДЗЕН (на сайте РСЯ и на канале монета, около 500 рублей).
Пишите: footashes@gmail.com.
 
Последнее редактирование:
@footashes, привет, какая сейчас цена на шаблон, акции намечаются?
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)