WebArchiveMaster - парсер Вебархива2

GreenWay

Client
Регистрация
11.05.2012
Сообщения
432
Благодарностей
139
Баллы
43
Пишет что недоступен вэбархив, хотя прописал прокси (прокси покупные, индивидуальные). Что может быть не так?
 

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
Андрей, в новой версии баг и серьезный, я перезапустил зенку и после перезапуска у шаблона поменялись настройки, теперь шаблон проверяет на доступность домена сам домен, который на обработке, этого никогда не было, а вот после обработки и очистки текстов, он перестал собирать ссылки с сайта. Думал может быть у меня зенка глюкнула, переустановил шаблоны заново и всё тоже самое, идет проверка основного домена на работоспособность, а ссылки с сайте не собирает и не проверяет. Исправьте, сами понимаете, эта функция очень важна. Заранее спасибо.
 

Duser

Client
Регистрация
11.08.2013
Сообщения
294
Благодарностей
201
Баллы
43
Это будет великолепно! Вдохновения:ar:
Нужно, так как мне пришлось отключить эту функцию, глючит. Но здесь согласуйте с ТС конечно.
Сделал что вы просили. Добавил регулярки и научил свой редактор искать похожие тексты. Читайте хелп. Качайте там же. В дальнейшем добавлю ещё пару фитч. Пока нет времени кодить. Писать больше в этот топик не буду. Себе я сделал. Когда будут апдейты выложу туду же. Кому прога будет полезна - пользуйтесь.

На счёт фитчи поиска похожих текстов. Никакие шинглы я не использовал. Там просто сравниваются слова как есть и места где они находятся в тексте. Но этого за глаза хватает чтобы надёжно отфильтровать дубли.
 
  • Спасибо
Реакции: Olegator и maestroOm

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Небольшая фича для отслеживания кликов по рекламе РСЯ - пригодится для Ден-каналов, чтобы не было вопросов, почему за 1000 просмотров приходит 10 рублей. Показывает, сколько раз кликнули по рекламе. По рекламе могут кликнуть гораздо больше, но антифрод Яндекса покажет и засчитает только учтенные клики.

1.jpg


Как вы видите, в аналитике канала показывается поле "Клики РСЯ". Сейчас один (они учитываются не в реальном времени, а после проверки на антифрод).
2.jpg


Заходим в настройки.


3.jpg

Добавляем цель и вписываем такую строку: an.yandex.ru/count/
4.jpg


После этого добавляем виджет.
5.jpg
Теперь вы можете более-менее точно знать, сколько получите денег. Также это пригодится для анализа того, если вы будете ставить ссылки в статье, сколько народу из тысячи по ней перейдет. Практически всё зависит от тематики статей.
 
  • Спасибо
Реакции: specialist и Buch

maestroOm

Новичок
Регистрация
28.02.2018
Сообщения
6
Благодарностей
2
Баллы
3
  • Спасибо
Реакции: Duser

GreenWay

Client
Регистрация
11.05.2012
Сообщения
432
Благодарностей
139
Баллы
43
Есть возможность проверять на уникальность много и быстро.
Кому интересно обращайтесь.
 

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
Небольшая фича для отслеживания кликов по рекламе РСЯ - пригодится для Ден-каналов, чтобы не было вопросов, почему за 1000 просмотров приходит 10 рублей. Показывает, сколько раз кликнули по рекламе. По рекламе могут кликнуть гораздо больше, но антифрод Яндекса покажет и засчитает только учтенные клики.

Посмотреть вложение 40389

Как вы видите, в аналитике канала показывается поле "Клики РСЯ". Сейчас один (они учитываются не в реальном времени, а после проверки на антифрод).
Посмотреть вложение 40390

Заходим в настройки.


Посмотреть вложение 40391
Добавляем цель и вписываем такую строку: an.yandex.ru/count/
Посмотреть вложение 40392

После этого добавляем виджет.
Посмотреть вложение 40393
Теперь вы можете более-менее точно знать, сколько получите денег. Также это пригодится для анализа того, если вы будете ставить ссылки в статье, сколько народу из тысячи по ней перейдет. Практически всё зависит от тематики статей.
Андрей, ну с дзеном и его рекламировать, надо поосторожней, у меня в магазине пошло много жалоб, что каналы вылетают у клиентов. А причина до банальности проста, раньше дзен не индексировался и кто поумнее тянули оттуда отменный копирайт для своих сайтов и в любых объемах и индекса не было долгое время. С учетом, что статьями из вебархива забиты все биржи, в том числе и дзен и когда яндекс стал вгонять дзен в индекс и он закрывал массово каналы, то статьи так и остались уником для яндекса, а вот для дзена нет, он сохраняет их в памяти, как етхт. Человек загрузит 500 статей к примеру и канал живет долго, но стоит выгрузить хоть одну такую статью "из памяти дзена", то всё, канал улетит за неуникальный контент и человек не узнает из-за какой именно статьи он вылетел, отсюда и грабли.
 
  • Спасибо
Реакции: Buch

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Андрей, ну с дзеном и его рекламировать, надо поосторожней, у меня в магазине пошло много жалоб, что каналы вылетают у клиентов. А причина до банальности проста, раньше дзен не индексировался и кто поумнее тянули оттуда отменный копирайт для своих сайтов и в любых объемах и индекса не было долгое время. С учетом, что статьями из вебархива забиты все биржи, в том числе и дзен и когда яндекс стал вгонять дзен в индекс и он закрывал массово каналы, то статьи так и остались уником для яндекса, а вот для дзена нет, он сохраняет их в памяти, как етхт. Человек загрузит 500 статей к примеру и канал живет долго, но стоит выгрузить хоть одну такую статью "из памяти дзена", то всё, канал улетит за неуникальный контент и человек не узнает из-за какой именно статьи он вылетел, отсюда и грабли.
Эта тема умерла год назад. Помню, даже просили сделать шаблон парсинга статей с дзена для перепродажи. Но там авторские статьи с авторскими фотографиями, поэтому сразу же вой поднялся. Но это недоработка самого Яндекса, что он не пускал их в индекс, этим сразу воспользовались.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Новая версия - WebArchiveMastersV4.9. Увеличена скорость обработки+обновлена фильтрация на основе анализа спаршенных текстов. Рассылка будет после выходных.

Также можно купить здесь
- catcut.net/y2IB
 
Последнее редактирование:

Amiramus

Новичок
Регистрация
24.05.2019
Сообщения
2
Благодарностей
0
Баллы
1
Black Widow Spider больше в комплекте не идет?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Black Widow Spider больше в комплекте не идет?
Он давно встроен в WebArchiveMasters. Сразу забирает все домены из комментариев и страницы и потом проверяет на работоспособность. Смотрите этот файл - WebArchiveMasters.pdf, там всё написано.
 
  • Спасибо
Реакции: Amiramus

poseydon

Client
Регистрация
21.04.2010
Сообщения
6
Благодарностей
0
Баллы
1
в чем может быть проблема в текстах этот текст
Warning : Use of undefined constant ATOM - assumed 'ATOM' (this will throw an Error in a future version of PHP) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 201
Warning : Use of undefined constant ATOM - assumed 'ATOM' (this will throw an Error in a future version of PHP) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedItem.php on line 104
Warning : Cannot modify header information - headers already sent by (output started at /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php:201) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 93
Warning : Cannot modify header information - headers already sent by (output started at /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php:201) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 96
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
в чем может быть проблема в текстах этот текст
Warning : Use of undefined constant ATOM - assumed 'ATOM' (this will throw an Error in a future version of PHP) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 201
Warning : Use of undefined constant ATOM - assumed 'ATOM' (this will throw an Error in a future version of PHP) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedItem.php on line 104
Warning : Cannot modify header information - headers already sent by (output started at /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php:201) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 93
Warning : Cannot modify header information - headers already sent by (output started at /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php:201) in /storage/ssd3/702/10166702/public_html/js/libraries/feedwriter/FeedWriter.php on line 96
Похоже на сбитую или нестандартную кодировку сайта. Скрипт не может обработать данные, я такое встречал 2-3 раза за всё время. В новой версии будет проверка на сбой. Хотелось еще прикрутить Яндекс.Спеллер, там есть API - https://yandex.ru/dev/speller/. Если кому не лень покопаться киньтесь кодом в треде.
P.S.
На сервере, где проходила вся работа, произошел сбой (просто снесли винду), поэтому новая версия будет позже, так-как придется делать всё сначала уже на ноутбуке.
 

poseydon

Client
Регистрация
21.04.2010
Сообщения
6
Благодарностей
0
Баллы
1
ждем новой версии очень нужно
 

lud1

Новичок
Регистрация
10.08.2019
Сообщения
1
Благодарностей
0
Баллы
1
Здравствуйте, я хочу купить программу для скачивания сайтов их Вебархива, поиск привел на этот сайт, прочла информацию что все ждут новой версии. Пожалуйста, сообщите мне тоже когда будет новая версия. Заранее большое спасибо!
 

Dzxtckfd

Новичок
Регистрация
11.08.2019
Сообщения
1
Благодарностей
0
Баллы
1
Доброго здравия всем!) Прога Вебархив еще продается ? И подскажите как новичку , обязательно работать через прокси?
 

palbert

Client
Регистрация
26.06.2019
Сообщения
6
Благодарностей
2
Баллы
3
Доброго здравия всем!) Прога Вебархив еще продается ? И подскажите как новичку , обязательно работать через прокси?
Это зависит от потоков, к примеру у меня зенка лайт версия и я работаю без прокси на 1 потоке, прокси использую только для проверки уникальности на text ru
 
  • Спасибо
Реакции: Dzxtckfd

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

Szemesh

Новичок
Регистрация
18.08.2018
Сообщения
5
Благодарностей
0
Баллы
1
Привет форумчане! Подскажите нубу на счёт проверки текстов с помощью прокси ipv6.
Взял для пробы 20 прокси, которые очень быстро отработались и сдохли.
Шаб пишет: "С этого прокси было слишком много запросов или он не анонимный".
Как быть? Сколько покупать прокси, чтобы хватало на проверку хотя бы сотни текстов в день?
Чё то не догоняю:(
 

Вложения

goldenbux

Client
Регистрация
06.09.2018
Сообщения
84
Благодарностей
45
Баллы
18
Привет форумчане! Подскажите нубу на счёт проверки текстов с помощью прокси ipv6.
Взял для пробы 20 прокси, которые очень быстро отработались и сдохли.
Шаб пишет: "С этого прокси было слишком много запросов или он не анонимный".
Как быть? Сколько покупать прокси, чтобы хватало на проверку хотя бы сотни текстов в день?
Чё то не догоняю:(
С одного нормального прокси по умолчанию можно проверить примерно до 10 текстов. После чего появится надпись "С этого прокси было слишком много запросов или он не анонимный". В текст ру есть суточные ограничения по ip на проверку.
Возможно вместе с вами эти прокси уже кто то юзает, по этому они уже полудохлые или в бане. Качественные индивидуальные прокси дорого стоят. Не выгодно покупать под это дело))

Вот считайте сами)
 
Последнее редактирование:

poseydon

Client
Регистрация
21.04.2010
Сообщения
6
Благодарностей
0
Баллы
1
Кто может подсказать нужно с дзена собрать адреса каналов существуют скрипты для этой цели?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Версии 4.9 пока не будет - спелчекер от Яндекс работает хуже встроенного, заменяет слова синонимами и меняет смысл, поэтому используется внутренняя замена.

В скором времени шаблоны уйдут в приват, так-как продажа через Textnet идет неплохо, также будут добавлены новые сервисы антиплагиата. Все это будет рассылаться только ранее купившим.

Пока можно купить здесь - catcut.net/y2IB, в дальнейшем скорее всего продажи будут остановлены. Поспешите, пока есть возможность взять за копейки.
Screenshot_20190830-125026.jpg
 
Последнее редактирование:

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
В скором времени шаблоны уйдут в приват, так-как продажа через Textnet идет неплохо

И тем более по ключу Магазин статей он в топе яндекса, уступая только етхт и адвего и опережая текс.ру и всех остальных
 

specialist

Client
Регистрация
28.12.2018
Сообщения
732
Благодарностей
343
Баллы
63
WebArchiveMastersV4.9. Увеличена скорость обработки+обновлена фильтрация на основе анализа спаршенных текстов. Рассылка будет после выходных.
Когда в итоге будет рассылка новой версии шаблона?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Когда в итоге будет рассылка новой версии шаблона?
Скоро. Проблема, что новая программа писалась на сервере, после чего он сбросил данные и все улетело. Я уже писал об этом. Там было много наработок, я связывался с ними, ничего не сохранилось.
Так что пишется заново.

Тем не менее, версия 4.8 работает стабильно.
В версии 4.9 приоритет был больше на нестандартные (ненужные в принципе решения).
 
  • Спасибо
Реакции: specialist

dsquad

Client
Регистрация
24.02.2017
Сообщения
20
Благодарностей
2
Баллы
3
Подскажите , может ли шаблон в актуальной версии парсить сайты из вебархива полностью ?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

Duser

Client
Регистрация
11.08.2013
Сообщения
294
Благодарностей
201
Баллы
43
А как парсить сайты из зоны .рф? Я что-то даже в обычном браузере не могу посмотреть, что было на сайте. Перекидывает на главную страницу вебархива, и когда ввожу туда кирилицу и вариант с punicode. Хотя вебархив содержит какие-то данные: календарь с голубенькими точками он показывает. Кликаешь на точку и попадаешь на главную.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
РФ - нестандарный домен. Непонятно, зачем его парсить, там ничего хорошего нет. К тому же, эта зона слишком молодая.
Р.С.
Также продам ненужеый мне сайт и канал ДЗЕН (на сайте РСЯ и на канале монета, около 500 рублей).
Пишите: [email protected].
 
Последнее редактирование:

wolfz

Client
Регистрация
30.04.2016
Сообщения
71
Благодарностей
2
Баллы
8
@footashes, привет, какая сейчас цена на шаблон, акции намечаются?
 

Кто просматривает тему: (Всего: 4, Пользователи: 0, Гости: 4)