WebArchiveMaster - парсер Вебархива2

Bollador

Client
Регистрация
24.11.2017
Сообщения
347
Благодарностей
68
Баллы
28
Все, кто покупал в магазине - пришлите свою почту на [email protected] для внесения в базу рассылок. Завтра всем разошлю обновленные шаблоны для регистраций почтовых ящиков и заработка, а также новые фишки. Кто ещё не купил Вебархивмастер - у вас есть один день по сниженной цене и возможность получить шаблоны для регистраций. Вот пример продаж сегодня:

Посмотреть вложение 81435
Я давно у тебя покупал за 500 рублей. Что нового в шаблонах? Извини, я уже забыл.
 

miir1981

Client
Регистрация
13.12.2019
Сообщения
101
Благодарностей
19
Баллы
18
Дополнительная метода, которую все обходят стороной - https://zennolab.com/discussion/threads/analiz-kommentariev-dlja-postinga-v-jandeks-dzen.89980/. Не секрет, что Яндекс сделал упор на нейронку - это один из экспериментальных способов её обойти. Упор на парсинг комментариев, заодно собирает емейлы с каналов и ссылки на соцсети. Но основной упор на комментарии. Принцип работы показан в видео. Шаблон открыт, можете вносить те изменения, которые вам нужны.
Не заработало только у меня? Ошибка ] Поток №1 : Поток завершился с сообщением "Не удалось дождаться элемента >CSS> page-switch >SHADOW> >CSS> main-index >SHADOW> >CSS> index-locations >SHADOW> >CSS
 
  • Спасибо
Реакции: Lewiy

miir1981

Client
Регистрация
13.12.2019
Сообщения
101
Благодарностей
19
Баллы
18
Может надо премиум покупать в расширении???
 

tyssin

Client
Регистрация
15.05.2019
Сообщения
68
Благодарностей
12
Баллы
8
Не заработало только у меня? Ошибка ] Поток №1 : Поток завершился с сообщением "Не удалось дождаться элемента >CSS> page-switch >SHADOW> >CSS> main-index >SHADOW> >CSS> index-locations >SHADOW> >CSS
тоже самое не работает
 

Lewiy

Client
Регистрация
25.11.2020
Сообщения
122
Благодарностей
20
Баллы
18

maksimal2

Client
Регистрация
17.12.2019
Сообщения
19
Благодарностей
6
Баллы
3
Все, кто покупал в магазине - пришлите свою почту на [email protected] для внесения в базу рассылок. Завтра всем разошлю обновленные шаблоны для регистраций почтовых ящиков и заработка, а также новые фишки. Кто ещё не купил Вебархивмастер - у вас есть один день по сниженной цене и возможность получить шаблоны для регистраций. Вот пример продаж сегодня:

Посмотреть вложение 81435
Как получить обновления, пишу на почту , ответа нет
 

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
Андрей, привет...насчет проверки через текст.ру. Поскольку етхт сейчас сдох, а я им пользовался больше 10 лет, то решил прогнать текст.ру версия 1.6 и что-то совсем не то,что в ролике в мануале за 2018 год. Летом текст.ру перешел с тупо айпи на кол-знаков, вот стал юзать и за три часа 4 статьи.....господа, это только мне свисток не достался или акула глухая попалась?
 

Evgenij

Client
Регистрация
07.04.2011
Сообщения
11
Благодарностей
1
Баллы
3
А как тогда тексты проверять? Если через текст.ру, невозможно.
 

dima8121

Client
Регистрация
09.09.2018
Сообщения
14
Благодарностей
6
Баллы
3
У меня все работает
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Обновление WebArchiveMastersV4.13 в связи с изменением верстки Вебархива:

- пофиксена небольшая ошибка, когда было совпадение регулярного выражения с данными, предоставленными Вебархивом,из-за чего парсер считал, что спарсил все ссылки и уходил на фильтрацию данных (это не так - в определенных обстоятельствах данные, которые проверялись, могли совпасть, если в ссылке присутствовало слово сравнения - например,Nexte, и в ссылке было, к примеру,http:\\kulbyar\visinexterin\appetit.htm), программа считала, что данные закончились и уходила на второй этап - фильтрация ссылок (отсеивание таких данных, как: *.jpg, replitcom и т.д). Это проявилось только несколько дней назад, так-как Вебархив изменил и усложнил парсинг.

Также хочу показать, на что способен Зеннопостер - сайт https://pibarum.ru/. Сделан полностью автоматически, обратите внимание на категорию "Тесты на знания", на сервере Зеннопостер парсит, обрабатывает и постит полностью на автомате, данные рассчитаны на 3 месяца, примерно 10 000 тестов. Попробуйте попроходить их, возможны ошибки, т.к. полный автомат, но всё это легко поправить, внести изменения в программу.

По всем вопросам, особенно тем, кто покупал WebArchiveMasters через магазин, пишите на [email protected]

Также прикрепляю частично проверенный домен (для проверки работоспособности) без чистки для проверки работоспособности:

Обновленный скрипт разошлю сегодня, после дополнительной проверки.
 

Вложения

  • Спасибо
Реакции: Olegator и todayer

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
Андрей, спасибо, что быстро откликнулся и исправил этот баг, а то таких доменов выходило примерно 200 на 1000 и это в день. Ждем обновление.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Постоянно спрашивают - как начать работать, где взять домены для парсинга

  1. Есть проверка по ключевым словам, о которой мало кто знает, потому-что не читает инструкцию. Допустим, вы хотите найти женские сайты - вы можете ввести ключевые слова в выбранных вами доменах. Программа по умолчанию (можно изменить) будет брать 10 рандомных ссылок в выбранных вами доменах, искать совпадения и найденные совпадения записывать в файл "Search.txt" (все это описано в файле WebArchiveMasters.pdf, который никто не читает).
    Скриншот 11-12-2021 011947.jpg
  2. Постоянно спрашивают про Спайдер - парсинг доменов. Принцип работы такой - берется домен определенной тематики, например, гадания. Во время парсинга текста одновременно работает BlackWindowSspider - он давно встроен в WebArchiveMasters и работает одновременно с парсингом текста - это все описано в WebArchiveMasters.pdf. Принцип работы - работа на вероятностях, что комментировать сайт о строительстве будут люди, связанные со строительством, которые оставляют свои комментарии со ссылкой на свой сайт. Сайт кулинаров будут комментировать люди, близкие к кулинарии и т.д. На этом основан парсинг дружественных доменов - на вероятностях, отличных от нуля.
    spider.jpg

Данные отправил, по вопросам пишите на [email protected]
 

Вложения

  • Спасибо
Реакции: systemwm и max_linder

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Беглый показ принципа работы ВебархивМастер, чистка текста и проверка на уникальность. Так-как zennoproxy.com на профилактике, через Текст.ру я не стал проверять, так-как ему требуются IP6, вместо этого показал через Адвего, принцип одинаков. Это не руководство - для каждого шаблона есть видео и текстовая инструкция. Это показ принципа работы - сначала парсим, затем чистим, затем проверяем на уникальность.

 

Evgenij

Client
Регистрация
07.04.2011
Сообщения
11
Благодарностей
1
Баллы
3
В инструкции написано: Как работает программа - берет выборочно домен и проверяет его на ответ 200 (сайт работает). Если сайт работает, домен удаляется и берется следующий. После получения нужного домена, программа подключается к Вебархиву и запрашивает количество файлов за все годы (не по снепшотам). Если файлов нет, возвращается к выбору другого домена. Если файлы есть, программа забирает ссылки и включает фильтрацию (css, png, jpg, reply и т.д.).

А я смогу восстановить действующий, мой сайт, из веб архива ? И много он мусора цепляет ? В веб архиве, копия wordpress , только метки, тэги и коментарии.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
В инструкции написано: Как работает программа - берет выборочно домен и проверяет его на ответ 200 (сайт работает). Если сайт работает, домен удаляется и берется следующий. После получения нужного домена, программа подключается к Вебархиву и запрашивает количество файлов за все годы (не по снепшотам). Если файлов нет, возвращается к выбору другого домена. Если файлы есть, программа забирает ссылки и включает фильтрацию (css, png, jpg, reply и т.д.).

А я смогу восстановить действующий, мой сайт, из веб архива ? И много он мусора цепляет ? В веб архиве, копия wordpress , только метки, тэги и коментарии.
Там есть скрипт, выкачивающий копию сайта. Но смысл просто забирать текст, проверять его и использовать для себя или на продажу. В любом случае, писать нужно сюда: [email protected]. Также, кто покупал через магазин, отпишите для внесения вашего емейл в базу рассылок для обновлений.
 

Evgenij

Client
Регистрация
07.04.2011
Сообщения
11
Благодарностей
1
Баллы
3
Помогите, не парсит домен.
Текст в логах:
Начинаем проверку домена
Переходим на забор данных для парсинга
Домены в файле закончились
Проект краулер.xmlz уцспешно выполнин.


В чём может быть проблема?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Помогите, не парсит домен.
Текст в логах:
Начинаем проверку домена
Переходим на забор данных для парсинга
Домены в файле закончились
Проект краулер.xmlz уцспешно выполнин.


В чём может быть проблема?
Версия WebArchiveMastersV4.13? ZennoPoster RU 5.17.2.0?
Только что проверил, всё работает.
 

Evgenij

Client
Регистрация
07.04.2011
Сообщения
11
Благодарностей
1
Баллы
3
Я вам ответ отправил на почту. Версия WebArchiveMastersV4.8 ZennoPoster Pro 7.6.0.0
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
WebArchiveMastersV4.13 рассчитан на массовый парсинг текста, для последующей продажи - лично я использую для размещения на Ротапост, Гогетлинкс, Миралинкс. Протокол HTTPS игнорируются, так-как практика показала, что любой анализатор уникальности покажет 0%, потому что эти данные ещё не вылетели из индекса, так-как прошло слишком мало времени. Поэтому все ссылки с этим протоколом игнорируются. В парсере несколько защит, чтобы случайно не поймать данные на https. Это сделано изначально, исходя из опыта, толку от этих данных нет.


Screenshot.png
 

rewrite008

Client
Регистрация
09.07.2021
Сообщения
54
Благодарностей
29
Баллы
18
В проверке адвего вылезло такое сообщение при прогреве профиля.
Выполнение действия HtmlElement Не найден HTML элемент, по условиям поиска

Вопрос решен))
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
В проверке адвего вылезло такое сообщение при прогреве профиля.
Выполнение действия HtmlElement Не найден HTML элемент, по условиям поиска

Вопрос решен))
Новая версия Advego.v7. Поправлено создание профилей. Использовалась версия ZennoPoster RU 5.17.2.0. Всем разослал, если что, пишите на [email protected]
 

Evgenij

Client
Регистрация
07.04.2011
Сообщения
11
Благодарностей
1
Баллы
3
Перехватил домен. Месяц прошёл, как закончилась регистрация. Восстановил статьи из вебархива. Все статьи уникальные. Может ли предыдущий владелец домена, предъявить претензию, о нарушении авторских прав ?
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 991
Благодарностей
4 457
Баллы
113

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Перехватил домен. Месяц прошёл, как закончилась регистрация. Восстановил статьи из вебархива. Все статьи уникальные. Может ли предыдущий владелец домена, предъявить претензию, о нарушении авторских прав ?
Я делал и не заморачивался, ничего не было. Но лучше забрать просто текст.
 

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
Перехватил домен. Месяц прошёл, как закончилась регистрация. Восстановил статьи из вебархива. Все статьи уникальные. Может ли предыдущий владелец домена, предъявить претензию, о нарушении авторских прав ?
Нет, для этого каждую статью он должен был заверить нотариально, а это накладно и никто не делает и с учетом, что фичи Оригинальные тексты уже нет.
 

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
Другой вопрос, что месяц, домен свежий и тексты 100% с кэшем, хоть и уникальны, ПСы еще помнят.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Очередная распродажа на всё - 2 дня за 350 рублей, в связи непонятных действий с Украиной - WebArchiveMaster - парсер Вебархива + Антиплагиат + Мануал + Парсинг емейлов с Яндекс.Дзен + Парсинг субтитров с роликов Ютуб+ Нестандартная рассылка через сервис рассылок+ Каталог Дзен-каналов (шаблон и уже спаршенные емейлы (около 9000 почт с дзен-каналов). Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.

Киви: 9619995137
Яндекс-Деньги: 410011187505134

В примечании введите свой емейл, он будет внесен в базу рассылок.
 

serhio12345

Новичок
Регистрация
11.02.2022
Сообщения
1
Благодарностей
0
Баллы
1
Очередная распродажа на всё - 2 дня за 350 рублей, в связи непонятных действий с Украиной - WebArchiveMaster - парсер Вебархива + Антиплагиат + Мануал + Парсинг емейлов с Яндекс.Дзен + Парсинг субтитров с роликов Ютуб+ Нестандартная рассылка через сервис рассылок+ Каталог Дзен-каналов (шаблон и уже спаршенные емейлы (около 9000 почт с дзен-каналов). Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.

Киви: 9619995137
Яндекс-Деньги: 410011187505134

В примечании введите свой емейл, он будет внесен в базу рассылок.
Здравствуйте! Только зарегистрировался, заинтересовал данный софт... Как можно с вами связаться? а то в не пойму, в лс вроде нет функции чтоб вам написать...
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Здравствуйте! Только зарегистрировался, заинтересовал данный софт... Как можно с вами связаться? а то в не пойму, в лс вроде нет функции чтоб вам написать...
Цена - 500 рублей
Почта - [email protected]

Киви: 9619995137
Яндекс-Деньги: 410011187505134

В примечании введите свой емейл, он будет внесен в базу рассылок.
 

Вложения

Ruhas

Client
Регистрация
26.11.2019
Сообщения
673
Благодарностей
171
Баллы
43
Обновление WebArchiveMastersV4.13 в связи с изменением верстки Вебархива:

- пофиксена небольшая ошибка, когда было совпадение регулярного выражения с данными, предоставленными Вебархивом,из-за чего парсер считал, что спарсил все ссылки и уходил на фильтрацию данных (это не так - в определенных обстоятельствах данные, которые проверялись, могли совпасть, если в ссылке присутствовало слово сравнения - например,Nexte, и в ссылке было, к примеру,http:\\kulbyar\visinexterin\appetit.htm), программа считала, что данные закончились и уходила на второй этап - фильтрация ссылок (отсеивание таких данных, как: *.jpg, replitcom и т.д). Это проявилось только несколько дней назад, так-как Вебархив изменил и усложнил парсинг.

Также хочу показать, на что способен Зеннопостер - сайт https://pibarum.ru/. Сделан полностью автоматически, обратите внимание на категорию "Тесты на знания", на сервере Зеннопостер парсит, обрабатывает и постит полностью на автомате, данные рассчитаны на 3 месяца, примерно 10 000 тестов. Попробуйте попроходить их, возможны ошибки, т.к. полный автомат, но всё это легко поправить, внести изменения в программу.

По всем вопросам, особенно тем, кто покупал WebArchiveMasters через магазин, пишите на [email protected]

Также прикрепляю частично проверенный домен (для проверки работоспособности) без чистки для проверки работоспособности:

Обновленный скрипт разошлю сегодня, после дополнительной проверки.
Друг, сделай шаблон что бы мог вытягивать сайты с веб-архива.
 

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)