WebArchiveMaster - парсер Вебархива2

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Ну а как купить можно вот этот божественный комплект с яндекс дзеном?
Там нет ничего божественного, просто автоматизация, если знаете, что делать.

Вебмани: R282711380496
Яндекс-Деньги: 410011187505134
500 рублей.
В примечании введите свой емейл.

Все шаблоны открыты для редактирования, можно менять и дополнять всё что угодно (многие модернизируют под себя). По умолчанию проверка уникальности стоит 80%, можно поставить, какой требуется.
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
Там нет ничего божественного, просто автоматизация, если знаете, что делать.

Вебмани: R282711380496
Яндекс-Деньги: 410011187505134
500 рублей.
В примечании введите свой емейл.

Все шаблоны открыты для редактирования, можно менять и дополнять всё что угодно (многие модернизируют под себя). По умолчанию проверка уникальности стоит 80%, можно поставить, какой требуется.
Все, шекели отправил ^^
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
А вот молодой человек спрашивал про проблему , когда появляется много "Количество текстовых ссылок~" и правильно я понял, что эту проблему пока не побороть, из-за того что урлы на кириллице пишут, и остается только подождать пока все эти ссылки проверятся? Заранее спасибо
 

Pol29

Client
Регистрация
15.03.2018
Сообщения
29
Благодарностей
3
Баллы
3
А вот молодой человек спрашивал про проблему , когда появляется много "Количество текстовых ссылок~" и правильно я понял, что эту проблему пока не побороть, из-за того что урлы на кириллице пишут, и остается только подождать пока все эти ссылки проверятся? Заранее спасибо
Нет. Просто удалите из папки "Чистая карта.txt" даже не останавливая шаблон и он перейдет к другим доменам. Уже был ответ на два посты ваше. Подымите глаза)
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
Не, я наверное чуть про другое. Когда идет проверка этих ссылок, значит идет парсинг текста? А когда этих ссылок очень много , то скорее всего это какой-то дорвей?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Не, я наверное чуть про другое. Когда идет проверка этих ссылок, значит идет парсинг текста? А когда этих ссылок очень много , то скорее всего это какой-то дорвей?
Допустим, начинается забор ссылок сайта - даже небольшой сайт имеет кучу ссылок - туда входят файлы той CMS, на котором сайт - это стили, скрипты, темы, картинки, тексты, реклама и т.д. - их могут быть десятки тысяч. Шаблон забирает всё, что есть и начинает фильтрацию - по факту, оставляя только ссылки на текст.

Из десятков тысяч остается, допустим 500 ссылок с 99% вероятностью, что это ссылки, ведущие на текст. Далее включается проверка на присутствие текста и его забор. Если первичная проверка показала, что по ссылке текста нет, включается дополнительная, через снепшот Вебархива. Но если шаблон показывает, что найдено 500 ссылок, это не значит 500 текстов - часто сам Вебархив уже не хранит этот текст даже через снепшоты. Его просто уже нет.

Часть мусора тоже попадает и отфильтровывается уже при вторичной проверке, в итоге в реальности из 7000 мусорных файлов получаем 400 ссылок на текст, из которых действительно текста будет 70. Как-то так это работает.

Доменов с кириллическими путями за все время я встречал около 20 штук, ручная проверка показывала, что там или копипаст или ничего нужного. Можно размножать папки Вебархив1...Вебархив10 и привязывать одну папку на один поток. Но это уже промышленные масштабы. Лучше использовать методику или придумать свою, чтобы точечно забирать текста.

Если просто скачать список доменов, из которых 70% мусор, потребуется куча ресурсов, чтобы перелопатить сотни и тысячи доменов, даже по ключам.
Еще момент - узкая тематика. Если вы ищите интересные статьи о золотых рыбках или использование швеллеров в домашнем хозяйстве, подумайте, сколько людей могли такое написать и каков шанс их найти. Домены-ключи и тематика часто не связаны с собой.

По методике - часто бывает, что достаточно зацепиться за один тематический сайт, этого достаточно, чтобы выйти на остальные по такой тематике. При этом названия доменов к тематике могут не иметь никакого отношения.
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
Ну вот он зацепился за один сайт, больше 500 ссылок на проверки, посмотрел ручками, там действительно больше 80% ссылок ведут на текст, причем на хороший, можно сказать, что клад нашел=) А вот чем чревата уменьшение паузы между проверками этих ссылок?
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
Ой, это видимо я не так разобрался, там же не стоит паузы, а как-то можно увеличить скорость проверки этих ссылок? Может это от чего-то зависит? :ah:
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Ой, это видимо я не так разобрался, там же не стоит паузы, а как-то можно увеличить скорость проверки этих ссылок? Может это от чего-то зависит? :ah:
Никак. Каждая ссылка запрашивает Вебархив, после чего он отдает данные. Если данные не отдал, запрашивается еще раз, только не напрямую. Затем забирается текст и проверяется другая ссылка. На всё это требуется время - просто накидать доменов, запустить и забыть на некоторое время, оно всё само скачается и рассортируется.
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
Я вот тут с проверкой на контент вотч мучаюсь, я переключил в файлике на проверку прокси из моего списка, но почему-то шаб берет только первый прокси, а остальные удаляет, и если прокси не подключилось, то он подключает чекер. Я и мануал прочел, но пока не могу разобраться, как сделать, чтобы он только мои прокси кушал... Или я опять дико туплю? :dd:
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Я вот тут с проверкой на контент вотч мучаюсь, я переключил в файлике на проверку прокси из моего списка, но почему-то шаб берет только первый прокси, а остальные удаляет, и если прокси не подключилось, то он подключает чекер. Я и мануал прочел, но пока не могу разобраться, как сделать, чтобы он только мои прокси кушал... Или я опять дико туплю? :dd:
Должен все забирать, вчера проверял через Текст.ру, а там та же логика. Версия 5.9.9.1 Перепроверю и вечером выложу на поддомен восстановленный сайт для примера. Там сохраняется все - перелинковка, комментарии и т.д.
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
Ради Бога извините, что опять спрашиваю. А вот у вас есть черный список, куда слова нужно вписывать, это получается, что эти слова будут удалятся из статьи? Или просто страницы с таким текстом не будут парситься?
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
А еще вопрос по дзену, вы каналы привязываете к одному номеру телефона? Или подтверждаете через спец. сервисы по приему смс?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Ради Бога извините, что опять спрашиваю. А вот у вас есть черный список, куда слова нужно вписывать, это получается, что эти слова будут удалятся из статьи? Или просто страницы с таким текстом не будут парситься?
Этот чёрный список подобран путем практики. Слова, которые в этом списке, сверяются со статьей, и если они там встречаются, эта статья считается категорией или дорвеем. Эти слова не удаляются, они сравниваются, и если хоть одно из них присутствует при проверке, эта статья считается бракованной (100% это или категория, которая не нужна, или дорвейный текст). Эти статьи не удаляются, они пишутся в отдельную директорию того же домена, то есть вы можете их просмотреть и скорректировать, если считаете, что она оказалась там неправильно. Также вы можете корректировать чёрный список под себя.
 
Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
А еще вопрос по дзену, вы каналы привязываете к одному номеру телефона? Или подтверждаете через спец. сервисы по приему смс?
Я дорвеи привязываю на один номер (вроде, можно привязывать 10 каналов на номер). Если у вас белые сайты, можете вязать на один номер, если вы делаете ссылки на партнерки не через ТДС, лучше каждому каналу свой номер, чтобы затруднить Яндексу вычисление сетки, тем более, номер для Яндекса стоит 1-4 рубля\номер.

Но советую не обольщаться, у Яндекса аналитика помощней гугла, это только отсрочит пессимезацию и бан. Сейчас для пробы попробовал сливать напрямую на партнерку на ненужном одном канале, около 300 переходов, без аппрува. Надо сказать, что слив не напрямую на лендинг, а на промежуточную страницу.

Практика показывает, что лучше проверить метрику (возраст, время, пол) и слать сразу на продажу. У партнерок трафик с Дзена считается как с соцсетей.

P.S.

Показать восстановление сайта сейчас не могу, постоянно обрывается интернет либо падает до килобайтов. Спарсил за три часа специально два сайта с уником, но для залива на сервер потребуется не менее двух дней из-за скорости, так-как они весят 700-1200 мегабайт, в основном из-за картинок.

Поэтому смотрите небольшой сайт, который я выкладывал ранее - http://zennolab.com/discussion/threads/webarchivemaster-parser-vebarxiva2.45531/page-4#post-350119. Иле позже я сделаю видеоролик, показав работу на OpenServer, если интересно.

Думаю, сегодня сделаю видео. Насчет рассылки по емейл "Криворучка" - она сама проверяет емейл на работоспособность, использует дорвейный шаблонизатор - лично для меня емейл умер два года назад, но если вы считаете спам нужным, пишите, что вы хотите видеть - анонимизация, абсолютная рандомизация, отслеживание писем - шлите ТЗ, я сделаю всё бесплатно. Мой опыт в рассылках вы можете прочитать в моей ветке по Вебархиву - первой и второй части.
 
Последнее редактирование:
  • Спасибо
Реакции: dsdos34

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Я не могу посчитать три дня, так-как я человек творческий, если захочет, зарубит пост и забанит, но, как и обещал, видео по работе парсинга полного сайта со всеми данными - не все картинки подтягиваются, но если я не могу, то никто не может. Вебархив не может хранить данные вечно, нужно у него забирать. Хотел записать "Сектор Газа", но не вышло, динамик не пашет - всё равно, привет, кто помнит:

Это для тех, кому нужен интересный авторский текст. Это, если не ясно, забор сайта в ХТМЛ, напрямую, но, лучше брать текстом. Уникальность текстов по Текстру - 100%.
 
Последнее редактирование:
  • Спасибо
Реакции: Lavmeb

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Пацаны,кто помнит Сектор, сейчас бухаем, не знаю, можно, нет - от души:

 
  • Спасибо
Реакции: Lavmeb

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
За сектор пасибо, группа с моей родины) А вот сайт вы спарсили, я так понимаю, цмс не будет работать? Допустим если на ворд прессе сайт, то админка не будет работать?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
За сектор пасибо, группа с моей родины) А вот сайт вы спарсили, я так понимаю, цмс не будет работать? Допустим если на ворд прессе сайт, то админка не будет работать?
Нет, только HTML сайт, перенос нужен вручную. Я это делал для себя, но, честно, заеб*лся. Слишком сложно.
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
А подскажите пожалуйста, может у меня все так долго работает, потому что нужно отдельно локальный сервер поставить? А то я просто, скачал шаблон и запустил:bt:
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Желательно сервер - запустил и забыл. Сервер выйдет примерно в 300-400 рублей в месяц, останется только зайти и забрать текста.
 

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
А подскажите пожалуйста, вот на дзен, можно сразу много заливать статей, или раз в день? А то я сразу 10 постов уникальных залил, а дзену было пофигу
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
А подскажите пожалуйста, вот на дзен, можно сразу много заливать статей, или раз в день? А то я сразу 10 постов уникальных залил, а дзену было пофигу
Закинуть три поста и дать несколько часов алгоритму определиться с тематикой. Когда пойдут показы, 1-2 статью в день. Дзен - для желтухи, блоговые статьи там не взлетят.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Беру назад свои слова, что блоговые статьи Дзен плохо воспринимает - нашел кучу авторских каналов от первого лица. Вот один из них - адский треш, каналу пара недель, бабло рубит не по-детски - ссылка.

Сейчас WebArchiveMaster скачал текст и подготовил его к проверке, решил закачать сюда для примера, как он отсеивает дорвеи и категории.
 

Вложения

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 983
Благодарностей
4 432
Баллы
113

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
А как ты это узнал?
Сверху каждой статьи показываются количество просмотров и дочитываний. Многие статьи имеют по 3-8 тысяч дочитываний, это много для таких статей. 1000 дочитываний - примерно 30-50 рублей. Статья там не одна. Это суммируется, по себе знаю. В день нормально выходит.
Да, и путем сложных расчетов и бессонных ночей я выявил алгоритм Дзена. Делюсь с вами совершенно бесплатно:
fluttershy's-anti-adventures-Fluttershy-mane-6-my-little-pony-2450832.jpeg

Если что, то сам алгоритм не знают сами разработчики, для них и для меня это просто уличная магия. Как оно работает, точно не знает никто, ещё он постоянно меняется. Можно только догадываться.
 
Последнее редактирование:

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
Подскажите пожалуйста, по проверке уникальности, я запускаю контент ватч, но он прям не хочет прокси кушать, а через прокси чекер, получается примерно 1 статья за 3-4 часа, потому что очень много прокси не подходят. Это так и должно быть?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Нет, неоднократно писал про создание своих списков в проксичекере, так как стандартный используют сотни тысяч человек. Это форсмажор, спасибо Яндексу. Список должен быть создан для себя, прокси паблик, но список должен быть собран для себя, просили так сделать, считаю, что это правильно.

Ищите источники для себя и ни с кем не делитесь. Как это сделать, ищите в справке по проксичекеру. Буквально два месяца назад было гораздо проще - каждый 2-3 прокси пробивал текст.ру, сейчас, в связи с Дзеном, ситуация изменилась, и стандартные прокси не пробивают антиплагиат, в связи с тем, что миллионы человек ринулись в Дзен.Там действительно шальные деньги.

Создавайте свои собственные списки прокси на основе проксичекера. В Дзене каждый ищет свою тематику. Сейчас ситуация изменилась, на все антиплагиаты идет очень большая нагрузка. Если хотите проверять пакетно уникальность, пишите на почту - 250 рублей\месяц, через программу проверки текста. Данные вышлю по почте.

По поводу Дзена - у меня сбивается подключение, напишу свои достижения. Это с одного канала в день с Вебархива (уник).

Screenshot_1.jpg

Просмотры и дочитывания.

Dzen.jpg
 
Последнее редактирование:

ЛевТроцкий

Пользователь
Регистрация
19.12.2017
Сообщения
43
Благодарностей
1
Баллы
8
А помните в про спам рассылки говорили? Вы не будете видео снимать? :ah:
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
А помните в про спам рассылки говорили? Вы не будете видео снимать? :ah:
Я уже давно писал, кому будет интересно отслеживание писем, отслеживание на спам через сервис почтовых служб и т.д.. Никто не ответил, потому я решил, что это никому не нужно.
P.S.
У нас с каждой весной делают линию: не беспокойтесь, как только будет связь, всем всё вышлю.
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)