WebArchiveMaster - парсер Вебархива

Статус
Закрыто для дальнейших ответов.

nik8203

Новичок
Регистрация
24.09.2017
Сообщения
9
Благодарностей
0
Баллы
1
Оплатил WM
 

nik8203

Новичок
Регистрация
24.09.2017
Сообщения
9
Благодарностей
0
Баллы
1
Оплатил WM
 

nik8203

Новичок
Регистрация
24.09.2017
Сообщения
9
Благодарностей
0
Баллы
1
Жду WebArchiveMasters
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Всем отправил. Сейчас идет работа над пауком и устранение мелких дефектов парсера Вебархива.
 

nik8203

Новичок
Регистрация
24.09.2017
Сообщения
9
Благодарностей
0
Баллы
1
Возможно WAM настроить чтобы она просто выкачивала сайт? без удаления css
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Для этого есть скрипт на Гитхабе- https://github.com/hartator/wayback-machine-downloader. Работает на Руби и позволяет скачивать сайт полностью со всей структурой. Именно эта программа является основанием создания WebArchiveMasters, так-как практика показала, что скачивание сайта и перевод на другой домен имеет меньше смысла скачивания просто текстов, зато возникает куча проблем - удаление скриптов, на хостинг могли залить вирусы, скрытые редиректы и очень много чего ещё. Восстановление сайта оказалось малопродуктивным, но можете попробовать.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
WebArchiveMasters

Обновление шаблона, были небольшие проблемы с GET запросом, добавлен дублирующий с проверкой 502 ошибки и 301 редиректа с http на htpps. Ранее GET запрос не видел, что сайт может редиректить на htpps - и мог начать скачивать изначально неуникальный текст. И еще пара мелких правок.

Black Widow Spider

Небольшие изменения в логике.

После скачивания статей нужна массовая проверка на антиплагиат. В этом поможет программа EtxtAntiplagiat, там есть пакетная загрузка файлов. Капчу подключать не обязательно, можно использовать фришные прокси. Как правильно настроить программу, читайте здесь - https://schel4koff.ru/kak-polzovatsya-etxt-antiplagiat-nastrojka.

Ниже примеры скачанных статей.
 

Вложения

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Для вашего удобства вы можете купить через Primearea.
 

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
556
Баллы
93
Всем отправил. Сейчас идет работа над пауком и устранение мелких дефектов парсера Вебархива.
Хорошо что увидел тему поста, а то чуть не запилил на конкурс видео с шаблоном. Хотел небольшой комбайн свой по дропам расписать где первый шаблона отбора дропов и второй восстановления из архива. Первый без второго не особо ценен:-) footashes удачных продаж.
 

Bahus

Client
Регистрация
15.02.2017
Сообщения
44
Благодарностей
12
Баллы
8
Со спайдером не понял.
Собрал около 3К блогов и гостевых. Вставил их в SsilkySite.txt
Количество ссылок для сбора 1000
Вот уже почти сутки все файлы в папке Drops пустые.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Столько не нужно. Хватит и десяти. Нужны не гостевые, а комментарии, содержащие ссылку в имени - для примера: http://klyshko.ru/chugunnye-radiatory/#comment-108241. Чем больше на сайтах комментариев, тем выше вероятность, что на них есть брошенные домены. Программа должна пройти по страницам этого сайта и забрать просроченные домены. Как правило, это должны быть хорошие тематические дропы. Попробуйте вставить в SsilkySite.txt пару подобных доменов для проверки. А пока заархивируйте файлы и пришлите мне для анализа.

Количество ссылок для сбора 1000 - если блог содержит менее 1000 страниц, то этот домен не проверяется, хватит и 250-300, можно меньше, чтобы наверняка.
 

Bahus

Client
Регистрация
15.02.2017
Сообщения
44
Благодарностей
12
Баллы
8
upload_2017-9-27_13-57-6.png


может из-за путей проблема? Почему-то Вложенный проект ищет на диске С
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Вы можете установить в директорию c:\bot\ParserComments, а я пока все просмотрю? Карта сайта собирает данные именно по этому пути.
 

Bahus

Client
Регистрация
15.02.2017
Сообщения
44
Благодарностей
12
Баллы
8
Какая-то движуха пошла, но сейчас вот:

upload_2017-9-27_14-24-16.png
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Это означает, что домен возможно не рабочий и карта сайта не может быть создана. На сбор доменов это не должно влиять. Заархивируйте и пришлите всю папку.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Паук Black Widow Spider проходит тестирование, о багах прошу писать в личку.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Сделал пример для проверки текста на уникальность через text.ru, пригодится тем, кто хочет проверять уникальность текста не в промышленных масштабах. Урок показан на примере парсинга текста с помощью WebArchiveMasters.

Основной принцип - заход на text.ru через свой список прокси, который находится в файле. Шаблон берет прокси без удаления и заходит на text.ru, вставляет проверяемый текст и нажимает кнопку. После проверки текст переносится из папки База статей (там находятся статьи, требующие проверки), в зависимости от уникальности (по умолчанию 80%), в папки Копипаст или Уникальные. Файлы сохраняются с уникальным названием с добавлением процента уникальности - (Готовый текст447 - уникальность 6_37%.txt).

Шаблон предназначен для ознакомления логики и до конца не доработан. Советую проверять его работу сразу в ProjectMaker. Кому интересно и видит смысл, сможет доработать под себя.

 

Вложения

  • Спасибо
Реакции: izubr и dsdos34

КарлМаркс

Активный пользователь
Регистрация
11.07.2017
Сообщения
200
Благодарностей
64
Баллы
28

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с КарлМаркс какие-либо сделки.

Сделал пример для проверки текста на уникальность через text.ru, пригодится тем, кто хочет проверять уникальность текста не в промышленных масштабах. Урок показан на примере парсинга текста с помощью WebArchiveMasters.

Основной принцип - заход на text.ru через свой список прокси, который находится в файле. Шаблон берет прокси без удаления и заходит на text.ru, вставляет проверяемый текст и нажимает кнопку. После проверки текст переносится из папки База статей (там находятся статьи, требующие проверки), в зависимости от уникальности (по умолчанию 80%), в папки Копипаст или Уникальные. Файлы сохраняются с уникальным названием с добавлением процента уникальности - (Готовый текст447 - уникальность 6_37%.txt).

Шаблон предназначен для ознакомления логики и до конца не доработан. Советую проверять его работу сразу в ProjectMaker. Кому интересно и видит смысл, сможет доработать под себя.

Парсер открытый??
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

nik8203

Новичок
Регистрация
24.09.2017
Сообщения
9
Благодарностей
0
Баллы
1
Здравствуйте, не пойму как запустить файл Краулер.xmlz. Скрипт на локалке так http://localhost/WebArchiveMasters/full-text-rss/ открыл и что дальше? И при чем тут директория c:\bot\WebАрхив? если мы скрипт закинули на локалку в домены.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Screenshot_1.jpg


full-text-rss играет роль бесшаблонного парсера. Скопируйте full-text-rss из папки в директорию Open Server, у меня такой путь - c:\server\OpenServer\domains\, перезапустите Open Server и в своем браузере введите: http://full-text-rss/. Если все правильно, отобразится окно с полями. В файле scraper.txt вы можете посмотреть, как это выглядит и вписать туда путь к скрипту на локальном домене (http://full-text-rss) или использовать для проверки работы тот, что записан в scraper.txt. Если все отобразилось, в файл Domens.txt ложите свои дропы и запускаете Краулер.xmlz.
 

nik8203

Новичок
Регистрация
24.09.2017
Сообщения
9
Благодарностей
0
Баллы
1
Ладно разобрался, но не ужели нормальную инструкцию написать нельзя. В инструкции про ZennoPoster не чего не сказано и что ее придется покупать за 9700 т.р.. Ладно вопрос в другом, закинул я в файл домены, запускаю, а он мне чекает непонятно откуда взятые домены которых я не добавлял, что это?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Ладно разобрался, но не ужели нормальную инструкцию написать нельзя. В инструкции про ZennoPoster не чего не сказано и что ее придется покупать за 9700 т.р.. Ладно вопрос в другом, закинул я в файл домены, запускаю, а он мне чекает непонятно откуда взятые домены которых я не добавлял, что это?
Написал в личку.
 

nik8203

Новичок
Регистрация
24.09.2017
Сообщения
9
Благодарностей
0
Баллы
1
Все спасибо доперло, домены удаляются из файла по этому их там не найти/
 

nik8203

Новичок
Регистрация
24.09.2017
Сообщения
9
Благодарностей
0
Баллы
1

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Ок, пишите на почту: footashes(собака)gmail.com
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Напишу из своего опыта, почему лучше парсить текст, а не готовый сайт со скриптами, фото, css и т.д, хотя, казалось бы - получить готовый сайт, забросить его на хостинг и получать профит, потом спарсить ещё десять и получать в десять раз больше профита. Очень жаль, но будет совсем не так.

1. Вы спарсили готовый сайт, и нарисовалась первая проблема - нулевая уникальность текста. Такой сайт, скорее всего, не войдет даже в индекс.
2. Адаптивный шаблон. Многие сайты находятся в Вебархиве не один год и заточены под СЕО своего года. Сейчас все поменялось, огромное количество трафика идет со смартфонов и планшетов. Шаблоны старых сайтов под это не приспособлены, а значит, вам придется вручную или за деньги переносить текста с перелинковкой на новый сайт. Это тоже самое, что сделать сайт с нуля.
3. Ключевые слова. Крайне мало текстов используют ключевые слова на уровне 2017 года либо вовсе их не используют - НК, НЧ, СНЧ -хвосты: такие текста никогда не поднимутся выше десятой страницы. Также используются выделения ключей, что в наше время не приемлимо.
4. Сюрпризы в виде шифрованных ссылок, переадресаций, поисковый спам.
5. Дропы. Если вы думаете, что имеет смысл восстановить сайт на его же дропе, вы играете с огнем. На моей памяти, из 30-40 дропов выстреливал, дай бог, один-два. Оставьте дропы дорвейщикам, для них использование дропов целесообразно - жестко проспамить, получить (или не получить) какой-то профит и выбросить его. 99% всех дропов под фильтрами ПС - это может быть и поисковый спам, и обмен комментариями и ещё 1000 причин. Потратите кучу времени, денег для переноса на CMS и оплату хостинга и получите только потерю времени. С восстановлением сайтов и получение какого-то профита с них вы опоздали примерно на 5-6 лет.

На данное время единственно верная стратегия, которую я вывел и использую - покупка 1-2-3 летнего сайта на Телдери, заполнение его уникальным контентом из Вебархива с внедрением ключей и использованием цитат, подзаголовков и прочего СЕО (смотрите выдачу, какие сайты в первой десятке и почему). Такой сайт имеет траст и доверие ПС, и ему прощается то, за что сайт меньше 6-12 месяцев просто выбросят из поиска.

Либо вы продаете пачку уникальных статей на СЕО форумах - покупатель должен знать, что текст из Вебархива, чтобы использовать его как можно быстрее - не вы одни ищете текста.

Можно продавать на биржах текста, но на свой страх и риск, там есть много тонкостей и в любой момент ваш аккаунт могут забанить.
 

nik8203

Новичок
Регистрация
24.09.2017
Сообщения
9
Благодарностей
0
Баллы
1

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Black Widow Spider - что нового?

1. Configuration.ini убран. Теперь карта сайта собирается автоматически
2. Шаблон работает из любой категории и с любого диска

Шаблон предназначен для сбора ссылок из комментариев. Пишите 5-7 сайтов и программа проходится по всем страницам в поисках брошенных доменов. Вечером всем разошлю.

 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Статус
Закрыто для дальнейших ответов.

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)