WebArchiveMaster - парсер Вебархива

Статус
Закрыто для дальнейших ответов.

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Webarch.jpg


WebArchiveMaster - программа парсинга контента из ВебАрхива. Программа полностью автоматизирована и позволяет разгрузить своё время на 90%. Программа работает в связке с PHP скриптом, который можно поставить на любой хостинг или использовать Open Server - https://ospanel.io (рекомендуется).

Принцип работы очень прост - нужно только вставить домены в текстовый файл и запустить программу - все остальное она сделает сама. Никаких настроек нет, так-как все настроено на максимальную производительность.

Пример спарсенных текстов - скачать пример
Скачать мануал - WebArchiveMaster.pdf
Цена - 500 рублей. Шаблон полностью открытый и без привязок.

 

Вложения

Последнее редактирование:

kagorec

Client
Регистрация
24.08.2013
Сообщения
979
Благодарностей
523
Баллы
93
Наименование текстовиков без названия страницы?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Регистрация
27.05.2015
Сообщения
129
Благодарностей
45
Баллы
28
Как купить скрипт?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Сделал видео-ролик, показывающий принцип работы, чтобы было немного понятнее.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Если кому интересно, можете купить сайт, пару таких продал: https://www.telderi.ru/ru/viewsite/1151980. Сделан полностью на Зеннопостере.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
На данный момент проблемы с жестким диском, отвечу через неделю, как сделаю.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Кто хочет купить шаблон, вот реквизиты:
Вебмани: R282711380496
Яндекс-Деньги: 410011187505134

В примечании напишите свой емейл, на него будет выслан проект.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Вот обновленный мануал.
 

Вложения

  • Спасибо
Реакции: teodocomo

ibelieve

Client
Регистрация
24.12.2012
Сообщения
250
Благодарностей
96
Баллы
28

grandmd

Client
Регистрация
09.10.2013
Сообщения
29
Благодарностей
5
Баллы
3
тоже интересно!
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Люди работают. Специально для этого форума первым пяти покупателям скидка 50%, то есть за 500 рублей, просто посмотреть, ваше это или нет, так-как это не кнопка бабло и придется просматривать и вычитывать тексты. Работы много, и она очень нудная - кто-то работает по рушкам, сейчас новый тренд - брошенные украинские сайты с текстами для яндекса, так-как яндекс их не индексирует. Я видел несколько таких сайтов, которые вовремя подсуетились и получили очень неплохую посещаемость на парсинге и переводе с украинского на русский.
Домены советую подбирать на expireddomains.net, так-как nomina.ru сейчас перегружен, а дополнительный шаблон парсинга доменов писался именно под него.

Да, моя версия ЗенноПостера - v.5.9.8.1
 
Последнее редактирование:

grandmd

Client
Регистрация
09.10.2013
Сообщения
29
Благодарностей
5
Баллы
3
готов взять за 50%
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 983
Благодарностей
4 433
Баллы
113
В вебархиве же не 100% сохраняется контент?
Под EN сайты есть успехи?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Скачивается все, что там есть. Работаю только под RU и UK.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Скидка активна. Реквизиты выше.
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 983
Благодарностей
4 433
Баллы
113

deninsto

Client
Регистрация
21.09.2015
Сообщения
25
Благодарностей
7
Баллы
3
@footashes bl=3 как-то низковатый уровень в системе webmoney.
можем через протекцию сработать - Вы не против?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
@footashes bl=3 как-то низковатый уровень в системе webmoney.
можем через протекцию сработать - Вы не против?
Да без проблем. Я работаю в основном через Яндекс.Деньги, а Вебмани почти не пользуюсь.
 

boorik2

Client
Регистрация
10.04.2017
Сообщения
202
Благодарностей
62
Баллы
28

deninsto

Client
Регистрация
21.09.2015
Сообщения
25
Благодарностей
7
Баллы
3
@footashes
в личку написал, ответь
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Исправлена небольшая ошибка с парсингом данных доменов третьего уровня (как пример - yazdorovak.ua.tl). Домены с двумя точками отбрасывались и начинался переход в начало. Насчет буржа - парсятся все языки, кроме английского, т.к. происходит чистка всех английских слов, а не только тегов. Регистратор доменов nomina.ru не работает, а для работы с доменами шаблон был написан именно под него (только RU зона, я работаю практически только с русским текстом), поэтому придется писать шаблон под другой регистратор, например, expireddomains.net. Или напишите в личку самый удобный.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
У меня в один поток за 5-6 часов получается около 600-700 текстов. Интернет ADSL. В шаблоне есть некоторые логические недоработки, например, нет первичной проверки текста - если, к примеру, текст меньше 500 символов, то программа игнорирует этот текст, а не отрабатывает полностью, что позволит дать прирост в скорости в десятки раз; с моей скоростью это просто не критично.
Через 2-3 дня я напишу все эти функции и немного изменю логику - сейчас занят другим проектом, напрямую связанную с вебархивом - гулялка по комментариям Вордпресс и сбор ссылок с комментариев. Можно собрать отличную тематическую базу дропнутых доменов. Я работаю именно так, только в ручную, сейчас автоматизирую и всем разошлю для тестирования.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Забыл написать, что количество текстов зависит от тематики. Я работаю исключительно с женской темой, а статей по этой тематике невероятно много.
 

deninsto

Client
Регистрация
21.09.2015
Сообщения
25
Благодарностей
7
Баллы
3
гулялка по комментариям Вордпресс и сбор ссылок с комментариев. Можно собрать отличную тематическую базу дропнутых доменов
поясните подробнее, для чего это нужно
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
поясните подробнее, для чего это нужно
Сбор своей базы дропов по своей тематике. Существует обмен комментариями сайтов по своей тематике, например, на сайте с рецептами комментируют люди, имеющие близкую тематику и оставляют ссылку, ведущую на сайт, это практически сообщество, довольно узкий круг, без залетных.

Многие сайты уходят в небытие - люди забрасывают сайты, переезжают, меняют работы - и это, как правило, очень хорошие сайты с авторскими текстами - я работаю именно так, только отбираю вручную, отдаю программе и работаю с этими забытыми доменами, руки не доходят автоматизировать, позже приведу пример, если не ясно. А просто скаченный список доменов по ключевым словам - это 80% мусора, который программа перелопачивает, прежде чем наткнутся на что-то стоящее. Все равно приходится просматривать текста - стилистику, орфографию и т.д., но здесь в 90% работает программа и я всегда натыкаюсь на интересные статьи. Вручную проверять каждый домен вообще не вариант, именно для этого и нужна программа.
 
  • Спасибо
Реакции: Astraport

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 983
Благодарностей
4 433
Баллы
113
Вот сейчас вручную на expireddomains.net поискал бурж. дропы по заданной тематике (два ключа).
Выдало десяток сайтов. Все их проверил в вебархиве.
На половине есть полезные статьи.
Проверяю на text.ru на уникальность - ни одного уникального. И многие тексты на дороподобных блогах размещены.
Похоже бурж по этой методике давно окучивают и особо там ловить нечего.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Бурж окучивают все страны, даже не зная языка, т.к. это бизнес. Я не думаю, что американец будет парсить русские тексты. Лично я работаю по России и Украине, а люди у нас душевные, на коммерцию просто не повернуты, годами ведут сайты, графоманят от души, пишут статьи по 20000 символов, потом все бросают, начинают с чистого листа и так по кругу.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Обновлен WebArchiveMasters. Немного переделана логика - ранее для проверки на присутствие текста требовался полный цикл, даже если его там нет, теперь логика вынесена в начало, что позволило увеличить скорость парсинга. Также пофиксены мелкие детали. Программа скачивает любой текст, пока кроме английского, так-как логика чистки построена на удалении всех английских символов.

Уникального текста очень много, вот пример работы парсера за пару часов - скачено около шестисот текстов, выборочная проверка показала много уника.
Screenshot_1.jpg


Также предлагаю протестировать демку ксевила, возможно, пригодится для тестирования своих проектов - конечно, не ultra, зато бесплатно - https://yadi.sk/d/PbZDyaFD3MniTy
 
Статус
Закрыто для дальнейших ответов.

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)