WebArchiveMaster - парсер Вебархива

  • Автор темы Автор темы footashes
  • Дата начала Дата начала
Статус
В этой теме нельзя размещать новые ответы.

footashes

Client
Регистрация
20.02.2015
Сообщения
1 054
Реакции
440
Баллы
83
Webarch.jpg


WebArchiveMaster - программа парсинга контента из ВебАрхива. Программа полностью автоматизирована и позволяет разгрузить своё время на 90%. Программа работает в связке с PHP скриптом, который можно поставить на любой хостинг или использовать Open Server - https://ospanel.io (рекомендуется).

Принцип работы очень прост - нужно только вставить домены в текстовый файл и запустить программу - все остальное она сделает сама. Никаких настроек нет, так-как все настроено на максимальную производительность.

Пример спарсенных текстов - скачать пример
Скачать мануал - WebArchiveMaster.pdf
Цена - 500 рублей. Шаблон полностью открытый и без привязок.

 

Вложения

Последнее редактирование:
Если кому интересно, можете купить сайт, пару таких продал: https://www.telderi.ru/ru/viewsite/1151980. Сделан полностью на Зеннопостере.
 
Кто хочет купить шаблон, вот реквизиты:
Вебмани: R282711380496
Яндекс-Деньги: 410011187505134

В примечании напишите свой емейл, на него будет выслан проект.
 
тоже интересно!
 
Люди работают. Специально для этого форума первым пяти покупателям скидка 50%, то есть за 500 рублей, просто посмотреть, ваше это или нет, так-как это не кнопка бабло и придется просматривать и вычитывать тексты. Работы много, и она очень нудная - кто-то работает по рушкам, сейчас новый тренд - брошенные украинские сайты с текстами для яндекса, так-как яндекс их не индексирует. Я видел несколько таких сайтов, которые вовремя подсуетились и получили очень неплохую посещаемость на парсинге и переводе с украинского на русский.
Домены советую подбирать на expireddomains.net, так-как nomina.ru сейчас перегружен, а дополнительный шаблон парсинга доменов писался именно под него.

Да, моя версия ЗенноПостера - v.5.9.8.1
 
Последнее редактирование:
готов взять за 50%
 
@footashes bl=3 как-то низковатый уровень в системе webmoney.
можем через протекцию сработать - Вы не против?
 
@footashes bl=3 как-то низковатый уровень в системе webmoney.
можем через протекцию сработать - Вы не против?

Да без проблем. Я работаю в основном через Яндекс.Деньги, а Вебмани почти не пользуюсь.
 
Исправлена небольшая ошибка с парсингом данных доменов третьего уровня (как пример - yazdorovak.ua.tl). Домены с двумя точками отбрасывались и начинался переход в начало. Насчет буржа - парсятся все языки, кроме английского, т.к. происходит чистка всех английских слов, а не только тегов. Регистратор доменов nomina.ru не работает, а для работы с доменами шаблон был написан именно под него (только RU зона, я работаю практически только с русским текстом), поэтому придется писать шаблон под другой регистратор, например, expireddomains.net. Или напишите в личку самый удобный.
 
У меня в один поток за 5-6 часов получается около 600-700 текстов. Интернет ADSL. В шаблоне есть некоторые логические недоработки, например, нет первичной проверки текста - если, к примеру, текст меньше 500 символов, то программа игнорирует этот текст, а не отрабатывает полностью, что позволит дать прирост в скорости в десятки раз; с моей скоростью это просто не критично.
Через 2-3 дня я напишу все эти функции и немного изменю логику - сейчас занят другим проектом, напрямую связанную с вебархивом - гулялка по комментариям Вордпресс и сбор ссылок с комментариев. Можно собрать отличную тематическую базу дропнутых доменов. Я работаю именно так, только в ручную, сейчас автоматизирую и всем разошлю для тестирования.
 
Забыл написать, что количество текстов зависит от тематики. Я работаю исключительно с женской темой, а статей по этой тематике невероятно много.
 
поясните подробнее, для чего это нужно
Сбор своей базы дропов по своей тематике. Существует обмен комментариями сайтов по своей тематике, например, на сайте с рецептами комментируют люди, имеющие близкую тематику и оставляют ссылку, ведущую на сайт, это практически сообщество, довольно узкий круг, без залетных.

Многие сайты уходят в небытие - люди забрасывают сайты, переезжают, меняют работы - и это, как правило, очень хорошие сайты с авторскими текстами - я работаю именно так, только отбираю вручную, отдаю программе и работаю с этими забытыми доменами, руки не доходят автоматизировать, позже приведу пример, если не ясно. А просто скаченный список доменов по ключевым словам - это 80% мусора, который программа перелопачивает, прежде чем наткнутся на что-то стоящее. Все равно приходится просматривать текста - стилистику, орфографию и т.д., но здесь в 90% работает программа и я всегда натыкаюсь на интересные статьи. Вручную проверять каждый домен вообще не вариант, именно для этого и нужна программа.
 
  • Спасибо
Реакции: Astraport
Вот сейчас вручную на expireddomains.net поискал бурж. дропы по заданной тематике (два ключа).
Выдало десяток сайтов. Все их проверил в вебархиве.
На половине есть полезные статьи.
Проверяю на text.ru на уникальность - ни одного уникального. И многие тексты на дороподобных блогах размещены.
Похоже бурж по этой методике давно окучивают и особо там ловить нечего.
 
Бурж окучивают все страны, даже не зная языка, т.к. это бизнес. Я не думаю, что американец будет парсить русские тексты. Лично я работаю по России и Украине, а люди у нас душевные, на коммерцию просто не повернуты, годами ведут сайты, графоманят от души, пишут статьи по 20000 символов, потом все бросают, начинают с чистого листа и так по кругу.
 
Обновлен WebArchiveMasters. Немного переделана логика - ранее для проверки на присутствие текста требовался полный цикл, даже если его там нет, теперь логика вынесена в начало, что позволило увеличить скорость парсинга. Также пофиксены мелкие детали. Программа скачивает любой текст, пока кроме английского, так-как логика чистки построена на удалении всех английских символов.

Уникального текста очень много, вот пример работы парсера за пару часов - скачено около шестисот текстов, выборочная проверка показала много уника.
Screenshot_1.jpg


Также предлагаю протестировать демку ксевила, возможно, пригодится для тестирования своих проектов - конечно, не ultra, зато бесплатно - https://yadi.sk/d/PbZDyaFD3MniTy
 
Статус
В этой теме нельзя размещать новые ответы.

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)