WebArchiveMaster - парсер Вебархива

  • Автор темы Автор темы footashes
  • Дата начала Дата начала
Статус
В этой теме нельзя размещать новые ответы.
Завтра к вечеру будет много интересного по восстановлению полной копии из Вебархива. Смысл работы немного изменился, но вы получите полностью готовый сайт и моё мнение о смысле восстановления сайта. Всё будет немного по другому. До вечера пятницы вы получите:

Все программы на время Черной пятницы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал) за 400 рублей.
Новое!
Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.
Уже как бы воскресенье ...
 
Встроенный проксичекер не сохраняет прокси в файл. Нужны свои источники, про которые никто не знает.
Сохраняет, ещё как.
Хороший источник всегда можно найти.
Прикрути к шаблонам,плиз.
Если есть прокся в проксичекере использовать свою. Если нет, то на автомате.
P.S. Пришлось вспоминать как делал. Раньше сохранял на комп разные шаблоны и купленные и свои. Поудалял с год назад. :(
 

Вложения

Последнее редактирование:
Сохраняет, ещё как.
Хороший источник всегда можно найти.
Прикрути к шаблонам,плиз.
Если есть прокся в проксичекере использовать свою. Если нет, то на автомате.
P.S. Пришлось вспоминать как делал. Раньше сохранял на комп разные шаблоны и купленные и свои. Поудалял с год назад. :(
Хорошо, сегодня доделаю видео по готовым сайтам и прикручу. Хотя не вижу в этом смысла - всё равно нужно добавлять свои источники прокси и создавать правила, иначе всё пойдет в отбой. Думаю, сегодня вечером разошлю и пофиксю всё, что смогу.
 
Последнее редактирование:
Тестирование проверок на антиплагиат. В принципе, свои источники прокси показывают очень хорошие результаты и скорость.
 
Последнее редактирование:
В Вебархиве громадное количество уникального текста. Вот сейчас пересмотрел интересного блогера, пишущего о Форексе, но почему-то забившего на блог, а писал интересно - любопытно, что с ним стало? Пару недель назад домен выкупили, наверняка там будет дорвей финансовой тематики. Писал человек, не спал ночами - и что в итоге? Спасибо Вебархиву, эти ребята смотрят гораздо глубже.
 
Последнее редактирование:
А можно как-то распознать ещё в начале китайский дорвей и не качать КК страниц сутками.
 
footashes, можете связаться со мной в личке?
Оплату произвел на ваш кошель еще 26 ноября, в примечании указал к оплате свой email, также в этот день отписался вам в ЛС.
Но от вас нигде нет ответа, т.е. материал я так и не получил.
 
А можно повторно разослать последнее письмо? Ссылки на ЯДиск пустые
 
Всем отправил с пояснениями. Если не получили, пишите в ЛС или на почту. Были проблемы с компьютером.

Антиплагиат

Теперь используется взятие прокси из встроенного проксичекера, за это отвечает файл Proxy.cfg.
Если там стоит значение "1", то используется проксичекер, если прокси нет, парсятся из другого источника. Если вы хотите использовать свои прокси, положите их в файл My_proxys. Если поставить значение "0", то проверится файл с вашими прокси и если он пустой, прокси будут парсится с другого источника.
 
Последнее редактирование:
  • Спасибо
Реакции: flo
А можно как-то распознать ещё в начале китайский дорвей и не качать КК страниц сутками.
Там стоит ограничение, которое можно менять - если ссылок более 2000, то считать дорвеем, записать в файл Dorvey.txt для ручной проверки и брать другой домен. Либо брать по штампам, но тогда теряется смысл автоматизации. Но можно поставить фильтры проверок различных языков, и если он есть в тексте, то пропускать эту страницу. Если нужно, это несложно сделать.
 
Спасибо, всё заменила, всё заработало,как часы!
 
краулер при создании директории берет не ту переменную. в следствии выкатывает ошибку.
 
Это не ошибка создания директории, а сбой во время фильтрации. Это может быть что угодно, например, Вебархив почему-то не отдает файлы. Во время зачистки передаются данные для проверки в таблицу, и если получает постое значение, то на всякий случай перезаписывает домен в конец файла, чтобы вернуться к нему позднее и попробовать ещё раз, и берет другой на проверку. Все эти домены остаются в файле, они не удаляются. Или заскриньте и пришлите в ЛС.
 
В файле Domens.txt домены должны быть такого формата, без http:\\ и https:\\, иначе директория не сможет создаться из-за не поддерживающихся символов.

kuritenazdorovie.ru
ufazdorovie.ru
kosmetikazdorovo.ru


В следующей версии это будет неважно, т.к. будет стоять проверка и конвертация, также будет изменен алгоритм и фильтрация.
 
Внеочередное обновление WebArchiveMasters:

1. В файл Domens домены теперь можно вводить в любом формате:
http://zennolab.com/
zennolab.com/discussion
https://zennolab.com/discussion/threads
и т.д.
2. Найдена причина перезаписывания доменов, теперь в 99% домены обрабатываются сразу
3. Оптимизация и ускорение

Совет
Экспериментируйте с файлом конфигурации Config.сfg. Если вы хотите брать большие статьи, ставьте значение больше. По умолчанию стоит 500 символов, выглядит это примерно так:
Код:
Развернуть Свернуть Копировать
 Сложности подросткового возраста. Проблемы подростков. Здоровая семья
Проблема подростков всегда приковывала к себе внимание учителей и родителей, но особенно актуальной она стала в последнее время.
Чем же характеризуются сложности подросткового возраста? Что необходимо знать родителям по этому вопросу с целью грамотного управления развитием и воспитанием подростка?
Жизнь подростка и взрослого находится на разных полюсах, т. е. жизнь взрослого намного сложнее, чем детей. Проблема состоит в том, что

Прилагаю два файла - пример работы парсинга текста и готового сайта (сайт запускать в Опен сервере или на хостинге). На уникальность не проверялось, только как пример работы:

Разошлю всем завтра.

Все программы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал + Content Watch) за 500 рублей.

Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно с видеопримером установки.

Вебмани: R282711380496
Яндекс-Деньги: 410011187505134
В примечании введите свой емейл.
 

Вложения

Последнее редактирование:
Всё хорошо работает. Хочу уточнить.
Проверка на уникальность делается из файлов в папке Content-watch\Article, что хорошо. Парсинг архива делается с разбитием по доменам, что тоже хорошо.
Но внутри доменов статьи с одинаковыми именами.
Хорошо бы, чтобы проверка на уникальность могла заходить внутрь папок доменов со статьями, либо к спаршенным статьям в названии файлов добавлялся домен для случая их копирования в папку Content-watch\Article вручную.

Сейчас делаю так:
парсю в архиве домен. В нём 400 файлов. Перекладываю в папку Content-watch\Article и пока не проверится уникальность всех новые файлы не подкладываю от другого домена, а хотелось бы положить туда десяток тысяч файлов и забыть про Content-watch на несколько дней.
 
Возможно, вы используете устаревшую версию. Сейчас используется название статей по названию домена, например:
Домен - dlja-zdorovja.ru
Внутри статьи:
dlja-zdorovja1.txt
dlja-zdorovja2.txt
dlja-zdorovja3.txt
...
dlja-zdorovja134.txt

Создание доменов с текстами для антиплагиата уже разрабатывается.
 
  • Спасибо
Реакции: Bahus
Возможно, вы используете устаревшую версию. Сейчас используется название статей по названию домена, например:
Домен - dlja-zdorovja.ru
Внутри статьи:

dlja-zdorovja134.txt

Создание доменов с текстами для антиплагиата уже разрабатывается.

Точно, спасибо. Новые пошли с названиями доменов
 
Хочу у вас купить прогу эту для парсинга статей с Вебархива!!!
 
Ве оплатил на ваш Webmoney кошелёк 500р
 
Забыл указать свою почту в примечании к платежу - Вот сюда вышлите программы webfrilanser777@gmail.com
Оплачивал с кошелька: R390857135396
 
Автор, может создадите телеграм чат, для обсуждения и решения вопросов и подсказок оперативных?
 
Автор, может создадите телеграм чат, для обсуждения и решения вопросов и подсказок оперативных?
Не вижу необходимости, это не горячая тематика, достаточно ЛС или емейл.
 
Не вижу необходимости, это не горячая тематика, достаточно ЛС или емейл.
На почту написал, вчера еще, но не ответили.
У меня вопрос, обязательно ли опенсервер ставить, хотелось бы на хостинг скрипт перенести и вроде по мануалу делал, но в зенке в логе ошибка возникает, как при опенсервере так и с хостинга
 
Вроде отвечал. Можно на хостинг - если ошибка, что бесшаблонный парсер подключен неправильно, значит, путь в scraper написан неверно. Ложить (класть) обработчик нужно в корневую директорию, например: http://zennolab.com или использовать поддомен - http://full.zennolab.com. Проверить работу парсера можно, введя в браузере http://zennolab.com, должны появится поля ввода. Этот же путь (http://zennolab.com) прописать в scraper.txt.
 
Обновление WebArchiveMasters:

1. В файл Domens домены теперь можно вводить в любом формате:
http://zennolab.com/
zennolab.com/discussion
https://zennolab.com/discussion/threads
и т.д.
2. Найдена причина перезаписывания доменов, теперь в 99% домены обрабатываются сразу. Если на компьютере стоит мало оперативной памяти, данные не успевали обрабатываться и приходилось перезаписывать домен и брать другой, поэтому выставлена задержка.
3. Также добавлена помощь в WebArchiveMasters.pdf (смотрите в самом низу).
Проверка на плагиат

Принцип работы - шаблон запрашивает встроенный проксичекер, если прокси нет, берется прокси из файла, если в файле прокси тоже нет, запускается автоматический парсинг прокси.

Если с автоматическим парсингом возникли проблемы, программа ждет несколько минут и начинает сначала.

Через пару часов разошлю.
 
Статус
В этой теме нельзя размещать новые ответы.

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)