WebArchiveMaster - парсер Вебархива

Harry · 03.12.2017

footashes написал(а):
Завтра к вечеру будет много интересного по восстановлению полной копии из Вебархива. Смысл работы немного изменился, но вы получите полностью готовый сайт и моё мнение о смысле восстановления сайта. Всё будет немного по другому. До вечера пятницы вы получите:

Все программы на время Черной пятницы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал) за 400 рублей.
Новое!
Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.

Уже как бы воскресенье ...

footashes · 03.12.2017

Harry написал(а):
Уже как бы воскресенье ...

Пришлось многое пересмотреть. Завтра к вечеру всем разошлю.

devas111 · 03.12.2017

footashes написал(а):
Встроенный проксичекер не сохраняет прокси в файл. Нужны свои источники, про которые никто не знает.

Сохраняет, ещё как.
Хороший источник всегда можно найти.
Прикрути к шаблонам,плиз.
Если есть прокся в проксичекере использовать свою. Если нет, то на автомате.
P.S. Пришлось вспоминать как делал. Раньше сохранял на комп разные шаблоны и купленные и свои. Поудалял с год назад.

footashes · 04.12.2017

devas111 написал(а):
Сохраняет, ещё как.
Хороший источник всегда можно найти.
Прикрути к шаблонам,плиз.
Если есть прокся в проксичекере использовать свою. Если нет, то на автомате.
P.S. Пришлось вспоминать как делал. Раньше сохранял на комп разные шаблоны и купленные и свои. Поудалял с год назад.

Хорошо, сегодня доделаю видео по готовым сайтам и прикручу. Хотя не вижу в этом смысла - всё равно нужно добавлять свои источники прокси и создавать правила, иначе всё пойдет в отбой. Думаю, сегодня вечером разошлю и пофиксю всё, что смогу.

footashes · 04.12.2017

Тестирование проверок на антиплагиат. В принципе, свои источники прокси показывают очень хорошие результаты и скорость.

footashes · 04.12.2017

В Вебархиве громадное количество уникального текста. Вот сейчас пересмотрел интересного блогера, пишущего о Форексе, но почему-то забившего на блог, а писал интересно - любопытно, что с ним стало? Пару недель назад домен выкупили, наверняка там будет дорвей финансовой тематики. Писал человек, не спал ночами - и что в итоге? Спасибо Вебархиву, эти ребята смотрят гораздо глубже.

devas111 · 05.12.2017

А можно как-то распознать ещё в начале китайский дорвей и не качать КК страниц сутками.

seowin · 05.12.2017

footashes, можете связаться со мной в личке?
Оплату произвел на ваш кошель еще 26 ноября, в примечании указал к оплате свой email, также в этот день отписался вам в ЛС.
Но от вас нигде нет ответа, т.е. материал я так и не получил.

ailebedev · 05.12.2017

А можно повторно разослать последнее письмо? Ссылки на ЯДиск пустые

footashes · 05.12.2017

Всем отправил с пояснениями. Если не получили, пишите в ЛС или на почту. Были проблемы с компьютером.

Антиплагиат

Теперь используется взятие прокси из встроенного проксичекера, за это отвечает файл Proxy.cfg.
Если там стоит значение "1", то используется проксичекер, если прокси нет, парсятся из другого источника. Если вы хотите использовать свои прокси, положите их в файл My_proxys. Если поставить значение "0", то проверится файл с вашими прокси и если он пустой, прокси будут парсится с другого источника.

footashes · 05.12.2017

devas111 написал(а):
А можно как-то распознать ещё в начале китайский дорвей и не качать КК страниц сутками.

Там стоит ограничение, которое можно менять - если ссылок более 2000, то считать дорвеем, записать в файл Dorvey.txt для ручной проверки и брать другой домен. Либо брать по штампам, но тогда теряется смысл автоматизации. Но можно поставить фильтры проверок различных языков, и если он есть в тексте, то пропускать эту страницу. Если нужно, это несложно сделать.

flo · 05.12.2017

Спасибо, всё заменила, всё заработало,как часы!

zonawm · 06.12.2017

краулер при создании директории берет не ту переменную. в следствии выкатывает ошибку.

footashes · 06.12.2017

Это не ошибка создания директории, а сбой во время фильтрации. Это может быть что угодно, например, Вебархив почему-то не отдает файлы. Во время зачистки передаются данные для проверки в таблицу, и если получает постое значение, то на всякий случай перезаписывает домен в конец файла, чтобы вернуться к нему позднее и попробовать ещё раз, и берет другой на проверку. Все эти домены остаются в файле, они не удаляются. Или заскриньте и пришлите в ЛС.

footashes · 06.12.2017

В файле Domens.txt домены должны быть такого формата, без http:\\ и https:\\, иначе директория не сможет создаться из-за не поддерживающихся символов.

kuritenazdorovie.ru
ufazdorovie.ru
kosmetikazdorovo.ru

В следующей версии это будет неважно, т.к. будет стоять проверка и конвертация, также будет изменен алгоритм и фильтрация.

footashes · 07.12.2017

Внеочередное обновление WebArchiveMasters:

1. В файл Domens домены теперь можно вводить в любом формате:
http://zennolab.com/
zennolab.com/discussion
https://zennolab.com/discussion/threads
и т.д.
2. Найдена причина перезаписывания доменов, теперь в 99% домены обрабатываются сразу
3. Оптимизация и ускорение

Совет
Экспериментируйте с файлом конфигурации Config.сfg. Если вы хотите брать большие статьи, ставьте значение больше. По умолчанию стоит 500 символов, выглядит это примерно так:

Код:

 Сложности подросткового возраста. Проблемы подростков. Здоровая семья
Проблема подростков всегда приковывала к себе внимание учителей и родителей, но особенно актуальной она стала в последнее время.
Чем же характеризуются сложности подросткового возраста? Что необходимо знать родителям по этому вопросу с целью грамотного управления развитием и воспитанием подростка?
Жизнь подростка и взрослого находится на разных полюсах, т. е. жизнь взрослого намного сложнее, чем детей. Проблема состоит в том, что

Прилагаю два файла - пример работы парсинга текста и готового сайта (сайт запускать в Опен сервере или на хостинге). На уникальность не проверялось, только как пример работы:

Разошлю всем завтра.

Все программы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал + Content Watch) за 500 рублей.

Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно с видеопримером установки.

Вебмани: R282711380496
Яндекс-Деньги: 410011187505134
В примечании введите свой емейл.

Bahus · 07.12.2017

Всё хорошо работает. Хочу уточнить.
Проверка на уникальность делается из файлов в папке Content-watch\Article, что хорошо. Парсинг архива делается с разбитием по доменам, что тоже хорошо.
Но внутри доменов статьи с одинаковыми именами.
Хорошо бы, чтобы проверка на уникальность могла заходить внутрь папок доменов со статьями, либо к спаршенным статьям в названии файлов добавлялся домен для случая их копирования в папку Content-watch\Article вручную.

Сейчас делаю так:
парсю в архиве домен. В нём 400 файлов. Перекладываю в папку Content-watch\Article и пока не проверится уникальность всех новые файлы не подкладываю от другого домена, а хотелось бы положить туда десяток тысяч файлов и забыть про Content-watch на несколько дней.

footashes · 07.12.2017

Возможно, вы используете устаревшую версию. Сейчас используется название статей по названию домена, например:
Домен - dlja-zdorovja.ru
Внутри статьи:
dlja-zdorovja1.txt
dlja-zdorovja2.txt
dlja-zdorovja3.txt
...
dlja-zdorovja134.txt

Создание доменов с текстами для антиплагиата уже разрабатывается.

Bahus · 07.12.2017

footashes написал(а):
Возможно, вы используете устаревшую версию. Сейчас используется название статей по названию домена, например:
Домен - dlja-zdorovja.ru
Внутри статьи:

dlja-zdorovja134.txt

Создание доменов с текстами для антиплагиата уже разрабатывается.

Точно, спасибо. Новые пошли с названиями доменов

Webfrilanser · 07.12.2017

Хочу у вас купить прогу эту для парсинга статей с Вебархива!!!

Webfrilanser · 07.12.2017

Ве оплатил на ваш Webmoney кошелёк 500р

Webfrilanser · 07.12.2017

Забыл указать свою почту в примечании к платежу - Вот сюда вышлите программы webfrilanser777@gmail.com
Оплачивал с кошелька: R390857135396

footashes · 07.12.2017

В следующий раз пишите в ЛС или на емейл: footashes@gmail.com

Webfrilanser · 07.12.2017

footashes написал(а):
В следующий раз пишите в ЛС или на емейл: footashes@gmail.com

Хорошо

ailebedev · 07.12.2017

Автор, может создадите телеграм чат, для обсуждения и решения вопросов и подсказок оперативных?

footashes · 07.12.2017

ailebedev написал(а):
Автор, может создадите телеграм чат, для обсуждения и решения вопросов и подсказок оперативных?

Не вижу необходимости, это не горячая тематика, достаточно ЛС или емейл.

ailebedev · 07.12.2017

footashes написал(а):
Не вижу необходимости, это не горячая тематика, достаточно ЛС или емейл.

На почту написал, вчера еще, но не ответили.
У меня вопрос, обязательно ли опенсервер ставить, хотелось бы на хостинг скрипт перенести и вроде по мануалу делал, но в зенке в логе ошибка возникает, как при опенсервере так и с хостинга

footashes · 07.12.2017

Вроде отвечал. Можно на хостинг - если ошибка, что бесшаблонный парсер подключен неправильно, значит, путь в scraper написан неверно. Ложить (класть) обработчик нужно в корневую директорию, например: http://zennolab.com или использовать поддомен - http://full.zennolab.com. Проверить работу парсера можно, введя в браузере http://zennolab.com, должны появится поля ввода. Этот же путь (http://zennolab.com) прописать в scraper.txt.

footashes · 08.12.2017

Обновление WebArchiveMasters:

1. В файл Domens домены теперь можно вводить в любом формате:
http://zennolab.com/
zennolab.com/discussion
https://zennolab.com/discussion/threads
и т.д.
2. Найдена причина перезаписывания доменов, теперь в 99% домены обрабатываются сразу. Если на компьютере стоит мало оперативной памяти, данные не успевали обрабатываться и приходилось перезаписывать домен и брать другой, поэтому выставлена задержка.
3. Также добавлена помощь в WebArchiveMasters.pdf (смотрите в самом низу).
Проверка на плагиат

Принцип работы - шаблон запрашивает встроенный проксичекер, если прокси нет, берется прокси из файла, если в файле прокси тоже нет, запускается автоматический парсинг прокси.

Если с автоматическим парсингом возникли проблемы, программа ждет несколько минут и начинает сначала.

Через пару часов разошлю.

footashes · 08.12.2017

Всем отправил. Если что, пишите в ЛС или на емейл: footashes@gmail.com

WebArchiveMaster - парсер Вебархива

Client

Client

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Client

Client

Новичок

Новичок

Новичок

Client

Новичок

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)