WebArchiveMaster - парсер Вебархива

Статус
Закрыто для дальнейших ответов.

Harry

Client
Регистрация
15.11.2015
Сообщения
5
Благодарностей
0
Баллы
1
Завтра к вечеру будет много интересного по восстановлению полной копии из Вебархива. Смысл работы немного изменился, но вы получите полностью готовый сайт и моё мнение о смысле восстановления сайта. Всё будет немного по другому. До вечера пятницы вы получите:

Все программы на время Черной пятницы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал) за 400 рублей.
Новое!
Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.
Уже как бы воскресенье ...
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Встроенный проксичекер не сохраняет прокси в файл. Нужны свои источники, про которые никто не знает.
Сохраняет, ещё как.
Хороший источник всегда можно найти.
Прикрути к шаблонам,плиз.
Если есть прокся в проксичекере использовать свою. Если нет, то на автомате.
P.S. Пришлось вспоминать как делал. Раньше сохранял на комп разные шаблоны и купленные и свои. Поудалял с год назад. :(
 

Вложения

Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Сохраняет, ещё как.
Хороший источник всегда можно найти.
Прикрути к шаблонам,плиз.
Если есть прокся в проксичекере использовать свою. Если нет, то на автомате.
P.S. Пришлось вспоминать как делал. Раньше сохранял на комп разные шаблоны и купленные и свои. Поудалял с год назад. :(
Хорошо, сегодня доделаю видео по готовым сайтам и прикручу. Хотя не вижу в этом смысла - всё равно нужно добавлять свои источники прокси и создавать правила, иначе всё пойдет в отбой. Думаю, сегодня вечером разошлю и пофиксю всё, что смогу.
 
Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Тестирование проверок на антиплагиат. В принципе, свои источники прокси показывают очень хорошие результаты и скорость.
 
Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
В Вебархиве громадное количество уникального текста. Вот сейчас пересмотрел интересного блогера, пишущего о Форексе, но почему-то забившего на блог, а писал интересно - любопытно, что с ним стало? Пару недель назад домен выкупили, наверняка там будет дорвей финансовой тематики. Писал человек, не спал ночами - и что в итоге? Спасибо Вебархиву, эти ребята смотрят гораздо глубже.
 
Последнее редактирование:

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
А можно как-то распознать ещё в начале китайский дорвей и не качать КК страниц сутками.
 

seowin

Client
Регистрация
02.05.2016
Сообщения
111
Благодарностей
9
Баллы
18
footashes, можете связаться со мной в личке?
Оплату произвел на ваш кошель еще 26 ноября, в примечании указал к оплате свой email, также в этот день отписался вам в ЛС.
Но от вас нигде нет ответа, т.е. материал я так и не получил.
 

ailebedev

Client
Регистрация
28.09.2016
Сообщения
13
Благодарностей
0
Баллы
1
А можно повторно разослать последнее письмо? Ссылки на ЯДиск пустые
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Всем отправил с пояснениями. Если не получили, пишите в ЛС или на почту. Были проблемы с компьютером.

Антиплагиат

Теперь используется взятие прокси из встроенного проксичекера, за это отвечает файл Proxy.cfg.
Если там стоит значение "1", то используется проксичекер, если прокси нет, парсятся из другого источника. Если вы хотите использовать свои прокси, положите их в файл My_proxys. Если поставить значение "0", то проверится файл с вашими прокси и если он пустой, прокси будут парсится с другого источника.
 
Последнее редактирование:
  • Спасибо
Реакции: flo

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
А можно как-то распознать ещё в начале китайский дорвей и не качать КК страниц сутками.
Там стоит ограничение, которое можно менять - если ссылок более 2000, то считать дорвеем, записать в файл Dorvey.txt для ручной проверки и брать другой домен. Либо брать по штампам, но тогда теряется смысл автоматизации. Но можно поставить фильтры проверок различных языков, и если он есть в тексте, то пропускать эту страницу. Если нужно, это несложно сделать.
 

flo

Client
Регистрация
08.11.2017
Сообщения
5
Благодарностей
1
Баллы
3
Спасибо, всё заменила, всё заработало,как часы!
 

zonawm

Client
Регистрация
02.11.2017
Сообщения
14
Благодарностей
10
Баллы
3
краулер при создании директории берет не ту переменную. в следствии выкатывает ошибку.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Это не ошибка создания директории, а сбой во время фильтрации. Это может быть что угодно, например, Вебархив почему-то не отдает файлы. Во время зачистки передаются данные для проверки в таблицу, и если получает постое значение, то на всякий случай перезаписывает домен в конец файла, чтобы вернуться к нему позднее и попробовать ещё раз, и берет другой на проверку. Все эти домены остаются в файле, они не удаляются. Или заскриньте и пришлите в ЛС.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
В файле Domens.txt домены должны быть такого формата, без http:\\ и https:\\, иначе директория не сможет создаться из-за не поддерживающихся символов.

kuritenazdorovie.ru
ufazdorovie.ru
kosmetikazdorovo.ru


В следующей версии это будет неважно, т.к. будет стоять проверка и конвертация, также будет изменен алгоритм и фильтрация.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Внеочередное обновление WebArchiveMasters:

1. В файл Domens домены теперь можно вводить в любом формате:
http://zennolab.com/
zennolab.com/discussion
https://zennolab.com/discussion/threads
и т.д.
2. Найдена причина перезаписывания доменов, теперь в 99% домены обрабатываются сразу
3. Оптимизация и ускорение

Совет
Экспериментируйте с файлом конфигурации Config.сfg. Если вы хотите брать большие статьи, ставьте значение больше. По умолчанию стоит 500 символов, выглядит это примерно так:
Код:
 Сложности подросткового возраста. Проблемы подростков. Здоровая семья
Проблема подростков всегда приковывала к себе внимание учителей и родителей, но особенно актуальной она стала в последнее время.
Чем же характеризуются сложности подросткового возраста? Что необходимо знать родителям по этому вопросу с целью грамотного управления развитием и воспитанием подростка?
Жизнь подростка и взрослого находится на разных полюсах, т. е. жизнь взрослого намного сложнее, чем детей. Проблема состоит в том, что
Прилагаю два файла - пример работы парсинга текста и готового сайта (сайт запускать в Опен сервере или на хостинге). На уникальность не проверялось, только как пример работы:

Разошлю всем завтра.

Все программы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал + Content Watch) за 500 рублей.

Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно с видеопримером установки.

Вебмани: R282711380496
Яндекс-Деньги: 410011187505134
В примечании введите свой емейл.
 

Вложения

Последнее редактирование:

Bahus

Client
Регистрация
15.02.2017
Сообщения
44
Благодарностей
12
Баллы
8
Всё хорошо работает. Хочу уточнить.
Проверка на уникальность делается из файлов в папке Content-watch\Article, что хорошо. Парсинг архива делается с разбитием по доменам, что тоже хорошо.
Но внутри доменов статьи с одинаковыми именами.
Хорошо бы, чтобы проверка на уникальность могла заходить внутрь папок доменов со статьями, либо к спаршенным статьям в названии файлов добавлялся домен для случая их копирования в папку Content-watch\Article вручную.

Сейчас делаю так:
парсю в архиве домен. В нём 400 файлов. Перекладываю в папку Content-watch\Article и пока не проверится уникальность всех новые файлы не подкладываю от другого домена, а хотелось бы положить туда десяток тысяч файлов и забыть про Content-watch на несколько дней.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Возможно, вы используете устаревшую версию. Сейчас используется название статей по названию домена, например:
Домен - dlja-zdorovja.ru
Внутри статьи:
dlja-zdorovja1.txt
dlja-zdorovja2.txt
dlja-zdorovja3.txt
...
dlja-zdorovja134.txt

Создание доменов с текстами для антиплагиата уже разрабатывается.
 
  • Спасибо
Реакции: Bahus

Bahus

Client
Регистрация
15.02.2017
Сообщения
44
Благодарностей
12
Баллы
8
Возможно, вы используете устаревшую версию. Сейчас используется название статей по названию домена, например:
Домен - dlja-zdorovja.ru
Внутри статьи:

dlja-zdorovja134.txt

Создание доменов с текстами для антиплагиата уже разрабатывается.
Точно, спасибо. Новые пошли с названиями доменов
 

Webfrilanser

Новичок
Регистрация
07.12.2017
Сообщения
23
Благодарностей
0
Баллы
1
Хочу у вас купить прогу эту для парсинга статей с Вебархива!!!
 

Webfrilanser

Новичок
Регистрация
07.12.2017
Сообщения
23
Благодарностей
0
Баллы
1
Ве оплатил на ваш Webmoney кошелёк 500р
 

Webfrilanser

Новичок
Регистрация
07.12.2017
Сообщения
23
Благодарностей
0
Баллы
1
Забыл указать свою почту в примечании к платежу - Вот сюда вышлите программы [email protected]
Оплачивал с кошелька: R390857135396
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
В следующий раз пишите в ЛС или на емейл: [email protected]
 

Webfrilanser

Новичок
Регистрация
07.12.2017
Сообщения
23
Благодарностей
0
Баллы
1

ailebedev

Client
Регистрация
28.09.2016
Сообщения
13
Благодарностей
0
Баллы
1
Автор, может создадите телеграм чат, для обсуждения и решения вопросов и подсказок оперативных?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Автор, может создадите телеграм чат, для обсуждения и решения вопросов и подсказок оперативных?
Не вижу необходимости, это не горячая тематика, достаточно ЛС или емейл.
 

ailebedev

Client
Регистрация
28.09.2016
Сообщения
13
Благодарностей
0
Баллы
1
Не вижу необходимости, это не горячая тематика, достаточно ЛС или емейл.
На почту написал, вчера еще, но не ответили.
У меня вопрос, обязательно ли опенсервер ставить, хотелось бы на хостинг скрипт перенести и вроде по мануалу делал, но в зенке в логе ошибка возникает, как при опенсервере так и с хостинга
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Вроде отвечал. Можно на хостинг - если ошибка, что бесшаблонный парсер подключен неправильно, значит, путь в scraper написан неверно. Ложить (класть) обработчик нужно в корневую директорию, например: http://zennolab.com или использовать поддомен - http://full.zennolab.com. Проверить работу парсера можно, введя в браузере http://zennolab.com, должны появится поля ввода. Этот же путь (http://zennolab.com) прописать в scraper.txt.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Обновление WebArchiveMasters:

1. В файл Domens домены теперь можно вводить в любом формате:
http://zennolab.com/
zennolab.com/discussion
https://zennolab.com/discussion/threads
и т.д.
2. Найдена причина перезаписывания доменов, теперь в 99% домены обрабатываются сразу. Если на компьютере стоит мало оперативной памяти, данные не успевали обрабатываться и приходилось перезаписывать домен и брать другой, поэтому выставлена задержка.
3. Также добавлена помощь в WebArchiveMasters.pdf (смотрите в самом низу).
Проверка на плагиат

Принцип работы - шаблон запрашивает встроенный проксичекер, если прокси нет, берется прокси из файла, если в файле прокси тоже нет, запускается автоматический парсинг прокси.

Если с автоматическим парсингом возникли проблемы, программа ждет несколько минут и начинает сначала.

Через пару часов разошлю.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Всем отправил. Если что, пишите в ЛС или на емейл: [email protected]
 
Статус
Закрыто для дальнейших ответов.

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)