WebArchiveMaster - парсер Вебархива

  • Автор темы Автор темы footashes
  • Дата начала Дата начала
Статус
В этой теме нельзя размещать новые ответы.
Оплатил и написал в ЛС
 
Untitled-1.jpg


Все программы на время Черной пятницы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал) за 400 рублей.
Новое!
Шаблон восстановления всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.

Что делает шаблон:


Шаблон для Зеннопостер загрузит последнюю версию каждого файла, присутствующего в Вебархиве. Также шаблон заново создаст структуру каталогов и автоматически создаст страницы для бесперебойной работы с Apache и Nginx. Все загруженные файлы являются оригинальными, а не перезаписываемыми версиями Вебархива. Таким образом, URL-адреса и структура ссылок будут те же, что и раньше.

смотрите видео:

P.S.
Шаблон проходит тестирование. Разошлю всем на следующей неделе.


Вебмани: R282711380496
Яндекс-Деньги: 410011187505134
В примечании введите свой емейл.
 
Последнее редактирование:
Подскажи плиз.
Собрал сайты по причёскам до 2014 г дроп. EN
Запустил. Всё работает, шик просто.
Но в файлах не только чистый текст.
Код:
Развернуть Свернуть Копировать
Cute Hairs
If уου hаνе medium length hair, learn hοw tο style уουr hair іn ponytails, twist, curls, аnԁ more wіth thіѕ free beauty video series CTYPE html>
<html dir="ltr" lang="en-US">
<head>
<meta
<title>Cute Hairs</title>
<link rel="canonical" href="
<link rel="stylesheet" href="
<link rel="stylesheet" href="
<link rel="stylesheet" href="
<meta name="google-site-verification" content="" /><script type="text/javascript">
var _gaq = _gaq || [];
_gaq.push(['_setAccount', 'UA-6745385-9']);
_gaq.push(['_trackPageview']);
(function() {
var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
ga.src = ('
    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
})();
</script>
<meta name="google-site-verification" content="6e5RZI2SERhDhaZ6Lo9vego_ktVRmk8yqqf-yUUSqqw" />
</head>
<body class="home blog">
<div class="amaze no-excerpt wrapper">
<div class="header"><div class="siteTitle"><a href="
<div class="menu nav"><ul id="menu-site-menu" class="menu"><li id="menu-item-51790" class=""><a href="
<li id="menu-item-51793" class=""><a href="
<li id="menu-item-51796" class=""><a href="
</ul></div></div>
<a name="jump"></a><div class="main"><div class="content"><h1 class="posttitle">How to do hairstyles for medium length hair</h1><div class="adsense336"><script type="text/javascript"><!--
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p><object width="425" height="355"><param name="movie" value="
<embed src="
<p>If &#1091&#959&#965 h&#1072&#957&#1077 medium length hair, learn h&#959w t&#959 style &#1091&#959&#965r hair &#1110n ponytails, twist, curls, &#1072n&#1281 more w&#1110th th&#1110&#1109 free beauty video series &#1072b&#959&#965t cute &#1072n&#1281 easy hairstyles.<br />
<strong>Video Rating: 0 / 5</strong></p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div><div><span class="tags"><a href="
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p>cute hair styles f&#959r medium hair:<br />
<object width="425" height="355"><param name="movie" value="
<embed src="
<p>plz subscribe<br />
<strong>Video Rating: 0 / 5</strong></p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div><div><span class="tags"><a href="
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p><object width="425" height="355" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="
<p><strong></strong><br />
<strong>Video Rating: 4 / 5</strong></p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div><div><span class="tags"><a href="
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p><object width="425" height="355" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="
<p> </p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div><div><span class="tags"><a href="
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p>Welcome t&#959 Cute Hairs portal here &#1091&#959&#965 w&#1110&#406&#406 see &#1072&#406&#406 n&#1077w hairstyles, &#1072n&#1281 lovely cute hairs videos.</p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div></div>
<div class="sidebar">
<div class="menu side recent" id="menuSideRecent"><h4>Recent Posts</h4><ul><li class="page_item"><a href="
</div>
<div class="footer"><div class="menu"><ul><li class="first"><a href="
<li class="page_item page-item-1925"><a href="
<li class="last page_item page-item-1926"><a href="
<li class="last sitemap"><a href="
<!-- ClickBump 5! scripts go in footer for faster sites --><script type="text/javascript" src="
<script type='text/javascript'>jQuery(document).ready(function(){jQuery('#accordion-1').easyAccordion({autoStart:true,slideInterval:5000,slideNum:false});})</script>
<script type='text/javascript'>jQuery(document).ready(function(){jQuery('#accordion-1').css('visibility', 'visible');});</script></body>
</html>
<!-- Performance optimized by W3 Total Cache. Learn more:

Served from: www.cutehairstylesformediumhair.com @ 2012-03-24 20:38:43 -->
 
Используются спецсимволы вместо стандартных тегов. Вместо <p> например, используются &lt;p&gt;, что одно и то же для браузера, но не для парсера (для примера). Сбросьте на емейл несколько доменов для анализа.

И бесшаблонный парсер неизбежно будет захватывать лишнее, если, к примеру, слишком мало текста или много рекламы или комментариев, которые тоже текст - одно дела парсить один шаблонный сайт по регуляркам, другое - пытаться вычислить текст на разных сайтах, которые могут быть на любой CMS или просто HTML, или нестандартных системах управления контентом, где-то будет браться чисто, где-то что-то добавляться.

Именно поэтому шаблон открытый, каждый может проанализировать совпадающие данные и дописать для себя. Сейчас ведется разработка более продвинутого бесшаблонного парсера, но это сложная работа. На данный момент все заказанные бесшаблонные парсеры показывают результат на два порядка ниже этого.

P.S.
Неоднократно просил присылать проблемы для корректировки, никто ничего не присылал.
 
Последнее редактирование:
Для "белого дорвея" делал на Зеннопостер сортировщик по словоформам.
Пример: я использовал парсер поисковых подсказок для http://cheerfulness.ru/. Нужно было собрать подсказки и отсортировать мультфильмы от фильмов, используя простейшие словоформы. Если кому-то нужно, могу выложить. Пригодится для дорвейщиков, работающим по тематике и для подготовки к кластеризации. Пример:
 

Вложения

Отписал относительно спецсимволов.
?1) Как ускорить процесс? Например, база доменов по кею в итоге >100К.
Поставил мин. символов 1200.
Категории по умолчанию стояло "0"; так быстрее?
?2) Проверка на уникальность, по вашему методу, с EN сонтентом пашет? Спрашиваю, потому что нужно (другой софт) подключать. Не платил с полгода за Хрум.
 
Отписал относительно спецсимволов.
?1) Как ускорить процесс? Например, база доменов по кею в итоге >100К.
Поставил мин. символов 1200.
Категории по умолчанию стояло "0"; так быстрее?
?2) Проверка на уникальность, по вашему методу, с EN сонтентом пашет? Спрашиваю, потому что нужно (другой софт) подключать. Не платил с полгода за Хрум.
Напишите в личку как можно подробнее по каждому вопросу, и зачем (другой софт)?
 
Привет,до какого числа действует черная пятница?
 
Привет,до какого числа действует черная пятница?
До следующей пятницы.
P.S.
Всем разослал.
Сейчас проблемы с интернетом, что-то чинят, всё постоянно обрывается на несколько часов, так-что как выйдет "окно", обязательно напишу и разошлю.
 
Только на время "Черной пятницы" (01.12.2017) вы можете получить (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал) за 400 рублей.
Новое!
Шаблон восстановления всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.

Далее цена будет скорректирована.
 
Не парсит.
Поковырялся. Оказывается появилась проблема на странице.
1
9a65c-clip-217kb.png

2
abfff-clip-118kb.png
 
Сбой доступа к бесшаблонному парсеру. Возможно, нехватка памяти, на парсинг это никак не повлияет, будет докачивать файлы, просто установите больше заданий на один поток.
 
Пишется файл 1.txt
Wayback Machine
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. You may not know it, but we’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. Most users can’t afford to donate, but we hope you can. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. I think the Internet Archive is a bargain, but we need your help. If you find our site useful, chip in what you can today. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. No one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
 
Да, я вижу, вот перевод:

Уважаемый сторонник издателя, мы просим Вас только раз в году: пожалуйста, помогите сегодня Интернет-архиве. Вы, возможно, не знаете этого, но мы независимый, некоммерческий сайт, от которого зависит весь мир. Мы защищаем конфиденциальность читателя. Мы никогда не продаем рекламу, но все равно должны платить за серверы и персонал. Большинство пользователей не могут позволить себе пожертвовать, но мы надеемся, что вы можете. Если все фишки по $25, мы можем держать это происходит бесплатно. По цене еды, мы можем сохранить сайт навсегда. Когда я начал это, люди назвали меня сумасшедшей. Собирать веб-страницы? Причина? Мы построили машину Wayback, потому что открытый доступ к знаниям хрупок. Мы стали цифровой библиотеки, потому что никто не должен быть в состоянии изменить прошлое. Я думаю, что интернет-архив-это сделка, но нам нужна ваша помощь. Если вы считаете наш сайт полезным, фишка в том, что вы можете сегодня. Спасибо. —Брюстер Кале, основатель Интернет-архива Уважаемый сторонник издателя, мы просим Вас только раз в году: пожалуйста, помогите сегодня Интернет-архиве.

Это легко убрать, но такая надпись будет только сутки - если они её не уберут, я займусь этим, там всё убирается элементарно.
 
  • Спасибо
Реакции: devas111
Убери ПЛЗ.
А то мешает работе.

Clip2net_171129174635.jpg
 
Уже поправил. Реклама никак не должна была влиять, это моя ошибка. Заодно поправил несколько багов. Протестирую и сегодня разошлю.
 
  • Спасибо
Реакции: sergey_l и devas111
Завтра к вечеру будет много интересного по восстановлению полной копии из Вебархива. Смысл работы немного изменился, но вы получите полностью готовый сайт и моё мнение о смысле восстановления сайта. Всё будет немного по другому. До вечера пятницы вы получите:

Все программы на время Черной пятницы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал) за 400 рублей.
Новое!
Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.
 
Последнее редактирование:
  • Спасибо
Реакции: dsdos34 и one
Оплатил на ЯД с примечанием своей почты
 
Почти в каждой папке в первом файле (или под номенром 1) спаршено
Wayback Machine
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. You may not know it, but we’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. Most users can’t afford to donate, but we hope you can. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. I think the Internet Archive is a bargain, but we need your help. If you find our site useful, chip in what you can today. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. No one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
 
Нм. Если 60 папок и в 40-50 только файл1.txt с таким-же текстом, то это сильно притормаживает работу.
К меня не убрали рекламу ещё.
 
Скиньте папку с доменами, в которых один файл для анализа, возможно, там нет текста и программа захватывает рекламу, считая за текст. Да, рекламу почему-то не убрали.
 
Подскажите плиз.
Clip2net_171202142017.jpg
На картинке видно, как зависает и приходится просто сносить и заново запускать шаблон.

PS Сейчас проверю новый шаблон по web.arch...
 
Это из-за прокси. Проверку прокси прошел, но нужные данные text.ru почему-то этой прокси не отдал и шаблон перешел в режим ожидания, вроде, на пятнадцать минут. Потом он сбросит этот прокси и возьмет другой. Поэтому лучше использовать свои прокси, даже паблик, эти использует слишком много народа. Регулировать нужно переменную zamikanie. Смысл такой - при любой неизвестной ошибке или слишком долгой проверке текста (больше 15 минут во всех случаях) считать дальнейшее ожидание бессмысленным и сбросить данные.

Новый шаблон можно не проверять, рекламу они вроде отключили. А, нет, опять включили.
 
Последнее редактирование:
Новый работает нормально.
А как сохранить свой паблик прокси из ПРОКСИЧЕКЕРА в файл My_proxys.тхт
 
Статус
В этой теме нельзя размещать новые ответы.

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)