WebArchiveMaster - парсер Вебархива

Статус
Закрыто для дальнейших ответов.

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Оплатил и написал в ЛС
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Untitled-1.jpg


Все программы на время Черной пятницы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал) за 400 рублей.
Новое!
Шаблон восстановления всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.

Что делает шаблон:


Шаблон для Зеннопостер загрузит последнюю версию каждого файла, присутствующего в Вебархиве. Также шаблон заново создаст структуру каталогов и автоматически создаст страницы для бесперебойной работы с Apache и Nginx. Все загруженные файлы являются оригинальными, а не перезаписываемыми версиями Вебархива. Таким образом, URL-адреса и структура ссылок будут те же, что и раньше.

смотрите видео:

P.S.
Шаблон проходит тестирование. Разошлю всем на следующей неделе.


Вебмани: R282711380496
Яндекс-Деньги: 410011187505134
В примечании введите свой емейл.
 
Последнее редактирование:

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Подскажи плиз.
Собрал сайты по причёскам до 2014 г дроп. EN
Запустил. Всё работает, шик просто.
Но в файлах не только чистый текст.
Код:
Cute Hairs
If уου hаνе medium length hair, learn hοw tο style уουr hair іn ponytails, twist, curls, аnԁ more wіth thіѕ free beauty video series CTYPE html>
<html dir="ltr" lang="en-US">
<head>
<meta
<title>Cute Hairs</title>
<link rel="canonical" href="
<link rel="stylesheet" href="
<link rel="stylesheet" href="
<link rel="stylesheet" href="
<meta name="google-site-verification" content="" /><script type="text/javascript">
var _gaq = _gaq || [];
_gaq.push(['_setAccount', 'UA-6745385-9']);
_gaq.push(['_trackPageview']);
(function() {
var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
ga.src = ('
    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
})();
</script>
<meta name="google-site-verification" content="6e5RZI2SERhDhaZ6Lo9vego_ktVRmk8yqqf-yUUSqqw" />
</head>
<body class="home blog">
<div class="amaze no-excerpt wrapper">
<div class="header"><div class="siteTitle"><a href="
<div class="menu nav"><ul id="menu-site-menu" class="menu"><li id="menu-item-51790" class=""><a href="
<li id="menu-item-51793" class=""><a href="
<li id="menu-item-51796" class=""><a href="
</ul></div></div>
<a name="jump"></a><div class="main"><div class="content"><h1 class="posttitle">How to do hairstyles for medium length hair</h1><div class="adsense336"><script type="text/javascript"><!--
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p><object width="425" height="355"><param name="movie" value="
<embed src="
<p>If &#1091&#959&#965 h&#1072&#957&#1077 medium length hair, learn h&#959w t&#959 style &#1091&#959&#965r hair &#1110n ponytails, twist, curls, &#1072n&#1281 more w&#1110th th&#1110&#1109 free beauty video series &#1072b&#959&#965t cute &#1072n&#1281 easy hairstyles.<br />
<strong>Video Rating: 0 / 5</strong></p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div><div><span class="tags"><a href="
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p>cute hair styles f&#959r medium hair:<br />
<object width="425" height="355"><param name="movie" value="
<embed src="
<p>plz subscribe<br />
<strong>Video Rating: 0 / 5</strong></p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div><div><span class="tags"><a href="
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p><object width="425" height="355" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="
<p><strong></strong><br />
<strong>Video Rating: 4 / 5</strong></p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div><div><span class="tags"><a href="
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p><object width="425" height="355" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="
<p> </p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div><div><span class="tags"><a href="
google_ad_client = "pub-5170738193212461";
google_ad_slot = "";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript" src="

<div class="entry">
<p>Welcome t&#959 Cute Hairs portal here &#1091&#959&#965 w&#1110&#406&#406 see &#1072&#406&#406 n&#1077w hairstyles, &#1072n&#1281 lovely cute hairs videos.</p>
<a href="#jump" class="jumpLink">↑ Back to Top</a></div></div>
<div class="sidebar">
<div class="menu side recent" id="menuSideRecent"><h4>Recent Posts</h4><ul><li class="page_item"><a href="
</div>
<div class="footer"><div class="menu"><ul><li class="first"><a href="
<li class="page_item page-item-1925"><a href="
<li class="last page_item page-item-1926"><a href="
<li class="last sitemap"><a href="
<!-- ClickBump 5! scripts go in footer for faster sites --><script type="text/javascript" src="
<script type='text/javascript'>jQuery(document).ready(function(){jQuery('#accordion-1').easyAccordion({autoStart:true,slideInterval:5000,slideNum:false});})</script>
<script type='text/javascript'>jQuery(document).ready(function(){jQuery('#accordion-1').css('visibility', 'visible');});</script></body>
</html>
<!-- Performance optimized by W3 Total Cache. Learn more:

Served from: www.cutehairstylesformediumhair.com @ 2012-03-24 20:38:43 -->
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Используются спецсимволы вместо стандартных тегов. Вместо <p> например, используются &lt;p&gt;, что одно и то же для браузера, но не для парсера (для примера). Сбросьте на емейл несколько доменов для анализа.

И бесшаблонный парсер неизбежно будет захватывать лишнее, если, к примеру, слишком мало текста или много рекламы или комментариев, которые тоже текст - одно дела парсить один шаблонный сайт по регуляркам, другое - пытаться вычислить текст на разных сайтах, которые могут быть на любой CMS или просто HTML, или нестандартных системах управления контентом, где-то будет браться чисто, где-то что-то добавляться.

Именно поэтому шаблон открытый, каждый может проанализировать совпадающие данные и дописать для себя. Сейчас ведется разработка более продвинутого бесшаблонного парсера, но это сложная работа. На данный момент все заказанные бесшаблонные парсеры показывают результат на два порядка ниже этого.

P.S.
Неоднократно просил присылать проблемы для корректировки, никто ничего не присылал.
 
Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Для "белого дорвея" делал на Зеннопостер сортировщик по словоформам.
Пример: я использовал парсер поисковых подсказок для http://cheerfulness.ru/. Нужно было собрать подсказки и отсортировать мультфильмы от фильмов, используя простейшие словоформы. Если кому-то нужно, могу выложить. Пригодится для дорвейщиков, работающим по тематике и для подготовки к кластеризации. Пример:
 

Вложения

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Отписал относительно спецсимволов.
?1) Как ускорить процесс? Например, база доменов по кею в итоге >100К.
Поставил мин. символов 1200.
Категории по умолчанию стояло "0"; так быстрее?
?2) Проверка на уникальность, по вашему методу, с EN сонтентом пашет? Спрашиваю, потому что нужно (другой софт) подключать. Не платил с полгода за Хрум.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Отписал относительно спецсимволов.
?1) Как ускорить процесс? Например, база доменов по кею в итоге >100К.
Поставил мин. символов 1200.
Категории по умолчанию стояло "0"; так быстрее?
?2) Проверка на уникальность, по вашему методу, с EN сонтентом пашет? Спрашиваю, потому что нужно (другой софт) подключать. Не платил с полгода за Хрум.
Напишите в личку как можно подробнее по каждому вопросу, и зачем (другой софт)?
 

Pahan8282

Новичок
Регистрация
11.05.2013
Сообщения
1
Благодарностей
0
Баллы
1
Привет,до какого числа действует черная пятница?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Привет,до какого числа действует черная пятница?
До следующей пятницы.
P.S.
Всем разослал.
Сейчас проблемы с интернетом, что-то чинят, всё постоянно обрывается на несколько часов, так-что как выйдет "окно", обязательно напишу и разошлю.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Только на время "Черной пятницы" (01.12.2017) вы можете получить (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал) за 400 рублей.
Новое!
Шаблон восстановления всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.

Далее цена будет скорректирована.
 

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Не парсит.
Поковырялся. Оказывается появилась проблема на странице.
1
9a65c-clip-217kb.png

2
abfff-clip-118kb.png
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Сбой доступа к бесшаблонному парсеру. Возможно, нехватка памяти, на парсинг это никак не повлияет, будет докачивать файлы, просто установите больше заданий на один поток.
 

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Пишется файл 1.txt
Wayback Machine
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. You may not know it, but we’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. Most users can’t afford to donate, but we hope you can. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. I think the Internet Archive is a bargain, but we need your help. If you find our site useful, chip in what you can today. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. No one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Да, я вижу, вот перевод:

Уважаемый сторонник издателя, мы просим Вас только раз в году: пожалуйста, помогите сегодня Интернет-архиве. Вы, возможно, не знаете этого, но мы независимый, некоммерческий сайт, от которого зависит весь мир. Мы защищаем конфиденциальность читателя. Мы никогда не продаем рекламу, но все равно должны платить за серверы и персонал. Большинство пользователей не могут позволить себе пожертвовать, но мы надеемся, что вы можете. Если все фишки по $25, мы можем держать это происходит бесплатно. По цене еды, мы можем сохранить сайт навсегда. Когда я начал это, люди назвали меня сумасшедшей. Собирать веб-страницы? Причина? Мы построили машину Wayback, потому что открытый доступ к знаниям хрупок. Мы стали цифровой библиотеки, потому что никто не должен быть в состоянии изменить прошлое. Я думаю, что интернет-архив-это сделка, но нам нужна ваша помощь. Если вы считаете наш сайт полезным, фишка в том, что вы можете сегодня. Спасибо. —Брюстер Кале, основатель Интернет-архива Уважаемый сторонник издателя, мы просим Вас только раз в году: пожалуйста, помогите сегодня Интернет-архиве.

Это легко убрать, но такая надпись будет только сутки - если они её не уберут, я займусь этим, там всё убирается элементарно.
 
  • Спасибо
Реакции: devas111

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Убери ПЛЗ.
А то мешает работе.

Clip2net_171129174635.jpg
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Уже поправил. Реклама никак не должна была влиять, это моя ошибка. Заодно поправил несколько багов. Протестирую и сегодня разошлю.
 
  • Спасибо
Реакции: sergey_l и devas111

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Всем отправил. Если не пришло, смотрите папку спам или пишите в ЛС.
 
  • Спасибо
Реакции: devas111

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Завтра к вечеру будет много интересного по восстановлению полной копии из Вебархива. Смысл работы немного изменился, но вы получите полностью готовый сайт и моё мнение о смысле восстановления сайта. Всё будет немного по другому. До вечера пятницы вы получите:

Все программы на время Черной пятницы (WebArchiveMaster - парсер Вебархива + Black Widow Spider + Антиплагиат + Мануал) за 400 рублей.
Новое!
Восстановление всего сайта из Вебархива. Полностью готовый сайт, остается только залить на сервер. Все купившие WebArchiveMaster получат его бесплатно.
 
Последнее редактирование:
  • Спасибо
Реакции: dsdos34 и one

GEN_13

Client
Регистрация
19.05.2016
Сообщения
147
Благодарностей
13
Баллы
18
Оплатил на ЯД с примечанием своей почты
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Почти в каждой папке в первом файле (или под номенром 1) спаршено
Wayback Machine
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. You may not know it, but we’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. Most users can’t afford to donate, but we hope you can. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. I think the Internet Archive is a bargain, but we need your help. If you find our site useful, chip in what you can today. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We protect reader privacy. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. We became the digital library of record because no one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
Dear Wayback Supporter, We ask you only once a year: please help the Internet Archive today. We’re an independent, non-profit website that the entire world depends on. We never sell ads, but still need to pay for servers and staff. If everyone chips in $25, we can keep this going for free. For the price of a meal, we can preserve a website forever. When I started this, people called me crazy. Collect web pages? Why? We built the Wayback Machine because open access to knowledge is fragile. No one should be able to change the past. If you find our site useful, please chip in. Thank you. —Brewster Kahle, Founder, Internet Archive
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Да, цепляется один такой текст. Это не критично. Да, и рекламу они уже убрали.
 
Последнее редактирование:

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Нм. Если 60 папок и в 40-50 только файл1.txt с таким-же текстом, то это сильно притормаживает работу.
К меня не убрали рекламу ещё.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Скиньте папку с доменами, в которых один файл для анализа, возможно, там нет текста и программа захватывает рекламу, считая за текст. Да, рекламу почему-то не убрали.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Подскажите плиз.
Clip2net_171202142017.jpg
На картинке видно, как зависает и приходится просто сносить и заново запускать шаблон.

PS Сейчас проверю новый шаблон по web.arch...
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Это из-за прокси. Проверку прокси прошел, но нужные данные text.ru почему-то этой прокси не отдал и шаблон перешел в режим ожидания, вроде, на пятнадцать минут. Потом он сбросит этот прокси и возьмет другой. Поэтому лучше использовать свои прокси, даже паблик, эти использует слишком много народа. Регулировать нужно переменную zamikanie. Смысл такой - при любой неизвестной ошибке или слишком долгой проверке текста (больше 15 минут во всех случаях) считать дальнейшее ожидание бессмысленным и сбросить данные.

Новый шаблон можно не проверять, рекламу они вроде отключили. А, нет, опять включили.
 
Последнее редактирование:

devas111

Client
Регистрация
28.01.2012
Сообщения
201
Благодарностей
9
Баллы
18
Новый работает нормально.
А как сохранить свой паблик прокси из ПРОКСИЧЕКЕРА в файл My_proxys.тхт
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Встроенный проксичекер не сохраняет прокси в файл. Нужны свои источники, про которые никто не знает.
 
Статус
Закрыто для дальнейших ответов.

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)