WebArchiveMaster - парсер Вебархива

Статус
Закрыто для дальнейших ответов.

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Практически готов спайдер сбора ссылок комментариев для создания своей тематической базы дропов под названием Black Widow Spider. Для чего это нужно - смотрите выше, скоро подготовлю видео о работе паука. Эта программа идет в связке с WebArchiveMasters - спайдер собирает тематические дропы, а парсер берет с них текста. Теперь не нужны списки доменов, программа найдет всё сама. Тестирование и доводка займет около недели. Все ранее купившие WebArchiveMasters, разумеется, получат её бесплатно.
 
  • Спасибо
Реакции: deninsto и Astraport

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 983
Благодарностей
4 433
Баллы
113
@footashes доработайте для работы с EN и куплю по тройной цене.
 

Fantomass

Client
Регистрация
13.04.2016
Сообщения
86
Благодарностей
36
Баллы
18

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Обновление парсера Вебархива WebArchiveMasters. Пофиксены следующие ошибки:

1. При скоростном парсинге возникала ошибка ResourceDownloader.GetResult. Добавлен блок таймаута на 40 секунд. При проверке больше такой ошибки не возникало.
2. Во многих случаях не срабатывала проверка на количество текста и программе приходилось все-таки делать полный цикл.
3. Были ошибки "слипшихся слов" - Врачпсихотерапевт, психиатр, сексопатологКандидат медицинских наукОпыт.

Это происходило из-за того, что программа убирала конструкцию <p></p> и дефис между словами -. Сейчас конструкция
восстановлена и текст имеет такой вид:

<p>Какой хлеб полезнее? Учитывая меньшую калорийность ржаного хлеба, его чаще, чем пшеничный,следует употреблять тем, кто склонен к полноте. Для здоровых людей полезнее ржаной хлеб из муки грубого помола. Но ржаной хлеб не рекомендуется при обострении язвенной болезни желудка и двенадцатиперстной кишки, хронического гастрита с повышенной кислотностью. В таких случаях показаны пшеничный хлеб,несдобные сухари. </p>


Для массовой проверки эти теги не оказывают влияния, антиплагиат их просто отбрасывает, но если нужно, их можно заменить на пробел. Программа работает со всеми языками, кроме английского, так-как общий смысл бота - удаление всех английских символов и html тегов. Сейчас идет работа над разработкой бесшаблонного парсера, работающего на HTML DOM, так-как DOM правильнее, чем регулярные выражения.

Общались на английских форумах, но все предлагают половинчатые решения. Двое фрилансеров отказались от разработки, так-как задача действительно очень сложная. Это не просто стандартный HTML DOM, здесь нужны собственные наработки. Человек на серче предлагал свою разработку, но связаться с ним не могу. Так что пока так.

Завтра хотел выложить Black Widow Spider на тестирование, но в связи с тем, что Ботмастер разбирается с Яндекс-капчей, брошу все силы на доработку WebArchiveMasters. Через 3-4 дня будет глобальное обновление, также в шаблонах напишу, что куда идет и за что отвечает, так-как сейчас обычному пользователю ничего не понятно. Это будет сделано для того, чтобы любой мог сам переобучить бота, как ему нужно.

Доработанный скрипт разошлю всем через пару часов.

Пишите заявки в личку, что бы вы хотели видеть.
 
  • Спасибо
Реакции: deninsto

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Да, и ещё - тестировал разработку нового типа дорвеев - http://cheerfulness.ru/, но до конца не довел, так-как потерял интерес. Хотел размножить текст по каждой рубрике с ключами, сделал половину и занялся другими делами. Просто выбросить жалко (хотел с ним участвовать в конкурсе). Сайт сделан полностью на Зеннопостере. Передам шаблон и ключевые слова 200 штук (если найду). Передача домена через REG.RU. Пишите в личку.Отдам вместе с хостингом (сайт около 5 гб).
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 983
Благодарностей
4 433
Баллы
113
Программа работает со всеми языками, кроме английского, так-как общий смысл бота - удаление всех английских символов и html тегов.
А если в тексте будут английские слова, названия компаний, фамилии, цитаты? Что будет с таким текстом?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Абсолютно все английские слова удаляются, так-как весь HTML основан на английских словах. Это не полноценный HTML DOM, там все работает по совсем другим принципам. Сейчас ведется разработка через DOM, а не регулярки. Если это получится, это будет резкий рывок вперед, но готового решения, пока к сожалению нет.
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 983
Благодарностей
4 433
Баллы
113
Абсолютно все английские слова удаляются, так-как весь HTML основан на английских словах.
Такой подход даже костылём нельзя назвать))
Почему нельзя просто очищать HTML теги? На шарпе полно примеров.
Я всё же надеюсь, что вы доработаете свой продукт до нормального состояния, т. к. тема довольно перспективная.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Тема перспективная - использование чужого труда в своих целях. Доработка будет в течении месяца. Но работать нужно - так что пока так.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Нда, искал сложнейшие решения с помощью ИИ и нейронных сетей, а всё оказалось на удивление примитивным, спасибо Astraport, что подтолкнул в правильном направлении. Теперь программа работает со всеми языками, включая английский. Если текст в принципе можно спарсить, то программа его спарсит. Завтра выложу обновленную версию.
Прикрепляю пару текстов на разных языках.
 

Вложения

  • 9,1 КБ Просмотры: 265
  • Спасибо
Реакции: deninsto

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 983
Благодарностей
4 433
Баллы
113
Закинул английский текст из вложения в антиплагиаторы, нашлось как минимум 2 других источника с этим текстом.
Это же не уникальный текст?
 

Valiksim

Client
Регистрация
14.04.2012
Сообщения
1 344
Благодарностей
298
Баллы
83

iskrakovrov

Client
Регистрация
28.03.2015
Сообщения
532
Благодарностей
171
Баллы
43

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

Так парсит не Ру на сегодня?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Закинул английский текст из вложения в антиплагиаторы, нашлось как минимум 2 других источника с этим текстом.
Это же не уникальный текст?
Это просто проверочный тест из очень известного сайта, данные есть в Вебархиве, но сам сайт работает. Проверка работоспособности парсера.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

iskrakovrov

Client
Регистрация
28.03.2015
Сообщения
532
Благодарностей
171
Баллы
43

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

как купить?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Кто хочет купить шаблон, вот реквизиты:
Вебмани: R282711380496
Яндекс-Деньги: 410011187505134

В примечании напишите свой емейл, на него будет выслан проект. Цена 500 рублей
 

iskrakovrov

Client
Регистрация
28.03.2015
Сообщения
532
Благодарностей
171
Баллы
43

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

Оплатил WM
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Завтра всем разошлю. Сейчас идет тестирование и переработка под новую логику.
 
  • Спасибо
Реакции: deninsto

iskrakovrov

Client
Регистрация
28.03.2015
Сообщения
532
Благодарностей
171
Баллы
43

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

отлично. жду.
 

iskrakovrov

Client
Регистрация
28.03.2015
Сообщения
532
Благодарностей
171
Баллы
43

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Добавлен файл конфигурации Config.сfg. Это главная настройка отвечает за минимальную границу текста в символах. По умолчанию стоит 300 символов, программа проверяет страницу и берет количество символов, если их меньше 300, то берется следующая страница.
Чем ниже граница парсинга, тем больше парсится данных и захватывается мусора. Чем выше число, тем меньше данных, но и количество случайного мусора стремится к нулю. Здесь нужно подбирать число опытным путем.
Через пару часов разошлю всем.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Всем разослал. Уникального текста просто завались, вот для примера первые попавшиеся домены:

На английском

Screenshot_1.jpg

Вот на русском

Screenshot_3.jpg


Вот примерная структура текстов, далеко не у всех такая, часто по 5-6 текстов; здесь весь смысл в массовой проверке нескольких сотен сразу, по одному проверять ...это уже похоже на вторую работу.

Screenshot_2.jpg
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Spider.jpg

Спайдер сбора ссылок комментариев для создания своей тематической базы дропов под названием Black Widow Spider. Сбор своей базы дропов по своей тематике. Существует обмен комментариями сайтов по своей тематике, например, на сайте с рецептами комментируют люди, имеющие близкую тематику и оставляют ссылку, ведущую на сайт, это практически сообщество, довольно узкий круг, без залетных.

Для чего это нужно?

Многие сайты уходят в небытие - люди забрасывают сайты, переезжают, меняют работы - и это, как правило, очень хорошие сайты с авторскими текстами - я работаю именно так, только отбираю вручную, отдаю программе и работаю с этими забытыми доменами, руки не доходят автоматизировать, позже приведу пример, если не ясно. А просто скаченный список доменов по ключевым словам - это 80% мусора, который программа перелопачивает, прежде чем наткнутся на что-то стоящее.

Что он делает?

Паук ходит по тематическим сайтам (например, строительной, женской или сайтам другой тематики) и собирает ссылки, находящиеся в никах пользователей, ведущей на их сайт.

Как работает?

1. БОТ берет ссылки с любых сайтов на любой платформе и на любых языках
2. БОТ самообучается - во время поиска ссылок пишет данные всех сайтов, на которые заходил. Если он зашел на Фейсбук или Твиттер и ему там не понравилось, при следующем случайном заходе он сравнит список и на них не пойдет.
3. Примерный принцип работы БОТА (алгоритм очень сложный) - Бот берет данные из файла (начальные URL, которые вы ему скормите, смотрите видео), создает карту сайта из данного урл и начинает ходить по страницам в поисках ссылок, берет ссылки из комментариев и начинает их проверять на ответ сервера, если ответа нет, бот идет в Вебархив и проверяет, есть ли там сайт. Если ответ положительный, смотрит количество ссылок, и если считает, что сайт перспективный, заносит его в список дропов.

Эта программа идет в связке с WebArchiveMasters - спайдер собирает тематические дропы, а парсер берет с них текста. Теперь не нужны списки доменов, программа найдет всё сама.

Программа идет в дополнение к WebArchiveMasters. WebArchiveMasters + Black Widow Spider = 500 рублей. Всем разошлю завтра ближе к вечеру.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Всем разослал на тестирование.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
В следующей версии Black Widow Spider будет использоваться автоматический сбор карты сайта с задержкой. Сейчас эти данные может менять пользователь, а это не нужно, вероятность поиска дропов падает пропорционально. Также будет оптимизирован WebArchiveMasters.
 

infosimple

Client
Регистрация
01.01.2015
Сообщения
427
Благодарностей
61
Баллы
28
Уникальный контен из вебархива трафик когда-нибудь давал?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Недавно продал один сайт на Телдери, полностью на текстах из Вебархива. Сайт был принят во все биржи, начиная от Ротапост и заканчивая ГГЛ, принят в РСЯ, Гнездо и постоянно писали прямые рекламодатели. Сейчас делают миллиарды сайтов и статейникам сейчас особенно тяжело. Нужно делать все правильно - нужен трастовый домен, внедрение ключевых слов в статьи (это крайне важно!), просто статьи никакого трафика никогда не дадут, а в наше время особенно.

Именно поэтому в свое время эти сайты бросили - пишет человек интересный авторский текст, проходят месяцы и годы, а на сайте 80-100 человек, и потом на сайт накладывают фильтр АГС. Автор разочаровывается и бросает сайт, не понимая, как работают алгоритмы ПС. Именно поэтому дорвеи всегда будут работать лучше белых сайтов, так-как дорвейщики прекрасно понимают, что весь смысл в ключевых низкочастотных низкоконкурентных запросах, а текст может быть бредовым уникальным или слепленным из снипетов неуникальным.

Кстати, люди, делающие свои сайты (думаю, процентов 70), покупают статьи на различных биржах за копейки, добавляют его в оригинальные тексты, брендируют - если бы они знали откуда этот текст, сильно бы удивились.
 
Последнее редактирование:
  • Спасибо
Реакции: deninsto
Статус
Закрыто для дальнейших ответов.

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)