WebArchiveMaster - парсер Вебархива

Статус
Закрыто для дальнейших ответов.

Metrix

Client
Регистрация
03.01.2014
Сообщения
342
Благодарностей
272
Баллы
63
У ксевила мощная защита, поэтому думаю, что демо.
Защита от чего?
Я же тебе говорю, что не демо, есть с чем сравнивать.
Там индивидуальные ключи доступа для каждого.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Анонс Black Widow Spider. Теперь используется другой алгоритм полностью без участия человека. Тестирование показывает гораздо лучшие результаты по нахождению и устойчивости программы. Через 2-3 дня тестирования разошлю. Уникального текста только в русском сегменте столько, что можно копать экскаватором. Также переделывается Readme.pdf.
 
  • Спасибо
Реакции: dsdos34

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Новая версия Black Widow Spider для сбора тематических дропов. Нужен мощный компьютер, так-как программе нужно обработать десятки тысяч ссылок только одного сайта и правильные сайты для поиска дропов - сайты нужны старые, с комментариями не менее 3-4 лет, тогда вероятность нахождения очень сильно повышается.
  1. Программа ускорена в 3-4 раза
  2. Изменена логика и убрано лишнее
  3. Двухсуточное тестирование не выявило падений Зеннопостер
  4. Множественные запросы к base приводили к её разрастанию до 1,5 ГБ, что приводило к замедлению работы и последующему падению Зеннопостер с выеданием всех ресурсов компьютера\сервера. Теперь base использует максимум 150 Мб, с последующей итерацией инстанс автоматически перезагружается и очищает память компьютера.
  5. Каждую копию запускать в одном потоке.
В следующей версии планируется ввести блок для редактирования пользователем, работающим по признакам на пару с главным алгоритмом. Это позволит выцеплять нестандартные домены, которые не может взять никакая программа.

Программа будет постоянно дорабатываться.

Также продаю мануал нахождения "жирных" сайтов в Вебархиве. Мануал разработан мной, я давно работаю именно по нему и частично там задействован Black Widow Spider. Позволяет найти такой текст, который не поддается автоматизации. Работа ручная, но за пару часов можно найти 50-60 дропов, до которых ещё никто не доюрался, и зарядить их в WebArchiveMasters.

Это особенно актуально для тех, кто продает текста или имеет сайты определенной тематики - парсить список дропов, это тыкать пальцем в небо, тут как повезет; моя методика позволяет работать точечно. Буквально за десять минут я нашел больше сотни уникальных статей по теме "Строительство". Выхода на покупателей у меня нет и сайта о стройке тоже, поэтому, что с ними делать, без понятия, кто захочет купить курс, тому и вышлю (первому покупателю). Думаю, вы найдете, куда их пристроить.

Методика в виде видеоролика на 15 минут, где я все покажу. Цена 400 рублей. При оплате пишите "Хочу методику. Ваш емейл".

Вебмани: R282711380496
Яндекс-Деньги: 410011187505134
 

Fantomass

Client
Регистрация
13.04.2016
Сообщения
87
Благодарностей
38
Баллы
18
Позволяет найти такой текст, который не поддается автоматизации. Работа ручная, но за пару часов можно найти 50-60 дропов, до которых ещё никто не доюрался, и зарядить их в WebArchiveMasters.
Сколько копий мануала планируете продать?
Не умрет ли тема от наплыва людей после того, как она попадет в паблик? А в паблик она попадет рано или поздно вместе с шаблонами.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Каждый день создаются и умирают миллионы сайтов, хороших и плохих (во всем мире, а WebArchiveMasters парсит текст на любом языке). Кто-то разочаровывается и бросает проект, кто-то уходит на другую работу или уезжает. Источник Вебархива неисчерпаем - чем больше оттуда берешь, тем больше туда добавляется, думаю, в скором времени Вебархив будет сохранять не снимки сайта, а только текст - слишком много людей в интернете, слишком много сайтов, думаю, у них скоро не хватит мощностей. В Вебархиве уже висела реклама о помощи на оплату серверов.

Я не первый год работаю с Вебархивом и сначала по наивности думал, что найду пар-тройку текстов, так-как люди перепахали его вдоль и поперек, но нет, уника столько, что лично я не знаю, что с ним делать. А насчет шаблонов и паблика - будут действительно работать один из тысячи, остальные побалуются и бросят - работа муторная, скажу прямо, тексты, тексты - сотни, тысячи, бесконечные тексты. Лично я перегорел за то время, что работаю, кто хочет - велкам ту хелл.
 
  • Спасибо
Реакции: Dimionix

Fantomass

Client
Регистрация
13.04.2016
Сообщения
87
Благодарностей
38
Баллы
18
Спасибо за разъяснение. Действительно, я сразу не подумал о том, что Вебархив - это постоянно пополняемый ресурс.
С тем, что работа муторная, согласен, но у меня есть человек, который будет читать готовые тексты и выбирать подходящие именно для моих проектов.

Деньги за мануал перевел на вебмани.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Сейчас наблюдаю свою сетку правильных дропов, с текстами из Вебархива с правильными ключами, с "хвостами" (без переспама, стронгов и повторения ключевиков, не используя синонимы). Спустя два месяца после включения в индекс Яндекс и Гугл начали давать трафик. Сайты сейчас теснят "старичков" по СЧ, я очень внимательно за этим наблюдаю, так-как я работаю и с дорвеями, а дорвейщики - это профи (исключая школьников, которые не понимают алгоритмов ПС) - так-что, дорогие критики - текста из Вебархива прекрасно работают.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Занимаюсь сейчас Чехией и Украиной, попадаются удивительные дропы. Такое чувство, что в Украине нет украинского языка, всё на русском. Наверное, здесь буду выкладывать некоммерческие вещи - кто занимается свадебной фотографией, пишите в личку, скину дроп по вашей тематике со свадебными фото. Возможно, найдёте для себя что-то новое в ракурсах.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
text.jpg

Доработал проверку текста через text.ru, используя прокси. Примерный алгоритм:
Программа всё делает автоматически, вмешательство не требуется.

  1. Парсинг русских прокси.
  2. Проверка этих прокси на работоспособность (чекинг).
  3. Берем прокси и переходим на проверку текста (берем текст из папки "База статей").
  4. После проверки переносим файл из папки "База статей" в папки "Уникальные" или "Копипаст" (в зависимости от проверки).
  5. Перед каждым файлом пишется процент уникальности - например, Уникальность 0_13% - ваш текст.txt или Уникальность 83_04% - ваш текст.txt
Скорость проверки текста зависит от прокси и загруженности сервиса. В моем случае это составляет примерно 50 текстов в час.
Для кого это? Это пригодится копирайтерам, так-как текст.ру самый вменяемый проверяльщик, по моему мнению - я ориентируюсь в своей работе только на него. Новичкам, которые хотят узнать, как зайти на сайт с помощью прокси и где их взять. Также это пригодится тем, кто хочет использовать прокси в своей работе - шаблон позволяет модернизировать логику и сделать на этой базе что угодно, что требует использования прокси - спамер Мой Мир, регистрация почтовых ящиков и т.д.

Также шаблон пригодится как дополнение к парсеру вебархива, так-как для проверки уникальности не требуется капча, а многие стопорятся именно на проверке уникальности.

Шаблон полностью открыт. Цена 200 рублей.

Вебмани: R282711380496
Яндекс-Деньги: 410011187505134
В примечании пишите свой емейл и текст "Текст.ру".

Screenshot_1.jpg


Screenshot_2.jpg


Screenshot_3.jpg
 
Последнее редактирование:
  • Спасибо
Реакции: Astraport

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Для дорвейщиков - могу сделать пинговалку по анализаторам. Кому нужно, пишите в ЛС.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Обновление WebArchiveMaster - парсера Вебархива.

1. Устранена проблема с Config.сfg - теперь задаваемое количество минимальных символов отрабатывает корректно.
2. Добавлен новый файл конфигурации - Kategory.сfg, который отвечает за исключение анонсов статей. Как правило, работает только со стандартными CMS и отсекает около 60% ненужных коротких анонсов. Но за счет чистки ненужных данных снижена скорость. По умолчанию в Kategory.сfg стоит цифра "1", что означает включение, вы можете отключить чистку категорий и ускорить парсинг, поставив "0". Можно при работающем проекте менять значения.
3. Теперь все данные сохраняются в одну папку, без "www"
4. Отрегулирован PHP скрипт, но мусор все равно будет цеплять - если текст небольшой, а данных на странице много (комментарии, рекламные слоганы, которые бывают больше текста), то неизбежно бесшаблонный парсер захватит их. Если текст чистый более-менее, то всё ненужное отсечётся.
5. Новый файл конфигурации - Zapros.сfg. Он отвечает за проверку доменов на работоспособность - если домен работает, то он не проверяется, а берется следующий из списка. По умолчанию стоит цифра "1", если вы считаете, что теряется слишком много доменов, которые отвечают на запрос, что работают, а в действительности отключены и припаркованы (сервер не отдаёт ошибки), то можете поставить "0" и домены проверяться не будут. Но возрастает вероятность парсинга заведомо неуникальных текстов.
 
  • Спасибо
Реакции: Astraport

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Стратегия работы этих программ - ставим зеннопостер на сервер, два потока работают с WebArchiveMaster, парсят текста из Вебархива, один поток для паука - добыча доменов, один поток для шаблона проверки текста через text.ru. Заходим раз в несколько дней, забираем готовое и подкидываем новые домены и тексты. Можно масштабировать.

Вечером залью сюда обновленную помощь по установке и принципе работы шаблонов, так-как все меняется и информация устаревает.
 
  • Спасибо
Реакции: dsdos34 и Astraport

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Структурировал и немного скорректировал данные для всех программ. можно скачать ниже:
 

Вложения

Harry

Client
Регистрация
15.11.2015
Сообщения
5
Благодарностей
0
Баллы
1
Оплатил все три продукта жду получения
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83

Harry

Client
Регистрация
15.11.2015
Сообщения
5
Благодарностей
0
Баллы
1

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Немного уточню по WebArchiveMaster, а в частности, по файлу конфигурации - Kategory.сfg. Эта настройка не предназначена для работы в 10-15 потоков, так-как дает очень много запросов к Вебархиву; для Вебархива это то же самое, что DDOS. Эта настройка повышает вероятность отсеивания категорий в 60%, и рассчитана максимум на 1-3 потока. Если у вас больше потоков, поставьте "0" в файле конфигурации и лучше используйте модернизированный full-text-rss. Он не зря приложен в файле и сейчас отсеивает 90% мусора, Kategory.сfg используется как дополнение, но дает слишком много запросов и сильно замедляет парсинг ; уверен, что многие один раз поставили full-text-rss и забыли, но нужно использовать модернизированную версию. Также вам нужно использовать Config.сfg, не нужно смотреть на дефолтное значение, а анализировать спаршенный текст и вносить свои корректировки. Для новичков файл Zapros.сfg я не советую трогать, у вас не хватит ресурсов для проверки на уникальность, а стандартная настройка дает больше вероятности парсинга уникального текста.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Решил заняться дорвеями, тем более, опыт и нужные программы есть. Вторая ступень, основанная на системе управления контентом "Kandidat", с которым я хотел участвовать в конкурсе, и который хорошо показал себя в индексации и смс подписках (сейчас это устарело). Новая разработка на несколько порядков превышает "Kandidat" - используются новые технологии, LSI, подсказки и многое другое. Дорген будет открытым и без привязок. Если вы захотите его продать или подарить - я буду только за. Сейчас все ресурсы брошены на этот дорген. Следите за разработкой.
 
Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Тесты дорвеев, отдам за копейки неудачные дорвей и невыстреливший сайт (прощупывание алгоритмов ПС). http://vpogonezamechtou.ru - дроп из Вебархива, около сотни статей - ключевые слова не использовались полностью, акцент был на человеческих текстах и уникальных картинках (фотошоп и иллюстратор, компоновка). Теория штука красивая, но практика показала, что без ключей это бессмыслено, что подтверждают брошенные дропы для людей в Вебархиве.

Итог - если вы не используете ключевые слова, ваш сайт обречен зависнуть на несколько лет на 40-70 месте. Прошло много лет, сменилось много алгоритмов, но ПС работают по старому.

Сайт http://cheerfulness.ru. Моя разработка, с которой хотел участвовать в конкурсе - сайт тестов фильмов и мультфильмов на wordpress. Несколько таких продал на Телдери, брали из-за базы мультфильмов и торг стоял лютый, каждые две минуты новая ставка. Скажу честно, далеко не доделан - не сделано самое главное, не размножен текст с ключами, поэтому у обоих сайтов посещалка 1-7 уников. Это вообще ни о чем. Провал. А ведь люди годами пишут и получают сто человек в день спустя годы. Надеюсь, вы такое для себя не желаете.

Отдаю почти даром, так-как это мой неудачный опыт, но кто-то может для себя почерпнуть немного нового.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Обновление проверки текста через text.ru. Из-за умершего прокси программа могла войти в бесконечный цикл и вместо надписи "Пожалуйста, подождите, перед вами в очереди 9 текстов" показывать пустоту, так-как данные поступали и ошибкой не считались. Теперь прокси отслеживается на всех этапах. Завтра разошлю всем.
 
  • Спасибо
Реакции: dsdos34

Aleksandr-zakazchik

Пользователь
Регистрация
04.01.2015
Сообщения
96
Благодарностей
3
Баллы
18
Всем привет, Есть предложение, я очень занятой маркетолог это я без иронии, разбираться в настройках нет времени (ипотека, работа,семья)), взял бы уже настроен продукт в аренду или купил бы его только чтобы под мои требования мне продавец продукта или кто то настроил , пишите в Скайп nugnyi-nick
Пиис, не судите строго
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Всем разослал. Для того, чтобы сменить список прокси, который используют уже все, откройте проект и посмотрите, как сформирована ссылка на взятие прокси.
 
Регистрация
27.05.2015
Сообщения
129
Благодарностей
45
Баллы
28
У меня в сообщения последнее обновление от 14.10.2017. Еще обновления были?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Ответил в ЛС.
 
Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Проверяльщик форумов (сайтов) через сервис на ТИЦ. Проверяет по 900 за раз. В файл База RU Форумов.txt кладете форумы (сайты), которые нужно прочекать, в файл Готовая база.txt запишутся форумы (сайты), ТИЦ которых более 10, остальные отбросятся.

Также первому отписавшимуся в личку отдам Registered Accounts, там около двух тысяч форумов, подготовленных для Антиспама с логином и паролем. Была допущена ошибка и что-то пошло не так, часть из них, скорее всего заблокированы. Остальные пригодятся для ручной работы или ссылки в профиле, форумы более-менее трастовые.
 

Вложения

Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Парсер поисковых подсказок Яндекс и Гугл.
Работает через прокси на GET запросах. Может использоваться как модуль для доргена - главный ключ использовать в H1, в Title использовать разбавленный ключ, в тексте раскидать поисковые подсказки, относящиеся к этому ключу. Или может быть использован для расширения базы ключей.

В файл Keywords забросить ключи, по которым нужны подсказки, в файл Готовые подсказки будут записываться подсказки, в файл Next parsing установить нужную глубину парсинга.

ВАЖНО!
В шаблоне "проверка текста через text.ru" сделайте так, иначе при непредвиденном сбое возможна ошибка доступа к файлу:

Screenshot_1.jpg
 

Вложения

  • Спасибо
Реакции: Astraport и daymos

Aleksandr-zakazchik

Пользователь
Регистрация
04.01.2015
Сообщения
96
Благодарностей
3
Баллы
18
кто нибудь сможет мне просто залить 10 сайтов, на мой хост, ибо разбираться со всеми настройками нет времени
 

ailebedev

Client
Регистрация
28.09.2016
Сообщения
13
Благодарностей
0
Баллы
1
Сколько сейчас все в комплекте стоить будет? Тема интересная
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Статус
Закрыто для дальнейших ответов.

Кто просматривает тему: (Всего: 55, Пользователи: 0, Гости: 55)