WebArchiveMaster - парсер Вебархива2

Vita1980 · 18.12.2018

Вордпресс

BobiK · 18.12.2018

Так в самом редакторе вордпресс текст отредактируй. Либо вставляй без форматирования

footashes · 18.12.2018

BobiK написал(а):
Так в самом редакторе вордпресс текст отредактируй. Либо вставляй без форматирования

WebArchiveMastersV4.1

Теперь, пока текст не спарсится, проверять на уникальность не будет
При остановке, если включена проверка текста, парсинг будет отключен и включена проверка текста, после полной проверки папка будет перемещена в директорию "ReadyText"

Вечером разошлю.

BobiK · 18.12.2018

footashes написал(а):
WebArchiveMastersV4.1

Теперь, пока текст не спарсится, проверять на уникальность не будет

При остановке, если включена проверка текста, парсинг будет отключен и включена проверка текста, после полной проверки папка будет перемещена в директорию "ReadyText"

Вечером разошлю.

Я у вас купил черз сайт плати.ру. Версия 3.3. Мне полагаются обновления?
В некоторых тестах есть фраза источник: , можно ли убрать эти тексты в "шлак", так, как они зачастую не уникальные с вероятностью 99%

footashes · 18.12.2018

BobiK написал(а):
Я у вас купил черз сайт плати.ру. Версия 3.3. Мне полагаются обновления?
В некоторых тестах есть фраза источник: , можно ли убрать эти тексты в "шлак", так, как они зачастую не уникальные с вероятностью 99%

Да
Добавить сюда:

Должно быть так - источник: или источник -, так-как проверка идет по полному совпадению. Регистр тоже важен: источник: и Источник: не одно и тоже. Если добавить просто источник, то в шлак улетит весь текст, где есть это слово.

zonawm · 18.12.2018

При добавление в поле чистка от мусора такие слова как (18+,+1 8-)

выдает ошибку.
И далее крашится не раскидав все по файлам.
После просто берет новый домен. И все по кругу.

Ddnix · 18.12.2018

footashes написал(а):
WebArchiveMastersV4.1

Теперь, пока текст не спарсится, проверять на уникальность не будет

При остановке, если включена проверка текста, парсинг будет отключен и включена проверка текста, после полной проверки папка будет перемещена в директорию "ReadyText"

Вечером разошлю.

Ответьте пожалуйста, можно ли в моем случае что-то сделать? Не работает часть функционала, основная это парсинг сайтов. Версия зенки 5.11.6.0, на демке 5.25.0.0 все работает, т.е. это вопрос версии. Можно ли мне это каким то образом исправить? что то может скачать или еще что-то? Или мне поможет только обновление моей версии?

footashes · 18.12.2018

zonawm написал(а):
Посмотреть вложение 34548 Посмотреть вложение 34549
При добавление в поле чистка от мусора такие слова как (18+,+1 выдает ошибку.
И далее крашится не раскидав все по файлам.
После просто берет новый домен. И все по кругу.

Ddnix написал(а):
Ответьте пожалуйста, можно ли в моем случае что-то сделать? Не работает часть функционала, основная это парсинг сайтов. Версия зенки 5.11.6.0, на демке 5.25.0.0 все работает, т.е. это вопрос версии. Можно ли мне это каким то образом исправить? что то может скачать или еще что-то? Или мне поможет только обновление моей версии?

Сделано под версии ZennoPoster RU 5.17.1.0 - ZennoPoster RU 5.17.2.0. Как самые стабильные. ZennoPoster RU 5.17.1.0 вроде как лучше.
5.11.6.0 слишком старая, на 5.25.0.0 не тестировалось, далеко не у всех последние версии, поэтому был выбран компромисс. А таких ошибок я не видел ((18+,+1). Возможно, регулярное выражение вставлялось, я таких опытов не проводил.

P.S.

Отправил всем.

Fantomass · 18.12.2018

footashes написал(а):
Отправил всем.

А зачем при проверке текста на уникальность сначала загружается профиль из папки profile, а затем очищается UserAgent?

Yolbert_Shantry · 18.12.2018

Спасибо за обновление.
Возможно ли сделать частичное сохранение html тегов разметки?
Пример из Datacol на скрине ниже.
Это бы очень облегчило работу при массовом импорте.

zonawm · 19.12.2018

footashes написал(а):
Сделано под версии ZennoPoster RU 5.17.1.0 - ZennoPoster RU 5.17.2.0. Как самые стабильные. ZennoPoster RU 5.17.1.0 вроде как лучше.
5.11.6.0 слишком старая, на 5.25.0.0 не тестировалось, далеко не у всех последние версии, поэтому был выбран компромисс. А таких ошибок я не видел ((18+,+1). Возможно, регулярное выражение вставлялось, я таких опытов не проводил.

Посмотреть вложение 34555

P.S.

Отправил всем.

Тогда перед чисткой от мусора производить замену спец символов желательно было бы.

footashes · 19.12.2018

Fantomass написал(а):
А зачем при проверке текста на уникальность сначала загружается профиль из папки profile, а затем очищается UserAgent?

Без истории браузера текст.ру сбрасывал проверку. Возможно, что-то тестировали. С подменой данных в профиле нужно ещё поработать.

Yolbert_Shantry написал(а):
Спасибо за обновление.
Возможно ли сделать частичное сохранение html тегов разметки?
Пример из Datacol на скрине ниже.
Это бы очень облегчило работу при массовом импорте.
Посмотреть вложение 34562

Да, это несложно. Будет позже, после обкатки.

zonawm написал(а):
Тогда перед чисткой от мусора производить замену спец символов желательно было бы.

Не видел там спецсимволов. Скиньте пример.

zonawm · 19.12.2018

footashes написал(а):
Не видел там спецсимволов. Скиньте пример.

В списке на удаление от мусора были слова "18+", "+18". Я так понимаю они просто попеременно вставляются в регулярное выражение. Вот эти символы (+, точка и т.д.) и надо экранировать.

Yolbert_Shantry · 19.12.2018

footashes написал(а):
Да, это несложно. Будет позже, после обкатки.

Было бы очень кстати, т.к. на все, что парсится сейчас, требует много ручного труда.
Спасибо!

footashes · 22.12.2018

WebArchiveMastersV4.2 alfa

Устранены баги
Добавлен поиск по ключевым словам - можно забросить домены и проверять их на наличие нужного текста
Домены, которые не отвечали на запрос или там было мало текста, теперь удаляются, а не сохраняются.

Пример фильтрации с проверкой - скачать
Пример настройки и помощи - посмотреть

Цена - 600 рублей. Шаблон полностью открытый и без привязок. Если нужно решение по скоростной проверки на уникальность, то +200 рублей.

Вебмани: Z251978534905, R282711380496
Яндекс-Деньги: 410011187505134
Киви - +7 961 999‑51‑37

В понедельник-вторник будет видео по всем функциям, как и что делать, так-как видео уже устарели.

П.С.
Разошлю сегодня вечером.

П.П.С.

Кстати, магазин Вебархива Текстнет вынесли - http://webavtocat.ru. Так-что можно сделать свой, у кого ума хватит.

footashes · 27.12.2018

Через несколько дней будет полное видео и новые обновления, когда альфа перейдет в бету.

Серхио · 27.12.2018

Доброго времени суток! footashes, в телеге можно связаться?

footashes · 03.01.2019

Серхио написал(а):
Доброго времени суток! footashes, в телеге можно связаться?

Пишите на емейл - footashes@gmail.com. Через пару дней будет полное видео - от и до.

BobiK · 03.01.2019

Можно вынести в отдельный модуль шаблон, который очищает большой текстовый файл? Иногда парсит большой сайт на 15000 страниц, и очень много дерьмового контента и приходится останавливать парсинг, при этом весь контент находиться в одном файле, а не разбивается по отдельным текстовым файлам, как после обычного окончания процесса, что очень неудобно из него извлекать контент, который нужен.

footashes · 03.01.2019

BobiK написал(а):
Можно вынести в отдельный модуль шаблон, который очищает большой текстовый файл? Иногда парсит большой сайт на 15000 страниц, и очень много дерьмового контента и приходится останавливать парсинг, при этом весь контент находиться в одном файле, а не разбивается по отдельным текстовым файлам, как после обычного окончания процесса, что очень неудобно из него извлекать контент, который нужен.

Нельзя останавливать на полпути, иначе данные не обработаются. Если не хотите обрабатывать большие файлы, для этого есть модуль "дорвей". Также на лету обрабатываются данные по стоп-листу (если есть слова "порно, адали и т.д., эти текста игнорируются.
Я не зря написал о подготовке видео, так-как большинство не понимает про постобработку текста.

footashes · 13.01.2019

Для тех, кто постит статьи на своем сайте, посмотрите пример группировки правильной семантики на довольно коротких текстах - https://world-mans.ru/otbelit-zuby-v-domashnix-usloviyax.html (https://www.telderi.ru/ru/viewsite/1262342). Если вы просто забрасываете статью на сайт, её никто никогда не увидит. Именно поэтому в Вебархиве миллионы заброшенных сайтов и блогов - люди ночами писали статьи - интересные, с фотографиями и комментариями и получали 10- 50 человек в день. В первую очередь семантическое ядро - посмотрите в статье - основной запрос в h1, размазанный в title, заголовки и подзаголовки с ключами, хвосты раскиданы по всей статье.

Я так делаю давно, также делает этот вебмастер, тот же принцип у Пузата. Без ключевых запросов с группировкой статья ранжироваться просто не будет. Робот просто не поймет, как ему ранжировать.

P.S.
Есть идея создания автоматизированного семантического ядра для статей. Хотя бы по 40 параметрам - первый из них - усложненная формула KEI = p²/u. Затем проверка конкурентности статьи (по мутаген, кто знает примерную формулу, скинте на емейл) и ещё по 40 параметрам.
Альфа версия будет готова чарез пару недель.

За 3 суток напарсено и проверено текстов:

livetreider · 17.01.2019

Хотелось бы узнать когда вы пришлёте парсер, а то я ещё вчера денежку перевёл на почту написал, а в ответ тишина.

footashes · 20.01.2019

livetreider написал(а):
Хотелось бы узнать когда вы пришлёте парсер, а то я ещё вчера денежку перевёл на почту написал, а в ответ тишина.

Был в отъезде. Отправил всем.

footashes · 27.01.2019

WebArchiveMastersV4.3

Пофиксены незначительные баги
Дополнены различные фильтрации
Обновлена помощь и сделано пошаговое видео

Разошлю завтра к обеду.
Отправил всем.

Завтра будет полное пошаговое руководство. Будем разбирать рандомный домен с комментариями (звук будет записан с помощью робота). Пока почитайте помощь, чтобы понимать принцип работы. Также разберем проверку через Текст.ру.

Акция - 3 дня WebArchiveMastersV4.3 за 600 рублей. Это равняется одной статье через РотаПост - именно так я продавал со своего сайта - Ротапост, Миралинкс, ГГЛ - предназначено для владельцев сайтов. Зачем покупать статьи и платить деньги, получается невыгодно.
Как бы вы не жили сейчас, а парсер Вебархива пригодится вам если не сегодня, так завтра. Код открыт, и при желании, вы сможете перенести его принцип на любую платформу.

Сейчас пример с Дзен и небольшой лайфхак.

Статьи с Вебархива хорошо показывают себя на сайтах и Дзене, но они не предназначены для Дзен. Малой кровью сейчас не обойтись. Была идея слива с дзен - использование как дорвейный трафик - кликабельность настолько низкая, что не стоит даже бесплатных текстов.

Поразмышляйте на досуге - кто такие посетители Дзен. Это люди, которые сидят в (на) белом коне\метро\работе. Это люди, которые не будут читать сложные статьи. Они будут читать новости -чтобы быть в курсе, Пикабу и Яплпкалъ. Тематика развлекательная, с блоговыми статьями туда лезть бесполезно. Возникает даже подозрение, что это ботовый трафик.
Ниже вчерашняя моя статья с Дзен - там всё работает совсем по другому.

Это одна статья с Вебархива из сотни - переходы неплохие, покупок ноль.

Палю тему, как работает алгоритм Дзена. Дзен очень сильно сейчас затянул гайки для вебмастеров. Сценарий вашей работы с Дзеном сейчас - сейчас в тренде...

Если интересно, напишу со сценарием, что и как делать. Но придется поработать.

deonisii · 27.01.2019

footashes написал(а):
Был в отъезде. Отправил всем.

Не приходят обновления. Полный пакет. Доплачивал 200р, помимо цены за прогу.

footashes · 27.01.2019

deonisii написал(а):
Не приходят обновления. Полный пакет. Доплачивал 200р, помимо цены за прогу.

Скорее всего, из-за Мейл.ру. Завтра будет новая версия + сценарий работы с Дзен. Дзен сейчас затянул гайки в одностороннем порядке и пояса вебмастеров. Подкину сценарий работы с Дзен - но придется поработать - сейчас всё работает не так, как полгода назад.

deonisii · 27.01.2019

Яндекс подойдет? Для получения писем. Или лучше gmail ?

footashes · 27.01.2019

deonisii написал(а):
Яндекс подойдет? Для получения писем. Или лучше gmail ?

Всё должно дойти по представленным данным. В любом случае, эдесь отпишу о рассылке - если не дошло, отправлю в личку. Ваши данные есть, уже проверено. Также здесь опишу тренд работы с Дзен на сейчас. Ну или при рассылке.

Harry · 27.01.2019

У меня на почте последняя версия 4.2
4.3 не приходила

HastaLaVista · 28.01.2019

Harry написал(а):
У меня на почте последняя версия 4.2
4.3 не приходила

Аналогично. Последний мэйл с обновлениями был с 4.2alfa от 22.12.18. Дальше тишина. В папке Спам пусто, акк ан джимэйле.
Писал на мэйл автору, но ответов тоже не приходит.

WebArchiveMaster - парсер Вебархива2

Client

Новичок

Client

Новичок

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Новичок

Client

Новичок

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)