WebArchiveMaster - парсер Вебархива2

работал с локального айпи, через пару недель доступ к вебархиву заблокирован, после чего пробовал разные прокси, доступ так-же заблокирован, подскажите пожалуйста что делать ?
 
Сегодня вебархив просто лег. И не отвечает ни через прокси ни через тор. Может я не прав, а может стоит подождать немного. Сегоня много кого ДДосят.
 
Все работает штатно, 10 потоков и без прокси, как и раньше.
 
Как купить этот шаблон? В личку пишу разработчику, не ответа, ни привета. Может есть telegram кто вкурсе?
 
WebArchiveMastersV4.8 - антидубль (входящих настроек для этой функции нет - фиксируется по умолчанию, отключить нельзя) - много изменений. Сейчас лето - могу отвечать с задержками. Кому нужно, тот возьмет.

Цена - 500 рублей за всё.
Яндекс-Деньги: 410011187505134
Киви - +7 961 999‑51‑37
 
а WebArchiveMastersV4.7 бала или не было такой версии?, а то у меня только 4.6 а тут уже про 4.8 пишут
 
а WebArchiveMastersV4.7 бала или не было такой версии?, а то у меня только 4.6 а тут уже про 4.8 пишут
не было, у меня такая же старая версия и другие новые не получал, также не получил новую версию по парсингу майлов в дзене. Андрей, что-то вы совсем потерялись за эти две недели, отпишу вам на почту.
 
Есть хоть какаято приблизительная инфа по изминениям ?
 
Кто в курсе подскажите пж, что делаю не так. Шаблон Textsales, никак не могу создать аккаунты, какие-то проблемы с каптчёй. В каптчу всё время идёт слово texstsale. Ключ от рукаптчи в настройках вставлен.
 

Вложения

  • Screenshot_3.jpg
    Screenshot_3.jpg
    171,9 KB · Просмотры: 517
А при публикации текста из архива на своем сайте кто-то ставит указание на источник? Ссылку например в открытом виде, или в ноиндекс нофоллоу или в скрипт оборачивает? Юридически как подстраховаться от претензий старого хозяина? Как вообще ссылка на мертвый сайт влияет на сайт?
 
Небольшой подарок для форумчан. Автор этого комплекса засунул в комплект шаблон TextCleaner. Но когда количество спарсеных текстов исчисляется тысячами, что-то просматривать и чистить тексты этим шаблоном мне показалось очень нудным.

В общем накатал я прогу в Visul Studio на C#. Это мини текстовый редактор с возможностью просматривать тексты "лету". На мой взгляд чистить тексты с помощью неё намного легче. По крайней мере быстрее и не так нудно. Чтоб вот прям сразу виден был результат. Может конечно я велосипед изобрёл... Короче судите сами: Качаем прогу тут. Мануал для неё тут. На счёт вирусов, не переживайте, я не настолько опытный кодер, что б писать вирусы))

С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#. А с вас лайки в Дзене.
 
Последнее редактирование:
WebArchiveMastersV4.8 - антидубль. После парсинга проверяет текст на дубли несколькими тестами и перемещает найденные дубли в директорию "Дубли". Изначально проверка на дубли уже была встроена, но достаточно было попасть пробелу или другому символу, как такая статья переставала считаться дублем. Теперь проверка более сложная, но занимает время - 100 статей перепроверяются примерно 3-5 минут, так-как проверок несколько. Выглядит это как-то так:
Screenshot_1.jpg
Screenshot_2.jpg
Ведется работа по переходу на 7 версию Зеннопостера с хромовским движком, так-как 54 Фаерфокс уже морально устарел. Версию WebArchiveMastersV4.8 разошлю завтра после обеда, так-как нужно оптимизировать скорость.
 
Я вам на почту писал, ответьте пж, проблемы с шаблоном Textsales
 
Тоже самое, отписал вам на почту, ответа так и нет, по двум шаблонам
 
@footashes берите за поддержку деньги если нету времени помогать людям.
 
  • Спасибо
Реакции: guru и Olegator
WebArchiveMastersV4.8 - антидубль. После парсинга проверяет текст на дубли несколькими тестами и перемещает найденные дубли в директорию "Дубли". Изначально проверка на дубли уже была встроена, но достаточно было попасть пробелу или другому символу, как такая статья переставала считаться дублем. Теперь проверка более сложная, но занимает время - 100 статей перепроверяются примерно 3-5 минут, так-как проверок несколько. Выглядит это как-то так:
Ведется работа по переходу на 7 версию Зеннопостера с хромовским движком, так-как 54 Фаерфокс уже морально устарел. Версию WebArchiveMastersV4.8 разошлю завтра после обеда, так-как нужно оптимизировать скорость.
Андрей, если возможно, то сделайте проверку на дубли побыстрее. У меня версия PRO с 50-ю потоками и если сайт 1000 статей, то далеко не 30-50 минут проверка, а намного дольше, если кто-то вытягивает статьи для своих сайтов, это одно, а у кого массовые продажи, то накладно. И такой вопрос, вы хотите переходить на 7-ю версию, а под 5-ю будете поддерживать? Просто если читать их ветку, то многие не хотят переходить на 7-ю и не из-за отсутствия денег, а ждут когда бета перейдет в релиз, а это не скоро и когда обкатают все баги, с учетом, что уже так скоро вышло первое обновление. Спасибо.
 
Небольшой подарок для форумчан. Автор этого комплекса засунул в комплект шаблон TextCleaner. Но когда количество спарсеных текстов исчисляется тысячами, что-то просматривать и чистить тексты этим шаблоном мне показалось очень нудным.

В общем накатал я прогу в Visul Studio на C#. Это мини текстовый редактор с возможностью просматривать тексты "лету". На мой взгляд чистить тексты с помощью неё намного легче. По крайней мере быстрее и не так нудно. Чтоб вот прям сразу виден был результат. Может конечно я велосипед изобрёл... Короче судите сами: Качаем прогу тут. Мануал для неё тут. На счёт вирусов, не переживайте, я не настолько опытный кодер, что б писать вирусы))

С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#. А с вас лайки в Дзене.

Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляю
.*YOURTEXT.*[\r]?[\n] (замените текст YOURTEXT текстом)
А то бывают фразы, что не настроишь, только регулярным выражением вырезать приходиться
 
  • Спасибо
Реакции: Duser
@footashes , когда ставлю чекбокс в пункте "Взять новый домен" при попадании стоп слова хотя бы на одной странице, то сохраненные тексты остаются в одном тексте. Т.е. находит сайт, в котором нет стоп-слов и сохраняет текст в один файл. Так в нем они потом и остаются, без разбивки на отдельные тексты.
И в шлак идет все подряд, хотя я по умолчанию настройку эту не меняла. Что там прописано, то и оставила.
Убрала эту опцию, потому что все в шлаке, хотя в тексте потом не вижу этих слов, для сортировки категорий.
 
Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляю
.*YOURTEXT.*[\r]?[\n] (замените текст YOURTEXT текстом)
А то бывают фразы, что не настроишь, только регулярным выражением вырезать приходиться

Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.
 
  • Спасибо
Реакции: maestroOm
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.
Нужно, так как мне пришлось отключить эту функцию, глючит. Но здесь согласуйте с ТС конечно.
 
  • Спасибо
Реакции: maestroOm
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.
Это будет великолепно! Вдохновения:ar:
 
Андрей, если возможно, то сделайте проверку на дубли побыстрее. У меня версия PRO с 50-ю потоками и если сайт 1000 статей, то далеко не 30-50 минут проверка, а намного дольше, если кто-то вытягивает статьи для своих сайтов, это одно, а у кого массовые продажи, то накладно. И такой вопрос, вы хотите переходить на 7-ю версию, а под 5-ю будете поддерживать? Просто если читать их ветку, то многие не хотят переходить на 7-ю и не из-за отсутствия денег, а ждут когда бета перейдет в релиз, а это не скоро и когда обкатают все баги, с учетом, что уже так скоро вышло первое обновление. Спасибо.
Поменяю алгоритм, так-как рассчитано на один поток. Переход на новую версию будет не скоро, всё равно 5 версия через некоторое время перестанет поддерживаться.
@footashes , когда ставлю чекбокс в пункте "Взять новый домен" при попадании стоп слова хотя бы на одной странице, то сохраненные тексты остаются в одном тексте. Т.е. находит сайт, в котором нет стоп-слов и сохраняет текст в один файл. Так в нем они потом и остаются, без разбивки на отдельные тексты.
И в шлак идет все подряд, хотя я по умолчанию настройку эту не меняла. Что там прописано, то и оставила.
Убрала эту опцию, потому что все в шлаке, хотя в тексте потом не вижу этих слов, для сортировки категорий.
Это экспериментальная опция, рассчитана на ручной анализ, не нужно ничего ставить. Смысл такой - в любой момент при попадании стоп-слова этот домен полностью игнорируется, данные не трогаются для ручного просмотра, остаются в одном файле. Это сделано было для себя, но не получило дальнейшего развития.
Это будет великолепно! Вдохновения:ar:
Честно говоря не знаю, к чему так усложнять там, где всё решается просто. Принцип шаблона - спарсить тексты, раскидать для проверки на уникальность. Если выводить каждую опцию, получится как куча всяких приборов и индикаторов в кабине самолета.
 
  • Спасибо
Реакции: maestroOm
Это экспериментальная опция, рассчитана на ручной анализ, не нужно ничего ставить. Смысл такой - в любой момент при попадании стоп-слова этот домен полностью игнорируется, данные не трогаются для ручного просмотра, остаются в одном файле. Это сделано было для себя, но не получило дальнейшего развития.

Хорошая функция, жаль, что текст потом остается в одном файле даже там, где стоп-слов не найдено. Т.е. с любых других сайтов, даже где нет стоп-слов ни в одном тексте, все равно сохраняет данные в одном файле при наличии этого чекбокса.
Было бы удобно отсеивать так магазины, порносайты.
Буду рада увидеть эту настройку работоспособной.
 
У меня шаблон работал отлично до недавнего времени. Но вот уже второй месяц, как выдает, что бесшаблонный парсер настроен неправильно и надо проверить его доступность. Особо никаких перемен не делала. Просто разархивировывала новые версии и все. Прямо очень жалко. Так привыкла уже к шаблону. Что делать уже - ума не приложу. Папка full-text-rss, как положено в папке domens в опенсервере есть скопированная. Путь в шаблоне на нее прописан. Что посоветуете?
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)