WebArchiveMaster - парсер Вебархива2

Yolbert_Shantry · 23.06.2019

Duser сказал(а):
Нужны хорошие прокси, которые стоят денег

Ipv6 купите на 250 руб в мес. Этого хватит.

mishanya9002 · 25.06.2019

работал с локального айпи, через пару недель доступ к вебархиву заблокирован, после чего пробовал разные прокси, доступ так-же заблокирован, подскажите пожалуйста что делать ?

Galvit · 25.06.2019

Сегодня вебархив просто лег. И не отвечает ни через прокси ни через тор. Может я не прав, а может стоит подождать немного. Сегоня много кого ДДосят.

mishanya9002 · 25.06.2019

Galvit сказал(а):
Сегодня вебархив просто лег. И не отвечает ни через прокси ни через тор. Может я не прав, а может стоит подождать немного. Сегоня много кого ДДосят.

Ясно , будем ждать

theinova · 26.06.2019

Scheduled Maintenance

The Internet Archive's sites are offline for scheduled maintenance and upgrades.

Please check our twitter feed @internetarchive for updates.

Sorry for the inconvenience.

still down...

((

Olegator · 26.06.2019

Все работает штатно, 10 потоков и без прокси, как и раньше.

palbert · 26.06.2019

Как купить этот шаблон? В личку пишу разработчику, не ответа, ни привета. Может есть telegram кто вкурсе?

Mikhail B. · 26.06.2019

palbert сказал(а):
Как купить этот шаблон? В личку пишу разработчику, не ответа, ни привета. Может есть telegram кто вкурсе?

Ждите, ответит в течении нескольких дней.

mishanya9002 · 06.07.2019

а WebArchiveMastersV4.7 бала или не было такой версии?, а то у меня только 4.6 а тут уже про 4.8 пишут

Olegator · 06.07.2019

mishanya9002 сказал(а):
а WebArchiveMastersV4.7 бала или не было такой версии?, а то у меня только 4.6 а тут уже про 4.8 пишут

не было, у меня такая же старая версия и другие новые не получал, также не получил новую версию по парсингу майлов в дзене. Андрей, что-то вы совсем потерялись за эти две недели, отпишу вам на почту.

mishanya9002 · 07.07.2019

Есть хоть какаято приблизительная инфа по изминениям ?

Olegator · 07.07.2019

mishanya9002 сказал(а):
Есть хоть какаято приблизительная инфа по изминениям ?

нет, отписал на почту и молчок...прием только от новичков деньги и "старичкам" уже не скидывают обновления?

palbert · 08.07.2019

Кто в курсе подскажите пж, что делаю не так. Шаблон Textsales, никак не могу создать аккаунты, какие-то проблемы с каптчёй. В каптчу всё время идёт слово texstsale. Ключ от рукаптчи в настройках вставлен.

Galvit · 09.07.2019

А при публикации текста из архива на своем сайте кто-то ставит указание на источник? Ссылку например в открытом виде, или в ноиндекс нофоллоу или в скрипт оборачивает? Юридически как подстраховаться от претензий старого хозяина? Как вообще ссылка на мертвый сайт влияет на сайт?

Duser · 09.07.2019

Небольшой подарок для форумчан. Автор этого комплекса засунул в комплект шаблон TextCleaner. Но когда количество спарсеных текстов исчисляется тысячами, что-то просматривать и чистить тексты этим шаблоном мне показалось очень нудным.

В общем накатал я прогу в Visul Studio на C#. Это мини текстовый редактор с возможностью просматривать тексты "лету". На мой взгляд чистить тексты с помощью неё намного легче. По крайней мере быстрее и не так нудно. Чтоб вот прям сразу виден был результат. Может конечно я велосипед изобрёл... Короче судите сами: Качаем прогу тут. Мануал для неё тут. На счёт вирусов, не переживайте, я не настолько опытный кодер, что б писать вирусы))

С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#. А с вас лайки в Дзене.

Rooter85 · 09.07.2019

Duser сказал(а):
С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#.

Это точно. Нужно в универах ее как курс преподавать. Очень стимулирует к изучению.

palbert · 09.07.2019

Я вам на почту писал, ответьте пж, проблемы с шаблоном Textsales

Olegator · 10.07.2019

Тоже самое, отписал вам на почту, ответа так и нет, по двум шаблонам

Mikhail B. · 10.07.2019

@footashes берите за поддержку деньги если нету времени помогать людям.

Olegator · 12.07.2019

footashes сказал(а):
WebArchiveMastersV4.8 - антидубль. После парсинга проверяет текст на дубли несколькими тестами и перемещает найденные дубли в директорию "Дубли". Изначально проверка на дубли уже была встроена, но достаточно было попасть пробелу или другому символу, как такая статья переставала считаться дублем. Теперь проверка более сложная, но занимает время - 100 статей перепроверяются примерно 3-5 минут, так-как проверок несколько. Выглядит это как-то так:

Посмотреть вложение 40182 Посмотреть вложение 40183

Ведется работа по переходу на 7 версию Зеннопостера с хромовским движком, так-как 54 Фаерфокс уже морально устарел. Версию WebArchiveMastersV4.8 разошлю завтра после обеда, так-как нужно оптимизировать скорость.

Андрей, если возможно, то сделайте проверку на дубли побыстрее. У меня версия PRO с 50-ю потоками и если сайт 1000 статей, то далеко не 30-50 минут проверка, а намного дольше, если кто-то вытягивает статьи для своих сайтов, это одно, а у кого массовые продажи, то накладно. И такой вопрос, вы хотите переходить на 7-ю версию, а под 5-ю будете поддерживать? Просто если читать их ветку, то многие не хотят переходить на 7-ю и не из-за отсутствия денег, а ждут когда бета перейдет в релиз, а это не скоро и когда обкатают все баги, с учетом, что уже так скоро вышло первое обновление. Спасибо.

maestroOm · 14.07.2019

Duser сказал(а):
Небольшой подарок для форумчан. Автор этого комплекса засунул в комплект шаблон TextCleaner. Но когда количество спарсеных текстов исчисляется тысячами, что-то просматривать и чистить тексты этим шаблоном мне показалось очень нудным.

В общем накатал я прогу в Visul Studio на C#. Это мини текстовый редактор с возможностью просматривать тексты "лету". На мой взгляд чистить тексты с помощью неё намного легче. По крайней мере быстрее и не так нудно. Чтоб вот прям сразу виден был результат. Может конечно я велосипед изобрёл... Короче судите сами: Качаем прогу тут. Мануал для неё тут. На счёт вирусов, не переживайте, я не настолько опытный кодер, что б писать вирусы))

С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#. А с вас лайки в Дзене.

Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляю
.*YOURTEXT.*[\r]?[\n] (замените текст YOURTEXT текстом)
А то бывают фразы, что не настроишь, только регулярным выражением вырезать приходиться

maestroOm · 14.07.2019

@footashes , когда ставлю чекбокс в пункте "Взять новый домен" при попадании стоп слова хотя бы на одной странице, то сохраненные тексты остаются в одном тексте. Т.е. находит сайт, в котором нет стоп-слов и сохраняет текст в один файл. Так в нем они потом и остаются, без разбивки на отдельные тексты.
И в шлак идет все подряд, хотя я по умолчанию настройку эту не меняла. Что там прописано, то и оставила.
Убрала эту опцию, потому что все в шлаке, хотя в тексте потом не вижу этих слов, для сортировки категорий.

Duser · 14.07.2019

maestro_Om сказал(а):
Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляю
.*YOURTEXT.*[\r]?[\n] (замените текст YOURTEXT текстом)
А то бывают фразы, что не настроишь, только регулярным выражением вырезать приходиться

Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.

Olegator · 14.07.2019

Duser сказал(а):
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.

Нужно, так как мне пришлось отключить эту функцию, глючит. Но здесь согласуйте с ТС конечно.

maestroOm · 15.07.2019

Duser сказал(а):
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.

Это будет великолепно! Вдохновения :ar:

maestroOm · 15.07.2019

footashes сказал(а):
Это экспериментальная опция, рассчитана на ручной анализ, не нужно ничего ставить. Смысл такой - в любой момент при попадании стоп-слова этот домен полностью игнорируется, данные не трогаются для ручного просмотра, остаются в одном файле. Это сделано было для себя, но не получило дальнейшего развития.

Хорошая функция, жаль, что текст потом остается в одном файле даже там, где стоп-слов не найдено. Т.е. с любых других сайтов, даже где нет стоп-слов ни в одном тексте, все равно сохраняет данные в одном файле при наличии этого чекбокса.
Было бы удобно отсеивать так магазины, порносайты.
Буду рада увидеть эту настройку работоспособной.

annyclean · 15.07.2019

У меня шаблон работал отлично до недавнего времени. Но вот уже второй месяц, как выдает, что бесшаблонный парсер настроен неправильно и надо проверить его доступность. Особо никаких перемен не делала. Просто разархивировывала новые версии и все. Прямо очень жалко. Так привыкла уже к шаблону. Что делать уже - ума не приложу. Папка full-text-rss, как положено в папке domens в опенсервере есть скопированная. Путь в шаблоне на нее прописан. Что посоветуете?

WebArchiveMaster - парсер Вебархива2

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Новичок

Новичок

Client

Client

Новичок

Client

Новичок

Client

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)