WebArchiveMaster - парсер Вебархива2

Yolbert_Shantry · 23.06.2019

Duser написал(а):
Нужны хорошие прокси, которые стоят денег

Ipv6 купите на 250 руб в мес. Этого хватит.

mishanya9002 · 25.06.2019

работал с локального айпи, через пару недель доступ к вебархиву заблокирован, после чего пробовал разные прокси, доступ так-же заблокирован, подскажите пожалуйста что делать ?

Galvit · 25.06.2019

Сегодня вебархив просто лег. И не отвечает ни через прокси ни через тор. Может я не прав, а может стоит подождать немного. Сегоня много кого ДДосят.

mishanya9002 · 25.06.2019

Galvit написал(а):
Сегодня вебархив просто лег. И не отвечает ни через прокси ни через тор. Может я не прав, а может стоит подождать немного. Сегоня много кого ДДосят.

Ясно , будем ждать

theinova · 26.06.2019

Scheduled Maintenance

The Internet Archive's sites are offline for scheduled maintenance and upgrades.

Please check our twitter feed @internetarchive for updates.

Sorry for the inconvenience.

still down...

((

Olegator · 26.06.2019

Все работает штатно, 10 потоков и без прокси, как и раньше.

palbert · 26.06.2019

Как купить этот шаблон? В личку пишу разработчику, не ответа, ни привета. Может есть telegram кто вкурсе?

Mikhail B. · 26.06.2019

palbert написал(а):
Как купить этот шаблон? В личку пишу разработчику, не ответа, ни привета. Может есть telegram кто вкурсе?

Ждите, ответит в течении нескольких дней.

footashes · 06.07.2019

WebArchiveMastersV4.8 - антидубль (входящих настроек для этой функции нет - фиксируется по умолчанию, отключить нельзя) - много изменений. Сейчас лето - могу отвечать с задержками. Кому нужно, тот возьмет.

Цена - 500 рублей за всё.
Яндекс-Деньги: 410011187505134
Киви - +7 961 999‑51‑37

mishanya9002 · 06.07.2019

а WebArchiveMastersV4.7 бала или не было такой версии?, а то у меня только 4.6 а тут уже про 4.8 пишут

Olegator · 06.07.2019

mishanya9002 написал(а):
а WebArchiveMastersV4.7 бала или не было такой версии?, а то у меня только 4.6 а тут уже про 4.8 пишут

не было, у меня такая же старая версия и другие новые не получал, также не получил новую версию по парсингу майлов в дзене. Андрей, что-то вы совсем потерялись за эти две недели, отпишу вам на почту.

mishanya9002 · 07.07.2019

Есть хоть какаято приблизительная инфа по изминениям ?

Olegator · 07.07.2019

mishanya9002 написал(а):
Есть хоть какаято приблизительная инфа по изминениям ?

нет, отписал на почту и молчок...прием только от новичков деньги и "старичкам" уже не скидывают обновления?

palbert · 08.07.2019

Кто в курсе подскажите пж, что делаю не так. Шаблон Textsales, никак не могу создать аккаунты, какие-то проблемы с каптчёй. В каптчу всё время идёт слово texstsale. Ключ от рукаптчи в настройках вставлен.

Galvit · 09.07.2019

А при публикации текста из архива на своем сайте кто-то ставит указание на источник? Ссылку например в открытом виде, или в ноиндекс нофоллоу или в скрипт оборачивает? Юридически как подстраховаться от претензий старого хозяина? Как вообще ссылка на мертвый сайт влияет на сайт?

Duser · 09.07.2019

Небольшой подарок для форумчан. Автор этого комплекса засунул в комплект шаблон TextCleaner. Но когда количество спарсеных текстов исчисляется тысячами, что-то просматривать и чистить тексты этим шаблоном мне показалось очень нудным.

В общем накатал я прогу в Visul Studio на C#. Это мини текстовый редактор с возможностью просматривать тексты "лету". На мой взгляд чистить тексты с помощью неё намного легче. По крайней мере быстрее и не так нудно. Чтоб вот прям сразу виден был результат. Может конечно я велосипед изобрёл... Короче судите сами: Качаем прогу тут. Мануал для неё тут. На счёт вирусов, не переживайте, я не настолько опытный кодер, что б писать вирусы))

С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#. А с вас лайки в Дзене.

Rooter85 · 09.07.2019

Duser написал(а):
С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#.

Это точно. Нужно в универах ее как курс преподавать. Очень стимулирует к изучению.

footashes · 09.07.2019

WebArchiveMastersV4.8 - антидубль. После парсинга проверяет текст на дубли несколькими тестами и перемещает найденные дубли в директорию "Дубли". Изначально проверка на дубли уже была встроена, но достаточно было попасть пробелу или другому символу, как такая статья переставала считаться дублем. Теперь проверка более сложная, но занимает время - 100 статей перепроверяются примерно 3-5 минут, так-как проверок несколько. Выглядит это как-то так:

Ведется работа по переходу на 7 версию Зеннопостера с хромовским движком, так-как 54 Фаерфокс уже морально устарел. Версию WebArchiveMastersV4.8 разошлю завтра после обеда, так-как нужно оптимизировать скорость.

palbert · 09.07.2019

Я вам на почту писал, ответьте пж, проблемы с шаблоном Textsales

Olegator · 10.07.2019

Тоже самое, отписал вам на почту, ответа так и нет, по двум шаблонам

Mikhail B. · 10.07.2019

@footashes берите за поддержку деньги если нету времени помогать людям.

Olegator · 12.07.2019

footashes написал(а):
WebArchiveMastersV4.8 - антидубль. После парсинга проверяет текст на дубли несколькими тестами и перемещает найденные дубли в директорию "Дубли". Изначально проверка на дубли уже была встроена, но достаточно было попасть пробелу или другому символу, как такая статья переставала считаться дублем. Теперь проверка более сложная, но занимает время - 100 статей перепроверяются примерно 3-5 минут, так-как проверок несколько. Выглядит это как-то так:

Посмотреть вложение 40182 Посмотреть вложение 40183

Ведется работа по переходу на 7 версию Зеннопостера с хромовским движком, так-как 54 Фаерфокс уже морально устарел. Версию WebArchiveMastersV4.8 разошлю завтра после обеда, так-как нужно оптимизировать скорость.

Андрей, если возможно, то сделайте проверку на дубли побыстрее. У меня версия PRO с 50-ю потоками и если сайт 1000 статей, то далеко не 30-50 минут проверка, а намного дольше, если кто-то вытягивает статьи для своих сайтов, это одно, а у кого массовые продажи, то накладно. И такой вопрос, вы хотите переходить на 7-ю версию, а под 5-ю будете поддерживать? Просто если читать их ветку, то многие не хотят переходить на 7-ю и не из-за отсутствия денег, а ждут когда бета перейдет в релиз, а это не скоро и когда обкатают все баги, с учетом, что уже так скоро вышло первое обновление. Спасибо.

maestroOm · 14.07.2019

Duser написал(а):
Небольшой подарок для форумчан. Автор этого комплекса засунул в комплект шаблон TextCleaner. Но когда количество спарсеных текстов исчисляется тысячами, что-то просматривать и чистить тексты этим шаблоном мне показалось очень нудным.

В общем накатал я прогу в Visul Studio на C#. Это мини текстовый редактор с возможностью просматривать тексты "лету". На мой взгляд чистить тексты с помощью неё намного легче. По крайней мере быстрее и не так нудно. Чтоб вот прям сразу виден был результат. Может конечно я велосипед изобрёл... Короче судите сами: Качаем прогу тут. Мануал для неё тут. На счёт вирусов, не переживайте, я не настолько опытный кодер, что б писать вирусы))

С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#. А с вас лайки в Дзене.

Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляю
.*YOURTEXT.*[\r]?[\n] (замените текст YOURTEXT текстом)
А то бывают фразы, что не настроишь, только регулярным выражением вырезать приходиться

maestroOm · 14.07.2019

@footashes , когда ставлю чекбокс в пункте "Взять новый домен" при попадании стоп слова хотя бы на одной странице, то сохраненные тексты остаются в одном тексте. Т.е. находит сайт, в котором нет стоп-слов и сохраняет текст в один файл. Так в нем они потом и остаются, без разбивки на отдельные тексты.
И в шлак идет все подряд, хотя я по умолчанию настройку эту не меняла. Что там прописано, то и оставила.
Убрала эту опцию, потому что все в шлаке, хотя в тексте потом не вижу этих слов, для сортировки категорий.

Duser · 14.07.2019

maestro_Om написал(а):
Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляю
.*YOURTEXT.*[\r]?[\n] (замените текст YOURTEXT текстом)
А то бывают фразы, что не настроишь, только регулярным выражением вырезать приходиться

Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.

Olegator · 14.07.2019

Duser написал(а):
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.

Нужно, так как мне пришлось отключить эту функцию, глючит. Но здесь согласуйте с ТС конечно.

maestroOm · 15.07.2019

Duser написал(а):
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.

Это будет великолепно! Вдохновения :ar:

footashes · 15.07.2019

Olegator написал(а):
Андрей, если возможно, то сделайте проверку на дубли побыстрее. У меня версия PRO с 50-ю потоками и если сайт 1000 статей, то далеко не 30-50 минут проверка, а намного дольше, если кто-то вытягивает статьи для своих сайтов, это одно, а у кого массовые продажи, то накладно. И такой вопрос, вы хотите переходить на 7-ю версию, а под 5-ю будете поддерживать? Просто если читать их ветку, то многие не хотят переходить на 7-ю и не из-за отсутствия денег, а ждут когда бета перейдет в релиз, а это не скоро и когда обкатают все баги, с учетом, что уже так скоро вышло первое обновление. Спасибо.

Поменяю алгоритм, так-как рассчитано на один поток. Переход на новую версию будет не скоро, всё равно 5 версия через некоторое время перестанет поддерживаться.

maestro_Om написал(а):
@footashes , когда ставлю чекбокс в пункте "Взять новый домен" при попадании стоп слова хотя бы на одной странице, то сохраненные тексты остаются в одном тексте. Т.е. находит сайт, в котором нет стоп-слов и сохраняет текст в один файл. Так в нем они потом и остаются, без разбивки на отдельные тексты.
И в шлак идет все подряд, хотя я по умолчанию настройку эту не меняла. Что там прописано, то и оставила.
Убрала эту опцию, потому что все в шлаке, хотя в тексте потом не вижу этих слов, для сортировки категорий.

Это экспериментальная опция, рассчитана на ручной анализ, не нужно ничего ставить. Смысл такой - в любой момент при попадании стоп-слова этот домен полностью игнорируется, данные не трогаются для ручного просмотра, остаются в одном файле. Это сделано было для себя, но не получило дальнейшего развития.

maestro_Om написал(а):
Это будет великолепно! Вдохновения

Честно говоря не знаю, к чему так усложнять там, где всё решается просто. Принцип шаблона - спарсить тексты, раскидать для проверки на уникальность. Если выводить каждую опцию, получится как куча всяких приборов и индикаторов в кабине самолета.

maestroOm · 15.07.2019

footashes написал(а):
Это экспериментальная опция, рассчитана на ручной анализ, не нужно ничего ставить. Смысл такой - в любой момент при попадании стоп-слова этот домен полностью игнорируется, данные не трогаются для ручного просмотра, остаются в одном файле. Это сделано было для себя, но не получило дальнейшего развития.

Хорошая функция, жаль, что текст потом остается в одном файле даже там, где стоп-слов не найдено. Т.е. с любых других сайтов, даже где нет стоп-слов ни в одном тексте, все равно сохраняет данные в одном файле при наличии этого чекбокса.
Было бы удобно отсеивать так магазины, порносайты.
Буду рада увидеть эту настройку работоспособной.

annyclean · 15.07.2019

У меня шаблон работал отлично до недавнего времени. Но вот уже второй месяц, как выдает, что бесшаблонный парсер настроен неправильно и надо проверить его доступность. Особо никаких перемен не делала. Просто разархивировывала новые версии и все. Прямо очень жалко. Так привыкла уже к шаблону. Что делать уже - ума не приложу. Папка full-text-rss, как положено в папке domens в опенсервере есть скопированная. Путь в шаблоне на нее прописан. Что посоветуете?

WebArchiveMaster - парсер Вебархива2

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Новичок

Новичок

Client

Client

Новичок

Client

Новичок

Client

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)