Yolbert_Shantry
Client
- Регистрация
- 01.12.2018
- Сообщения
- 13
- Благодарностей
- 2
- Баллы
- 3
Ipv6 купите на 250 руб в мес. Этого хватит.Нужны хорошие прокси, которые стоят денег
Ipv6 купите на 250 руб в мес. Этого хватит.Нужны хорошие прокси, которые стоят денег
Ясно , будем ждатьСегодня вебархив просто лег. И не отвечает ни через прокси ни через тор. Может я не прав, а может стоит подождать немного. Сегоня много кого ДДосят.
still down... ((Scheduled Maintenance
The Internet Archive's sites are offline for scheduled maintenance and upgrades.
Please check our twitter feed @internetarchive for updates.
Sorry for the inconvenience.
Ждите, ответит в течении нескольких дней.Как купить этот шаблон? В личку пишу разработчику, не ответа, ни привета. Может есть telegram кто вкурсе?
не было, у меня такая же старая версия и другие новые не получал, также не получил новую версию по парсингу майлов в дзене. Андрей, что-то вы совсем потерялись за эти две недели, отпишу вам на почту.а WebArchiveMastersV4.7 бала или не было такой версии?, а то у меня только 4.6 а тут уже про 4.8 пишут
нет, отписал на почту и молчок...прием только от новичков деньги и "старичкам" уже не скидывают обновления?Есть хоть какаято приблизительная инфа по изминениям ?
Это точно. Нужно в универах ее как курс преподавать. Очень стимулирует к изучению.С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#.
Андрей, если возможно, то сделайте проверку на дубли побыстрее. У меня версия PRO с 50-ю потоками и если сайт 1000 статей, то далеко не 30-50 минут проверка, а намного дольше, если кто-то вытягивает статьи для своих сайтов, это одно, а у кого массовые продажи, то накладно. И такой вопрос, вы хотите переходить на 7-ю версию, а под 5-ю будете поддерживать? Просто если читать их ветку, то многие не хотят переходить на 7-ю и не из-за отсутствия денег, а ждут когда бета перейдет в релиз, а это не скоро и когда обкатают все баги, с учетом, что уже так скоро вышло первое обновление. Спасибо.WebArchiveMastersV4.8 - антидубль. После парсинга проверяет текст на дубли несколькими тестами и перемещает найденные дубли в директорию "Дубли". Изначально проверка на дубли уже была встроена, но достаточно было попасть пробелу или другому символу, как такая статья переставала считаться дублем. Теперь проверка более сложная, но занимает время - 100 статей перепроверяются примерно 3-5 минут, так-как проверок несколько. Выглядит это как-то так:
Ведется работа по переходу на 7 версию Зеннопостера с хромовским движком, так-как 54 Фаерфокс уже морально устарел. Версию WebArchiveMastersV4.8 разошлю завтра после обеда, так-как нужно оптимизировать скорость.
Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляюНебольшой подарок для форумчан. Автор этого комплекса засунул в комплект шаблон TextCleaner. Но когда количество спарсеных текстов исчисляется тысячами, что-то просматривать и чистить тексты этим шаблоном мне показалось очень нудным.
В общем накатал я прогу в Visul Studio на C#. Это мини текстовый редактор с возможностью просматривать тексты "лету". На мой взгляд чистить тексты с помощью неё намного легче. По крайней мере быстрее и не так нудно. Чтоб вот прям сразу виден был результат. Может конечно я велосипед изобрёл... Короче судите сами: Качаем прогу тут. Мануал для неё тут. На счёт вирусов, не переживайте, я не настолько опытный кодер, что б писать вирусы))
С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#. А с вас лайки в Дзене.
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляю
.*YOURTEXT.*[\r]?[\n] (замените текст YOURTEXT текстом)
А то бывают фразы, что не настроишь, только регулярным выражением вырезать приходиться
Нужно, так как мне пришлось отключить эту функцию, глючит. Но здесь согласуйте с ТС конечно.Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.
Это будет великолепно! ВдохновенияЛадно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.
Поменяю алгоритм, так-как рассчитано на один поток. Переход на новую версию будет не скоро, всё равно 5 версия через некоторое время перестанет поддерживаться.Андрей, если возможно, то сделайте проверку на дубли побыстрее. У меня версия PRO с 50-ю потоками и если сайт 1000 статей, то далеко не 30-50 минут проверка, а намного дольше, если кто-то вытягивает статьи для своих сайтов, это одно, а у кого массовые продажи, то накладно. И такой вопрос, вы хотите переходить на 7-ю версию, а под 5-ю будете поддерживать? Просто если читать их ветку, то многие не хотят переходить на 7-ю и не из-за отсутствия денег, а ждут когда бета перейдет в релиз, а это не скоро и когда обкатают все баги, с учетом, что уже так скоро вышло первое обновление. Спасибо.
Это экспериментальная опция, рассчитана на ручной анализ, не нужно ничего ставить. Смысл такой - в любой момент при попадании стоп-слова этот домен полностью игнорируется, данные не трогаются для ручного просмотра, остаются в одном файле. Это сделано было для себя, но не получило дальнейшего развития.@footashes , когда ставлю чекбокс в пункте "Взять новый домен" при попадании стоп слова хотя бы на одной странице, то сохраненные тексты остаются в одном тексте. Т.е. находит сайт, в котором нет стоп-слов и сохраняет текст в один файл. Так в нем они потом и остаются, без разбивки на отдельные тексты.
И в шлак идет все подряд, хотя я по умолчанию настройку эту не меняла. Что там прописано, то и оставила.
Убрала эту опцию, потому что все в шлаке, хотя в тексте потом не вижу этих слов, для сортировки категорий.
Честно говоря не знаю, к чему так усложнять там, где всё решается просто. Принцип шаблона - спарсить тексты, раскидать для проверки на уникальность. Если выводить каждую опцию, получится как куча всяких приборов и индикаторов в кабине самолета.Это будет великолепно! Вдохновения
Хорошая функция, жаль, что текст потом остается в одном файле даже там, где стоп-слов не найдено. Т.е. с любых других сайтов, даже где нет стоп-слов ни в одном тексте, все равно сохраняет данные в одном файле при наличии этого чекбокса.Это экспериментальная опция, рассчитана на ручной анализ, не нужно ничего ставить. Смысл такой - в любой момент при попадании стоп-слова этот домен полностью игнорируется, данные не трогаются для ручного просмотра, остаются в одном файле. Это сделано было для себя, но не получило дальнейшего развития.