WebArchiveMaster - парсер Вебархива2

Регистрация
01.12.2018
Сообщения
13
Благодарностей
2
Баллы
3
  • Спасибо
Реакции: Duser

mishanya9002

Client
Регистрация
04.01.2019
Сообщения
112
Благодарностей
7
Баллы
18
работал с локального айпи, через пару недель доступ к вебархиву заблокирован, после чего пробовал разные прокси, доступ так-же заблокирован, подскажите пожалуйста что делать ?
 

Galvit

Client
Регистрация
28.03.2019
Сообщения
17
Благодарностей
5
Баллы
3
Сегодня вебархив просто лег. И не отвечает ни через прокси ни через тор. Может я не прав, а может стоит подождать немного. Сегоня много кого ДДосят.
 

mishanya9002

Client
Регистрация
04.01.2019
Сообщения
112
Благодарностей
7
Баллы
18
Сегодня вебархив просто лег. И не отвечает ни через прокси ни через тор. Может я не прав, а может стоит подождать немного. Сегоня много кого ДДосят.
Ясно , будем ждать
 

theinova

Client
Регистрация
07.09.2016
Сообщения
118
Благодарностей
79
Баллы
28

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
Все работает штатно, 10 потоков и без прокси, как и раньше.
 

palbert

Client
Регистрация
26.06.2019
Сообщения
6
Благодарностей
2
Баллы
3
Как купить этот шаблон? В личку пишу разработчику, не ответа, ни привета. Может есть telegram кто вкурсе?
 

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 427
Благодарностей
5 454
Баллы
113

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
WebArchiveMastersV4.8 - антидубль (входящих настроек для этой функции нет - фиксируется по умолчанию, отключить нельзя) - много изменений. Сейчас лето - могу отвечать с задержками. Кому нужно, тот возьмет.

Цена - 500 рублей за всё.
Яндекс-Деньги: 410011187505134
Киви - +7 961 999‑51‑37
 

mishanya9002

Client
Регистрация
04.01.2019
Сообщения
112
Благодарностей
7
Баллы
18
а WebArchiveMastersV4.7 бала или не было такой версии?, а то у меня только 4.6 а тут уже про 4.8 пишут
 

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
а WebArchiveMastersV4.7 бала или не было такой версии?, а то у меня только 4.6 а тут уже про 4.8 пишут
не было, у меня такая же старая версия и другие новые не получал, также не получил новую версию по парсингу майлов в дзене. Андрей, что-то вы совсем потерялись за эти две недели, отпишу вам на почту.
 

mishanya9002

Client
Регистрация
04.01.2019
Сообщения
112
Благодарностей
7
Баллы
18
Есть хоть какаято приблизительная инфа по изминениям ?
 

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8

palbert

Client
Регистрация
26.06.2019
Сообщения
6
Благодарностей
2
Баллы
3
Кто в курсе подскажите пж, что делаю не так. Шаблон Textsales, никак не могу создать аккаунты, какие-то проблемы с каптчёй. В каптчу всё время идёт слово texstsale. Ключ от рукаптчи в настройках вставлен.
 

Вложения

Galvit

Client
Регистрация
28.03.2019
Сообщения
17
Благодарностей
5
Баллы
3
А при публикации текста из архива на своем сайте кто-то ставит указание на источник? Ссылку например в открытом виде, или в ноиндекс нофоллоу или в скрипт оборачивает? Юридически как подстраховаться от претензий старого хозяина? Как вообще ссылка на мертвый сайт влияет на сайт?
 

Duser

Client
Регистрация
11.08.2013
Сообщения
289
Благодарностей
198
Баллы
43
Небольшой подарок для форумчан. Автор этого комплекса засунул в комплект шаблон TextCleaner. Но когда количество спарсеных текстов исчисляется тысячами, что-то просматривать и чистить тексты этим шаблоном мне показалось очень нудным.

В общем накатал я прогу в Visul Studio на C#. Это мини текстовый редактор с возможностью просматривать тексты "лету". На мой взгляд чистить тексты с помощью неё намного легче. По крайней мере быстрее и не так нудно. Чтоб вот прям сразу виден был результат. Может конечно я велосипед изобрёл... Короче судите сами: Качаем прогу тут. Мануал для неё тут. На счёт вирусов, не переживайте, я не настолько опытный кодер, что б писать вирусы))

С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#. А с вас лайки в Дзене.
 
Последнее редактирование:

Rooter85

Client
Регистрация
04.07.2015
Сообщения
244
Благодарностей
64
Баллы
28
С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#.
Это точно. Нужно в универах ее как курс преподавать. Очень стимулирует к изучению.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
WebArchiveMastersV4.8 - антидубль. После парсинга проверяет текст на дубли несколькими тестами и перемещает найденные дубли в директорию "Дубли". Изначально проверка на дубли уже была встроена, но достаточно было попасть пробелу или другому символу, как такая статья переставала считаться дублем. Теперь проверка более сложная, но занимает время - 100 статей перепроверяются примерно 3-5 минут, так-как проверок несколько. Выглядит это как-то так:
Screenshot_1.jpg
Screenshot_2.jpg
Ведется работа по переходу на 7 версию Зеннопостера с хромовским движком, так-как 54 Фаерфокс уже морально устарел. Версию WebArchiveMastersV4.8 разошлю завтра после обеда, так-как нужно оптимизировать скорость.
 

palbert

Client
Регистрация
26.06.2019
Сообщения
6
Благодарностей
2
Баллы
3
Я вам на почту писал, ответьте пж, проблемы с шаблоном Textsales
 

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
Тоже самое, отписал вам на почту, ответа так и нет, по двум шаблонам
 

Mikhail B.

Client
Регистрация
23.12.2014
Сообщения
14 427
Благодарностей
5 454
Баллы
113
@footashes берите за поддержку деньги если нету времени помогать людям.
 
  • Спасибо
Реакции: guru и Olegator

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
WebArchiveMastersV4.8 - антидубль. После парсинга проверяет текст на дубли несколькими тестами и перемещает найденные дубли в директорию "Дубли". Изначально проверка на дубли уже была встроена, но достаточно было попасть пробелу или другому символу, как такая статья переставала считаться дублем. Теперь проверка более сложная, но занимает время - 100 статей перепроверяются примерно 3-5 минут, так-как проверок несколько. Выглядит это как-то так:
Ведется работа по переходу на 7 версию Зеннопостера с хромовским движком, так-как 54 Фаерфокс уже морально устарел. Версию WebArchiveMastersV4.8 разошлю завтра после обеда, так-как нужно оптимизировать скорость.
Андрей, если возможно, то сделайте проверку на дубли побыстрее. У меня версия PRO с 50-ю потоками и если сайт 1000 статей, то далеко не 30-50 минут проверка, а намного дольше, если кто-то вытягивает статьи для своих сайтов, это одно, а у кого массовые продажи, то накладно. И такой вопрос, вы хотите переходить на 7-ю версию, а под 5-ю будете поддерживать? Просто если читать их ветку, то многие не хотят переходить на 7-ю и не из-за отсутствия денег, а ждут когда бета перейдет в релиз, а это не скоро и когда обкатают все баги, с учетом, что уже так скоро вышло первое обновление. Спасибо.
 

maestroOm

Новичок
Регистрация
28.02.2018
Сообщения
6
Благодарностей
2
Баллы
3
Небольшой подарок для форумчан. Автор этого комплекса засунул в комплект шаблон TextCleaner. Но когда количество спарсеных текстов исчисляется тысячами, что-то просматривать и чистить тексты этим шаблоном мне показалось очень нудным.

В общем накатал я прогу в Visul Studio на C#. Это мини текстовый редактор с возможностью просматривать тексты "лету". На мой взгляд чистить тексты с помощью неё намного легче. По крайней мере быстрее и не так нудно. Чтоб вот прям сразу виден был результат. Может конечно я велосипед изобрёл... Короче судите сами: Качаем прогу тут. Мануал для неё тут. На счёт вирусов, не переживайте, я не настолько опытный кодер, что б писать вирусы))

С этой зенкой, всех кодить научили. Я бы вот в жизни не стал учить этот c#. А с вас лайки в Дзене.
Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляю
.*YOURTEXT.*[\r]?[\n] (замените текст YOURTEXT текстом)
А то бывают фразы, что не настроишь, только регулярным выражением вырезать приходиться
 
  • Спасибо
Реакции: Duser

maestroOm

Новичок
Регистрация
28.02.2018
Сообщения
6
Благодарностей
2
Баллы
3
@footashes , когда ставлю чекбокс в пункте "Взять новый домен" при попадании стоп слова хотя бы на одной странице, то сохраненные тексты остаются в одном тексте. Т.е. находит сайт, в котором нет стоп-слов и сохраняет текст в один файл. Так в нем они потом и остаются, без разбивки на отдельные тексты.
И в шлак идет все подряд, хотя я по умолчанию настройку эту не меняла. Что там прописано, то и оставила.
Убрала эту опцию, потому что все в шлаке, хотя в тексте потом не вижу этих слов, для сортировки категорий.
 

Duser

Client
Регистрация
11.08.2013
Сообщения
289
Благодарностей
198
Баллы
43
Программа понравилась, спасибо! Только даты приходится регуляркой удалять в нотепаде. И в нем же строку иногда регуляркой удаляю
.*YOURTEXT.*[\r]?[\n] (замените текст YOURTEXT текстом)
А то бывают фразы, что не настроишь, только регулярным выражением вырезать приходиться
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.
 
  • Спасибо
Реакции: maestroOm

Olegator

Client
Регистрация
15.02.2019
Сообщения
64
Благодарностей
11
Баллы
8
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.
Нужно, так как мне пришлось отключить эту функцию, глючит. Но здесь согласуйте с ТС конечно.
 
  • Спасибо
Реакции: maestroOm

maestroOm

Новичок
Регистрация
28.02.2018
Сообщения
6
Благодарностей
2
Баллы
3
Ладно. Добавлю регулярки. Так-то я могу сделать удалялку похожих текстов (дублей) с заданной степенью похожести. Нужно? @footashes, чай не будет против.
Это будет великолепно! Вдохновения:ar:
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 051
Благодарностей
440
Баллы
83
Андрей, если возможно, то сделайте проверку на дубли побыстрее. У меня версия PRO с 50-ю потоками и если сайт 1000 статей, то далеко не 30-50 минут проверка, а намного дольше, если кто-то вытягивает статьи для своих сайтов, это одно, а у кого массовые продажи, то накладно. И такой вопрос, вы хотите переходить на 7-ю версию, а под 5-ю будете поддерживать? Просто если читать их ветку, то многие не хотят переходить на 7-ю и не из-за отсутствия денег, а ждут когда бета перейдет в релиз, а это не скоро и когда обкатают все баги, с учетом, что уже так скоро вышло первое обновление. Спасибо.
Поменяю алгоритм, так-как рассчитано на один поток. Переход на новую версию будет не скоро, всё равно 5 версия через некоторое время перестанет поддерживаться.
@footashes , когда ставлю чекбокс в пункте "Взять новый домен" при попадании стоп слова хотя бы на одной странице, то сохраненные тексты остаются в одном тексте. Т.е. находит сайт, в котором нет стоп-слов и сохраняет текст в один файл. Так в нем они потом и остаются, без разбивки на отдельные тексты.
И в шлак идет все подряд, хотя я по умолчанию настройку эту не меняла. Что там прописано, то и оставила.
Убрала эту опцию, потому что все в шлаке, хотя в тексте потом не вижу этих слов, для сортировки категорий.
Это экспериментальная опция, рассчитана на ручной анализ, не нужно ничего ставить. Смысл такой - в любой момент при попадании стоп-слова этот домен полностью игнорируется, данные не трогаются для ручного просмотра, остаются в одном файле. Это сделано было для себя, но не получило дальнейшего развития.
Это будет великолепно! Вдохновения:ar:
Честно говоря не знаю, к чему так усложнять там, где всё решается просто. Принцип шаблона - спарсить тексты, раскидать для проверки на уникальность. Если выводить каждую опцию, получится как куча всяких приборов и индикаторов в кабине самолета.
 
  • Спасибо
Реакции: maestroOm

maestroOm

Новичок
Регистрация
28.02.2018
Сообщения
6
Благодарностей
2
Баллы
3
Это экспериментальная опция, рассчитана на ручной анализ, не нужно ничего ставить. Смысл такой - в любой момент при попадании стоп-слова этот домен полностью игнорируется, данные не трогаются для ручного просмотра, остаются в одном файле. Это сделано было для себя, но не получило дальнейшего развития.
Хорошая функция, жаль, что текст потом остается в одном файле даже там, где стоп-слов не найдено. Т.е. с любых других сайтов, даже где нет стоп-слов ни в одном тексте, все равно сохраняет данные в одном файле при наличии этого чекбокса.
Было бы удобно отсеивать так магазины, порносайты.
Буду рада увидеть эту настройку работоспособной.
 

annyclean

Client
Регистрация
21.12.2016
Сообщения
11
Благодарностей
0
Баллы
1
У меня шаблон работал отлично до недавнего времени. Но вот уже второй месяц, как выдает, что бесшаблонный парсер настроен неправильно и надо проверить его доступность. Особо никаких перемен не делала. Просто разархивировывала новые версии и все. Прямо очень жалко. Так привыкла уже к шаблону. Что делать уже - ума не приложу. Папка full-text-rss, как положено в папке domens в опенсервере есть скопированная. Путь в шаблоне на нее прописан. Что посоветуете?
 

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)