Общие вопросы CapMonster Module Creation Studio

Bot_Sculptor

Client
Регистрация
11.06.2012
Сообщения
787
Благодарностей
237
Баллы
43
  • читаю вики:
3) Нажимите «добавить», чтобы добавить все собранные символы в коллекцию. Перед добавлением вам будет показаны все добавляющиеся символы, проверьте, чтобы там не было мусора или других символов. Найденный мусор можно выделить и удалить.
смотрите какие символы я также собирал (показано стрелками и точками): http://prntscr.com/8i2niy , http://prntscr.com/8i2l50
Выходит я делаю сейчас не верно? Потому что, нужно выбирать символы без мусора, без наложения символов друг на друга.

Но хочу заметить (моя цитата):
это я всего лишь по 25 символов сделал, много настроек при создании модуля оставил по умолчанию (т.к. хз что за что отвечает там), запустил создание модуля, поглядел первые 15мин, дальше прервал , запустил тестирование, включил быстрое распознавание и поменял "дистанцию" - получил сразу 65%.
а да, еще и мощность и все такое выставил только на треть.

так что, если добавить символов, + я видел при обучении модуля, есть возможность задавать искажения. Я думаю, это как-раз для этой капчи должно подойти (искажения), чтобы модуль лучше обучился.
в общем, круто. для первого модуля (первого раза работы с CM) я доволен )
изначально этот фильтр был включен и было так: http://prntscr.com/8i2vii т.е. символы были обрезаны. Тогда как же получилось 65% )?

  • поможет ли мне "искажение символов" http://prntscr.com/8i2x4y лучше обучить модуль. Я так понимаю, это как раз и применяется с такого рода каптчами, как у меня в данном случае ?
 
Последнее редактирование:

Bot_Sculptor

Client
Регистрация
11.06.2012
Сообщения
787
Благодарностей
237
Баллы
43
то это из wiki для этого случая ?
Интенсивность обучения на ложных данных - рекомендуется увеличить, если при распознавании или обучении ошибка распознавания символа (3) - ложное срабатывание встречается намного чаще других ошибок. Начинать обучение рекомендуется с параметра по-умолчанию: 10.
это сейчас параметр 10. А какой максимальный вообще ?

  • зы: на той каптче, я пока само больше выжал 79%, но это при слабом обучении. 100 проходов, и скорость ~80%, мощность всего 30%. времени занимает 15мин всего, для обучения модуля. Это я таким образом параметры подбирал пока. Беда в том, что когда я увеличиваю мощность на макс. и скорость на минимум, то улучшений нет) Тогда вопрос: а в каких случаях вообще нужно выкручивать мощность и скорость на макс?

  • upd^ при таких же оптимальных параметрах, что я получал 79%, теперь мощность указал 7, и скорость 50% - уже получилось 86%. После 30 проходов: http://prntscr.com/8iflqa
Я так понимаю, что нет смысла увеличивать мощность и скорость обучения, потому что лучше не будет все равно?
Обучение завершено http://prntscr.com/8igpuv . Графики эти значат, что мне нужно было прерывать обучение еще на 60 проходе ? а не ждать до конца. Т.к. Empty, Bad везде уже почти всегда 0. Это значит, что как-бы лучше уже не будет в этом обучении, это финиш ?
  • upd: модуль, в основном, не разгадывает только каптчи, где идет наложение букв друг на друга больше 50%. Это можно улучшить, в какую сторону смотреть, что за это отвечает?
 
Последнее редактирование:

Bot_Sculptor

Client
Регистрация
11.06.2012
Сообщения
787
Благодарностей
237
Баллы
43
  • есть ли смысл обучать дополнительно модуль еще на тех каптчах, что верно разгадал сам модуль. В начале у нас было 600 каптчей, на них сделал модуль 86%. После, на модуле разгадали верно 2000 каптч. Есть смысл обучать модуль еще на этих 2000?
Я думаю, что нет. Потому что разгадывал модуль, а не человек. А значит модуль ничего "нового" в этих каптчах не увидит (почти, т.к. он то не был уверен, верно разгадывает или нет).

  • из-за чего CM может отдавать ответ SORRY вместо каптчи ? в шаблоне я мониторю такой ответ, и если он 100 раз был подряд, то я об этом знаю. Так вот , в процессе мне об этом пишется, но вот смотрю в окошко CM там, вроде не встречал таких ответов SORRY.
 
Последнее редактирование:

nuaru

Main Administrator
Команда форума
Регистрация
14.01.2009
Сообщения
3 641
Благодарностей
2 476
Баллы
113
смотрите какие символы я также собирал (показано стрелками и точками): http://prntscr.com/8i2niy , http://prntscr.com/8i2l50
Выходит я делаю сейчас не верно? Потому что, нужно выбирать символы без мусора, без наложения символов друг на друга.
Нет, мусор, это когда в русскоязычной каптче яндекса встречаются ответы типа sorry или qwe. Тогда в таблице сбора символов, наряду с русскими, будут s,q,r,y и т.д.
Это и есть мусор. А пересекающиеся - это символы с шумами и их тоже надо собирать наряду с обычными.

изначально этот фильтр был включен и было так: http://prntscr.com/8i2vii т.е. символы были обрезаны. Тогда как же получилось 65% )?
Хороший вопрос, как там получилось 65%..
А вообще, надо было у кропа галку убрать, а у ресайза, наоборот, поставить. Я имею ввиду фильтры символов. Т.к. кроп символам не нужен - это фильтр для каптчи, а ресайз, естественно нужен, иначе обучение будет проходить совсем не на те символы по размеру.

поможет ли мне "искажение символов" http://prntscr.com/8i2x4y лучше обучить модуль. Я так понимаю, это как раз и применяется с такого рода каптчами, как у меня в данном случае ?
Это помогает, когда символов собрано мало и собирать еще лень.
В таких случаях график % распознавания при обучении сначала покажет всплеск, а потом начнет падать, это значит символов собрано мало.

то это из wiki для этого случая ?
Интенсивность обучения на ложных данных - рекомендуется увеличить, если при распознавании или обучении ошибка распознавания символа (3) - ложное срабатывание встречается намного чаще других ошибок. Начинать обучение рекомендуется с параметра по-умолчанию: 10.
это сейчас параметр 10. А какой максимальный вообще ?
Графики отличные, все правильно обучается.
В вики написано про красную линию во втором графике. А тут все нормально.
Параметр 10-30, более 50-70, вообще, нет смысла ставить.

зы: на той каптче, я пока само больше выжал 79%, но это при слабом обучении. 100 проходов, и скорость ~80%, мощность всего 30%. времени занимает 15мин всего, для обучения модуля. Это я таким образом параметры подбирал пока. Беда в том, что когда я увеличиваю мощность на макс. и скорость на минимум, то улучшений нет) Тогда вопрос: а в каких случаях вообще нужно выкручивать мощность и скорость на макс?
Ну просто это ее предел и больше не получить даже при увеличении мощности ядра.

upd^ при таких же оптимальных параметрах, что я получал 79%, теперь мощность указал 7, и скорость 50% - уже получилось 86%. После 30 проходов: http://prntscr.com/8iflqa
Всегда присутствует некоторый рандом.
Лучше ставить проверку % раз в 4 цикла хотябы. Иначе многие ошибки не будут понятны.

Я так понимаю, что нет смысла увеличивать мощность и скорость обучения, потому что лучше не будет все равно?
Все правильно.

Обучение завершено http://prntscr.com/8igpuv . Графики эти значат, что мне нужно было прерывать обучение еще на 60 проходе ? а не ждать до конца. Т.к. Empty, Bad везде уже почти всегда 0. Это значит, что как-бы лучше уже не будет в этом обучении, это финиш ?
Процент распознавания мог еще прыгнуть вверх, заранее никогда не узнаешь.

upd: модуль, в основном, не разгадывает только каптчи, где идет наложение букв друг на друга больше 50%. Это можно улучшить, в какую сторону смотреть, что за это отвечает?
Нет, там уже параметр расстояния между символами настраивается так, что такие каптчи выпадают из-за проглатывания слишком близких друг к другу символов.
Это и так очень хороший результат, вполне достаточно.

есть ли смысл обучать дополнительно модуль еще на тех каптчах, что верно разгадал сам модуль. В начале у нас было 600 каптчей, на них сделал модуль 86%. После, на модуле разгадали верно 2000 каптч. Есть смысл обучать модуль еще на этих 2000?
Нет. Были случаи когда я так делал, но это все специфичесая работа, вам в это нет смысла вдаваться.
из-за чего CM может отдавать ответ SORRY вместо каптчи ? в шаблоне я мониторю такой ответ, и если он 100 раз был подряд, то я об этом знаю. Так вот , в процессе мне об этом пишется, но вот смотрю в окошко CM там, вроде не встречал таких ответов SORRY.
Каптча не успела разгадаться за отведенный таймаут, если я не ошибаюсь.
 
  • Спасибо
Реакции: Bot_Sculptor

Bot_Sculptor

Client
Регистрация
11.06.2012
Сообщения
787
Благодарностей
237
Баллы
43
Каптча не успела разгадаться за отведенный таймаут, если я не ошибаюсь.
скорее всего дело в чем-то другом, т.к. эти каптчи разгадываются за 100-150 мс, потоки тоже в это время были всего 1-4 заняты. Хз, помониторю еще может пойму из-за чего.

, а у ресайза, наоборот, поставить.
там стояло везде на тот момент, это просто на скрине так (тестил что-то)
 

nuaru

Main Administrator
Команда форума
Регистрация
14.01.2009
Сообщения
3 641
Благодарностей
2 476
Баллы
113

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)