Общие вопросы CapMonster Module Creation Studio

nuaru · 21.09.2015

смотрите какие символы я также собирал (показано стрелками и точками): http://prntscr.com/8i2niy , http://prntscr.com/8i2l50
Выходит я делаю сейчас не верно? Потому что, нужно выбирать символы без мусора, без наложения символов друг на друга.

Нет, мусор, это когда в русскоязычной каптче яндекса встречаются ответы типа sorry или qwe. Тогда в таблице сбора символов, наряду с русскими, будут s,q,r,y и т.д.
Это и есть мусор. А пересекающиеся - это символы с шумами и их тоже надо собирать наряду с обычными.

еще я думаю допустил большую ошибку тут http://prntscr.com/8i2uy4

изначально этот фильтр был включен и было так: http://prntscr.com/8i2vii т.е. символы были обрезаны. Тогда как же получилось 65% )?

Хороший вопрос, как там получилось 65%..
А вообще, надо было у кропа галку убрать, а у ресайза, наоборот, поставить. Я имею ввиду фильтры символов. Т.к. кроп символам не нужен - это фильтр для каптчи, а ресайз, естественно нужен, иначе обучение будет проходить совсем не на те символы по размеру.

поможет ли мне "искажение символов" http://prntscr.com/8i2x4y лучше обучить модуль. Я так понимаю, это как раз и применяется с такого рода каптчами, как у меня в данном случае ?

Это помогает, когда символов собрано мало и собирать еще лень.
В таких случаях график % распознавания при обучении сначала покажет всплеск, а потом начнет падать, это значит символов собрано мало.

Если мы имеем такие графики: http://prntscr.com/8i9aa4

то это из wiki для этого случая ?
Интенсивность обучения на ложных данных - рекомендуется увеличить, если при распознавании или обучении ошибка распознавания символа (3) - ложное срабатывание встречается намного чаще других ошибок. Начинать обучение рекомендуется с параметра по-умолчанию: 10.
это сейчас параметр 10. А какой максимальный вообще ?

Графики отличные, все правильно обучается.
В вики написано про красную линию во втором графике. А тут все нормально.
Параметр 10-30, более 50-70, вообще, нет смысла ставить.

зы: на той каптче, я пока само больше выжал 79%, но это при слабом обучении. 100 проходов, и скорость ~80%, мощность всего 30%. времени занимает 15мин всего, для обучения модуля. Это я таким образом параметры подбирал пока. Беда в том, что когда я увеличиваю мощность на макс. и скорость на минимум, то улучшений нет) Тогда вопрос: а в каких случаях вообще нужно выкручивать мощность и скорость на макс?

Ну просто это ее предел и больше не получить даже при увеличении мощности ядра.

upd^ при таких же оптимальных параметрах, что я получал 79%, теперь мощность указал 7, и скорость 50% - уже получилось 86%. После 30 проходов: http://prntscr.com/8iflqa

Всегда присутствует некоторый рандом.
Лучше ставить проверку % раз в 4 цикла хотябы. Иначе многие ошибки не будут понятны.

Я так понимаю, что нет смысла увеличивать мощность и скорость обучения, потому что лучше не будет все равно?

Все правильно.

Обучение завершено http://prntscr.com/8igpuv . Графики эти значат, что мне нужно было прерывать обучение еще на 60 проходе ? а не ждать до конца. Т.к. Empty, Bad везде уже почти всегда 0. Это значит, что как-бы лучше уже не будет в этом обучении, это финиш ?

Процент распознавания мог еще прыгнуть вверх, заранее никогда не узнаешь.

upd: модуль, в основном, не разгадывает только каптчи, где идет наложение букв друг на друга больше 50%. Это можно улучшить, в какую сторону смотреть, что за это отвечает?

Нет, там уже параметр расстояния между символами настраивается так, что такие каптчи выпадают из-за проглатывания слишком близких друг к другу символов.
Это и так очень хороший результат, вполне достаточно.

есть ли смысл обучать дополнительно модуль еще на тех каптчах, что верно разгадал сам модуль. В начале у нас было 600 каптчей, на них сделал модуль 86%. После, на модуле разгадали верно 2000 каптч. Есть смысл обучать модуль еще на этих 2000?

Нет. Были случаи когда я так делал, но это все специфичесая работа, вам в это нет смысла вдаваться.

из-за чего CM может отдавать ответ SORRY вместо каптчи ? в шаблоне я мониторю такой ответ, и если он 100 раз был подряд, то я об этом знаю. Так вот , в процессе мне об этом пишется, но вот смотрю в окошко CM там, вроде не встречал таких ответов SORRY.

Каптча не успела разгадаться за отведенный таймаут, если я не ошибаюсь.

nuaru · 21.09.2015

Поиск

Общие вопросы CapMonster Module Creation Studio

Bot_Sculptor

Client

Bot_Sculptor

Client

Bot_Sculptor

Client

nuaru

Main Administrator

Bot_Sculptor

Client

nuaru

Main Administrator

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)