смотрите какие символы я также собирал (показано стрелками и точками):
http://prntscr.com/8i2niy ,
http://prntscr.com/8i2l50
Выходит я делаю сейчас не верно? Потому что, нужно выбирать символы без мусора, без наложения символов друг на друга.
Нет, мусор, это когда в русскоязычной каптче яндекса встречаются ответы типа sorry или qwe. Тогда в таблице сбора символов, наряду с русскими, будут s,q,r,y и т.д.
Это и есть мусор. А пересекающиеся - это символы с шумами и их тоже надо собирать наряду с обычными.
изначально этот фильтр был включен и было так:
http://prntscr.com/8i2vii т.е. символы были обрезаны. Тогда как же получилось 65% )?
Хороший вопрос, как там получилось 65%..
А вообще, надо было у кропа галку убрать, а у ресайза, наоборот, поставить. Я имею ввиду фильтры символов. Т.к. кроп символам не нужен - это фильтр для каптчи, а ресайз, естественно нужен, иначе обучение будет проходить совсем не на те символы по размеру.
поможет ли мне "искажение символов"
http://prntscr.com/8i2x4y лучше обучить модуль. Я так понимаю, это как раз и применяется с такого рода каптчами, как у меня в данном случае ?
Это помогает, когда символов собрано мало и собирать еще лень.
В таких случаях график % распознавания при обучении сначала покажет всплеск, а потом начнет падать, это значит символов собрано мало.
то это из wiki для этого случая ?
Интенсивность обучения на ложных данных - рекомендуется увеличить, если при распознавании или обучении ошибка распознавания символа (3) -
ложное срабатывание встречается намного чаще других ошибок. Начинать обучение рекомендуется с параметра по-умолчанию: 10.
это сейчас параметр 10. А какой максимальный вообще ?
Графики отличные, все правильно обучается.
В вики написано про красную линию во втором графике. А тут все нормально.
Параметр 10-30, более 50-70, вообще, нет смысла ставить.
зы: на той каптче, я пока само больше выжал 79%, но это при слабом обучении. 100 проходов, и скорость ~80%, мощность всего 30%. времени занимает 15мин всего, для обучения модуля. Это я таким образом параметры подбирал пока. Беда в том, что когда я увеличиваю мощность на макс. и скорость на минимум, то улучшений нет) Тогда вопрос: а в каких случаях вообще нужно выкручивать мощность и скорость на макс?
Ну просто это ее предел и больше не получить даже при увеличении мощности ядра.
upd^ при таких же оптимальных параметрах, что я получал 79%, теперь мощность указал 7, и скорость 50% - уже получилось
86%. После 30 проходов:
http://prntscr.com/8iflqa
Всегда присутствует некоторый рандом.
Лучше ставить проверку % раз в 4 цикла хотябы. Иначе многие ошибки не будут понятны.
Я так понимаю, что нет смысла увеличивать мощность и скорость обучения, потому что лучше не будет все равно?
Все правильно.
Обучение завершено
http://prntscr.com/8igpuv . Графики эти значат, что мне нужно было прерывать обучение еще на 60 проходе ? а не ждать до конца. Т.к. Empty, Bad везде уже почти всегда 0. Это значит, что как-бы лучше уже не будет в этом обучении, это финиш ?
Процент распознавания мог еще прыгнуть вверх, заранее никогда не узнаешь.
upd: модуль, в основном, не разгадывает только каптчи, где идет наложение букв друг на друга больше 50%. Это можно улучшить, в какую сторону смотреть, что за это отвечает?
Нет, там уже параметр расстояния между символами настраивается так, что такие каптчи выпадают из-за проглатывания слишком близких друг к другу символов.
Это и так очень хороший результат, вполне достаточно.
есть ли смысл обучать дополнительно модуль еще на тех каптчах, что верно разгадал сам модуль. В начале у нас было 600 каптчей, на них сделал модуль 86%. После, на модуле разгадали верно 2000 каптч. Есть смысл обучать модуль еще на этих 2000?
Нет. Были случаи когда я так делал, но это все специфичесая работа, вам в это нет смысла вдаваться.
из-за чего CM может отдавать ответ SORRY вместо каптчи ? в шаблоне я мониторю такой ответ, и если он 100 раз был подряд, то я об этом знаю. Так вот , в процессе мне об этом пишется, но вот смотрю в окошко CM там, вроде не встречал таких ответов SORRY.
Каптча не успела разгадаться за отведенный таймаут, если я не ошибаюсь.