С# ZennoPoster + Tesseract.Net SDK

Полезная ли для вас информация ?


  • Всего проголосовало
    125

Zzom

Client
Регистрация
23.05.2016
Сообщения
238
Благодарностей
66
Баллы
28
Вообще отличная штука, много в каких шаблонах гадает на автомате, причем, если символы ровно, то результат отличный. Шумы можно сниппетами убирать разными, осветление итд.
 
  • Спасибо
Реакции: swiniks и rediffusion

vasyaya

Client
Регистрация
09.02.2015
Сообщения
555
Благодарностей
35
Баллы
28
Ребят, скажите пожалуйста что за дела? Указываю все пути, но мне пишет ошибку
15:25:17 Компиляция кода проекта Ошибка в действии "CS0006" "Не удалось найти файл метаданных "C:\Program Files (x86)\ZennoLab\ZennoPoster Lite\Progs\ExternalAssemblies\Patagames.Ocr.dll"".

upload_2018-3-10_15-21-53.png
upload_2018-3-10_15-23-13.png
upload_2018-3-10_15-24-13.png
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113

vasyaya

Client
Регистрация
09.02.2015
Сообщения
555
Благодарностей
35
Баллы
28
К сожалению, иногда такое бывает. Просто перезагрузи проект.
Я компьютер перезагрузил 2 раза :( Папка "ExternalAssemblies" создавалась в ручную, но потом пробежался по папкам была еще 1 такая же папка в смысле с таким же именем. Странно не попросил заменить при создании одинаковой папки..я удалил одну папку. оставил ту что создал ручками. Теперь думаю что это из за этого..
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113
  • Спасибо
Реакции: vasyaya

vasyaya

Client
Регистрация
09.02.2015
Сообщения
555
Благодарностей
35
Баллы
28
Ты переименовал неправильно, на скрине у тебя в слове "ExternalAssemblies" две буквы "l"
Исправил, спасибо! Не хочет гадать такую каптчу. Не подскажешь, что-то нужно еще делать чтобы она такие гадала?
 

Вложения

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113
  • Спасибо
Реакции: vasyaya

vasyaya

Client
Регистрация
09.02.2015
Сообщения
555
Благодарностей
35
Баллы
28

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 122
Баллы
113
  • Спасибо
Реакции: evgen_po и samsonnn

Hartwell

Client
Регистрация
25.09.2014
Сообщения
194
Благодарностей
118
Баллы
43

Вложения

vasyaya

Client
Регистрация
09.02.2015
Сообщения
555
Благодарностей
35
Баллы
28
Подскажи пожалуйста как код переделать чтобы он сработал?
Код:
using (var api = OcrApi.Create())
{
api.Init(Languages.English);
api.SetVariable("tessedit_char_whitelist", "0123456789");
string plainText = api.GetTextFromImage(@"C:\cap.png");
return plainText;
}
return "bad";
 

Hartwell

Client
Регистрация
25.09.2014
Сообщения
194
Благодарностей
118
Баллы
43
Подскажи пожалуйста как код переделать чтобы он сработал?
Код:
using (var api = OcrApi.Create())
{
api.Init(Languages.English);
api.SetVariable("tessedit_char_whitelist", "0123456789");
string plainText = api.GetTextFromImage(@"C:\cap.png");
return plainText;
}
return "bad";

Тебе по сути все что нужно привести в 2 цвета (ч/б) и https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#noise-removal

Ограничение символов и желательно кол-во цифр тоже указывать если оно статично
https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits
 

vasyaya

Client
Регистрация
09.02.2015
Сообщения
555
Благодарностей
35
Баллы
28
Тебе по сути все что нужно привести в 2 цвета (ч/б) и https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#noise-removal

Ограничение символов и желательно кол-во цифр тоже указывать если оно статично
https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits
Английский язык убираем, и оставляем только цифры?
Код:
using (var api = OcrApi.Create())
{
api.SetVariable("tessedit_char_whitelist", "0123456789"); // если гадать только цифры - раскомментировать строку
var path = project.Variables["picture"].Value;//название переменной в которой путь к файлу
string plainText = api.GetTextFromImage(path);
return plainText; // возвращаем ответ переменой екшена
}
return "bad";
 

Hartwell

Client
Регистрация
25.09.2014
Сообщения
194
Благодарностей
118
Баллы
43
Английский язык убираем, и оставляем только цифры?
Код:
using (var api = OcrApi.Create())
{
api.SetVariable("tessedit_char_whitelist", "0123456789"); // если гадать только цифры - раскомментировать строку
var path = project.Variables["picture"].Value;//название переменной в которой путь к файлу
string plainText = api.GetTextFromImage(path);
return plainText; // возвращаем ответ переменой екшена
}
return "bad";





приложил к первому посту этого диалога trainingdata

https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03–3.05#data-files-required

и уже второй раз повторяю, remove noise

https://tesseract.patagames.com/help/html/b4effc4b-310d-4f1f-99a0-65bc001cd765.htm

enable_noise_removal 1 Remove and conditionally reassign small outlines when they confuse layout analysis, determining diacritics vs noise

мб еще с другими параметрами шума поиграться прийдется.

Я не юзал .net либу тессеракта, я не подскажу тебе как прикурить ее в конкретно твоем коде. Пробуй, изучай, конфиги скинул наглядно
 

vasyaya

Client
Регистрация
09.02.2015
Сообщения
555
Благодарностей
35
Баллы
28
приложил к первому посту этого диалога trainingdata

https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03–3.05#data-files-required

и уже второй раз повторяю, remove noise

https://tesseract.patagames.com/help/html/b4effc4b-310d-4f1f-99a0-65bc001cd765.htm

enable_noise_removal 1 Remove and conditionally reassign small outlines when they confuse layout analysis, determining diacritics vs noise

мб еще с другими параметрами шума поиграться прийдется.

Я не юзал .net либу тессеракта, я не подскажу тебе как прикурить ее в конкретно твоем коде. Пробуй, изучай, конфиги скинул наглядно
Я ничего не понимаю в этом. Все же, спасибо
 

sergey2312

Новичок
Регистрация
04.09.2018
Сообщения
3
Благодарностей
0
Баллы
1
Подскажите, а как сохранить картинку для распознавания из фрейма?
 

avtostopshik

Client
Регистрация
09.09.2016
Сообщения
790
Благодарностей
136
Баллы
43
Блин, по прежнему не понятно, как обучать тессеракт(( Может кто-то продвинулся уже в этом вопросе? Обучить циферкам нужно, то есть вроде как не сложное должно быть обучение, но не понятно, чего делать...
 

ezotonal

Client
Регистрация
13.01.2014
Сообщения
819
Благодарностей
231
Баллы
43
Блин, по прежнему не понятно, как обучать тессеракт(( Может кто-то продвинулся уже в этом вопросе? Обучить циферкам нужно, то есть вроде как не сложное должно быть обучение, но не понятно, чего делать...
А он разве обучается? Он только распознает. Это ж не нейросеть
 

avtostopshik

Client
Регистрация
09.09.2016
Сообщения
790
Благодарностей
136
Баллы
43
А он разве обучается? Он только распознает. Это ж не нейросеть
Ну он не сам обучается - это дело ручное)) но всё же улучшить его алгоритмы можно. Да ты можешь даже загуглить это - увидишь, что всякие статьи есть на эту тему.
Вот только применить всё это сложно - все те статьи с пропущенным жирным куском информации, без которого новичкам очень сложно разобраться.
 

ezotonal

Client
Регистрация
13.01.2014
Сообщения
819
Благодарностей
231
Баллы
43
Ну он не сам обучается - это дело ручное)) но всё же улучшить его алгоритмы можно. Да ты можешь даже загуглить это - увидишь, что всякие статьи есть на эту тему.
Вот только применить всё это сложно - все те статьи с пропущенным жирным куском информации, без которого новичкам очень сложно разобраться.
Человек на то и человек что бы самому разбираться. А не ждать когда все расскажу и покажут. Как в мультике Валл-и, будем летать в летучих креслах и только рот открывать что бы туда закладывали пищу). Тут нужно же шумы всяки убирать с картинки. Каждую буку обрезать подравнивать. А данный teaseract распознает только прямые шрифты. Больше гамороя будет. Используй сервисы распознования, кап монстры, ксевилы ... всего полно
 

erbuz

Client
Регистрация
16.04.2018
Сообщения
28
Благодарностей
9
Баллы
3
Блин, по прежнему не понятно, как обучать тессеракт(( Может кто-то продвинулся уже в этом вопросе? Обучить циферкам нужно, то есть вроде как не сложное должно быть обучение, но не понятно, чего делать...
он совсем для простеньких капч. я давно обучал. получилось гдет 15% распознавания. но там сложности были со слипшимися цифрами. это всё надо обрабатывать было. нарезать , прогонять через фильтры.
вообщем надо создать свой шрифт который используется в капче, прописать каждый символ какую букву обозначает и скормить эту все тессеракту.
 
  • Спасибо
Реакции: avtostopshik

ezotonal

Client
Регистрация
13.01.2014
Сообщения
819
Благодарностей
231
Баллы
43
он совсем для простеньких капч. я давно обучал. получилось гдет 15% распознавания. но там сложности были со слипшимися цифрами. это всё надо обрабатывать было. нарезать , прогонять через фильтры.
вообщем надо создать свой шрифт который используется в капче, прописать каждый символ какую букву обозначает и скормить эту все тессеракту.
На фотостране он хорошо капчу гадал, помниться мне года так 2 назад
 
  • Спасибо
Реакции: erbuz

avtostopshik

Client
Регистрация
09.09.2016
Сообщения
790
Благодарностей
136
Баллы
43
Человек на то и человек что бы самому разбираться. А не ждать когда все расскажу и покажут. Как в мультике Валл-и, будем летать в летучих креслах и только рот открывать что бы туда закладывали пищу). Тут нужно же шумы всяки убирать с картинки. Каждую буку обрезать подравнивать. А данный teaseract распознает только прямые шрифты. Больше гамороя будет. Используй сервисы распознования, кап монстры, ксевилы ... всего полно
Никто и не ждёт, милейший. Что можно, делаю сам. Где не получается - пишу. Это раз. Второе - использование даже самого быстрого решения - икс зла - мне не подходит, так как ему на разгадывание нужно секунд пять, а тесеракт в течении секунды всё делает. А у шаблона всего 15 секунд на разгадывание двух картинок и принятия решения.
 

ezotonal

Client
Регистрация
13.01.2014
Сообщения
819
Благодарностей
231
Баллы
43
Никто и не ждёт, милейший. Что можно, делаю сам. Где не получается - пишу. Это раз. Второе - использование даже самого быстрого решения - икс зла - мне не подходит, так как ему на разгадывание нужно секунд пять, а тесеракт в течении секунды всё делает. А у шаблона всего 15 секунд на разгадывание двух картинок и принятия решения.
Смотря какая капча, драгоценнейший.
 

avtostopshik

Client
Регистрация
09.09.2016
Сообщения
790
Благодарностей
136
Баллы
43

ezotonal

Client
Регистрация
13.01.2014
Сообщения
819
Благодарностей
231
Баллы
43

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
на первой странице мой вариант как на Фотостране гадал, только сейчас на ФС другая каптча, да и тессеракт не для сложных каптч
 

avtostopshik

Client
Регистрация
09.09.2016
Сообщения
790
Благодарностей
136
Баллы
43

Vladimir71

Client
Регистрация
21.10.2015
Сообщения
95
Благодарностей
38
Баллы
18
Ребята подскажите у меня вылазят вот такие ошибки при сохранении капчи , но капча все равно сохраняется , в чем может быть проблема подскажите пожалуйста.
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)