С# ZennoPoster + Tesseract.Net SDK

  • Автор темы Автор темы swiniks
  • Дата начала Дата начала

Полезная ли для вас информация ?


  • Всего проголосовало
    130
Вообще отличная штука, много в каких шаблонах гадает на автомате, причем, если символы ровно, то результат отличный. Шумы можно сниппетами убирать разными, осветление итд.
 
  • Спасибо
Реакции: swiniks и rediffusion
Ребят, скажите пожалуйста что за дела? Указываю все пути, но мне пишет ошибку
15:25:17 Компиляция кода проекта Ошибка в действии "CS0006" "Не удалось найти файл метаданных "C:\Program Files (x86)\ZennoLab\ZennoPoster Lite\Progs\ExternalAssemblies\Patagames.Ocr.dll"".

upload_2018-3-10_15-21-53.png
upload_2018-3-10_15-23-13.png
upload_2018-3-10_15-24-13.png
 
К сожалению, иногда такое бывает. Просто перезагрузи проект.
Я компьютер перезагрузил 2 раза :( Папка "ExternalAssemblies" создавалась в ручную, но потом пробежался по папкам была еще 1 такая же папка в смысле с таким же именем. Странно не попросил заменить при создании одинаковой папки..я удалил одну папку. оставил ту что создал ручками. Теперь думаю что это из за этого..
 
  • Спасибо
Реакции: vasyaya
Ты переименовал неправильно, на скрине у тебя в слове "ExternalAssemblies" две буквы "l"
Исправил, спасибо! Не хочет гадать такую каптчу. Не подскажешь, что-то нужно еще делать чтобы она такие гадала?
 

Вложения

  • quote.jpg
    quote.jpg
    2,3 KB · Просмотры: 15
  • Спасибо
Реакции: vasyaya
  • Спасибо
Реакции: evgen_po и samsonnn
Tesseract такие каптчи не возьмёт.
o_O:an:
F2Jxrhs.png
 

Вложения


Подскажи пожалуйста как код переделать чтобы он сработал?
Код:
Развернуть Свернуть Копировать
using (var api = OcrApi.Create())
{
api.Init(Languages.English);
api.SetVariable("tessedit_char_whitelist", "0123456789");
string plainText = api.GetTextFromImage(@"C:\cap.png");
return plainText;
}
return "bad";
 
Подскажи пожалуйста как код переделать чтобы он сработал?
Код:
Развернуть Свернуть Копировать
using (var api = OcrApi.Create())
{
api.Init(Languages.English);
api.SetVariable("tessedit_char_whitelist", "0123456789");
string plainText = api.GetTextFromImage(@"C:\cap.png");
return plainText;
}
return "bad";


Тебе по сути все что нужно привести в 2 цвета (ч/б) и https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#noise-removal

Ограничение символов и желательно кол-во цифр тоже указывать если оно статично
https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits
 
Тебе по сути все что нужно привести в 2 цвета (ч/б) и https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#noise-removal

Ограничение символов и желательно кол-во цифр тоже указывать если оно статично
https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits
Английский язык убираем, и оставляем только цифры?
Код:
Развернуть Свернуть Копировать
using (var api = OcrApi.Create())
{
api.SetVariable("tessedit_char_whitelist", "0123456789"); // если гадать только цифры - раскомментировать строку
var path = project.Variables["picture"].Value;//название переменной в которой путь к файлу
string plainText = api.GetTextFromImage(path);
return plainText; // возвращаем ответ переменой екшена
}
return "bad";
 
Английский язык убираем, и оставляем только цифры?
Код:
Развернуть Свернуть Копировать
using (var api = OcrApi.Create())
{
api.SetVariable("tessedit_char_whitelist", "0123456789"); // если гадать только цифры - раскомментировать строку
var path = project.Variables["picture"].Value;//название переменной в которой путь к файлу
string plainText = api.GetTextFromImage(path);
return plainText; // возвращаем ответ переменой екшена
}
return "bad";






приложил к первому посту этого диалога trainingdata

https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03–3.05#data-files-required

и уже второй раз повторяю, remove noise

https://tesseract.patagames.com/help/html/b4effc4b-310d-4f1f-99a0-65bc001cd765.htm

enable_noise_removal 1 Remove and conditionally reassign small outlines when they confuse layout analysis, determining diacritics vs noise

мб еще с другими параметрами шума поиграться прийдется.

Я не юзал .net либу тессеракта, я не подскажу тебе как прикурить ее в конкретно твоем коде. Пробуй, изучай, конфиги скинул наглядно
 
приложил к первому посту этого диалога trainingdata

https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03–3.05#data-files-required

и уже второй раз повторяю, remove noise

https://tesseract.patagames.com/help/html/b4effc4b-310d-4f1f-99a0-65bc001cd765.htm

enable_noise_removal 1 Remove and conditionally reassign small outlines when they confuse layout analysis, determining diacritics vs noise

мб еще с другими параметрами шума поиграться прийдется.

Я не юзал .net либу тессеракта, я не подскажу тебе как прикурить ее в конкретно твоем коде. Пробуй, изучай, конфиги скинул наглядно
Я ничего не понимаю в этом. Все же, спасибо
 
Подскажите, а как сохранить картинку для распознавания из фрейма?
 
Блин, по прежнему не понятно, как обучать тессеракт(( Может кто-то продвинулся уже в этом вопросе? Обучить циферкам нужно, то есть вроде как не сложное должно быть обучение, но не понятно, чего делать...
 
Блин, по прежнему не понятно, как обучать тессеракт(( Может кто-то продвинулся уже в этом вопросе? Обучить циферкам нужно, то есть вроде как не сложное должно быть обучение, но не понятно, чего делать...
А он разве обучается? Он только распознает. Это ж не нейросеть
 
А он разве обучается? Он только распознает. Это ж не нейросеть
Ну он не сам обучается - это дело ручное)) но всё же улучшить его алгоритмы можно. Да ты можешь даже загуглить это - увидишь, что всякие статьи есть на эту тему.
Вот только применить всё это сложно - все те статьи с пропущенным жирным куском информации, без которого новичкам очень сложно разобраться.
 
Ну он не сам обучается - это дело ручное)) но всё же улучшить его алгоритмы можно. Да ты можешь даже загуглить это - увидишь, что всякие статьи есть на эту тему.
Вот только применить всё это сложно - все те статьи с пропущенным жирным куском информации, без которого новичкам очень сложно разобраться.
Человек на то и человек что бы самому разбираться. А не ждать когда все расскажу и покажут. Как в мультике Валл-и, будем летать в летучих креслах и только рот открывать что бы туда закладывали пищу). Тут нужно же шумы всяки убирать с картинки. Каждую буку обрезать подравнивать. А данный teaseract распознает только прямые шрифты. Больше гамороя будет. Используй сервисы распознования, кап монстры, ксевилы ... всего полно
 
Блин, по прежнему не понятно, как обучать тессеракт(( Может кто-то продвинулся уже в этом вопросе? Обучить циферкам нужно, то есть вроде как не сложное должно быть обучение, но не понятно, чего делать...
он совсем для простеньких капч. я давно обучал. получилось гдет 15% распознавания. но там сложности были со слипшимися цифрами. это всё надо обрабатывать было. нарезать , прогонять через фильтры.
вообщем надо создать свой шрифт который используется в капче, прописать каждый символ какую букву обозначает и скормить эту все тессеракту.
 
  • Спасибо
Реакции: avtostopshik
он совсем для простеньких капч. я давно обучал. получилось гдет 15% распознавания. но там сложности были со слипшимися цифрами. это всё надо обрабатывать было. нарезать , прогонять через фильтры.
вообщем надо создать свой шрифт который используется в капче, прописать каждый символ какую букву обозначает и скормить эту все тессеракту.
На фотостране он хорошо капчу гадал, помниться мне года так 2 назад
 
  • Спасибо
Реакции: erbuz
Человек на то и человек что бы самому разбираться. А не ждать когда все расскажу и покажут. Как в мультике Валл-и, будем летать в летучих креслах и только рот открывать что бы туда закладывали пищу). Тут нужно же шумы всяки убирать с картинки. Каждую буку обрезать подравнивать. А данный teaseract распознает только прямые шрифты. Больше гамороя будет. Используй сервисы распознования, кап монстры, ксевилы ... всего полно
Никто и не ждёт, милейший. Что можно, делаю сам. Где не получается - пишу. Это раз. Второе - использование даже самого быстрого решения - икс зла - мне не подходит, так как ему на разгадывание нужно секунд пять, а тесеракт в течении секунды всё делает. А у шаблона всего 15 секунд на разгадывание двух картинок и принятия решения.
 
Никто и не ждёт, милейший. Что можно, делаю сам. Где не получается - пишу. Это раз. Второе - использование даже самого быстрого решения - икс зла - мне не подходит, так как ему на разгадывание нужно секунд пять, а тесеракт в течении секунды всё делает. А у шаблона всего 15 секунд на разгадывание двух картинок и принятия решения.

Смотря какая капча, драгоценнейший.
 
на первой странице мой вариант как на Фотостране гадал, только сейчас на ФС другая каптча, да и тессеракт не для сложных каптч
 
Ребята подскажите у меня вылазят вот такие ошибки при сохранении капчи , но капча все равно сохраняется , в чем может быть проблема подскажите пожалуйста.
1416603a0403.png
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)