Скриним капчу, скриним задание, кидаём всё это дело на рукапчу, получаем координаты, дальше эмулируем действия мышью это платный вариант.
Или прикручиваем либу по распознаванию текста , распознаём текст в задании, распознаём текст на капче - там видимо в итоге получим какой-то список цифр, он наверно тоже меняется от случая к случаю и имея эти данные я думаю можно понять куда нажимать и как двигать мышью, это будет бесплатный вариант.
Как-то так.