Так тогда можно и с браузерами не париться, если не веб-приложение нужно )
Нужно чтобы приложуха могла голосом вводить данные в свои поля. в идеале без интернета, но уже согласны и на интернет.
Вот есть такая штука но она работает не удобно. Надо все время кнопку нажимать на странице сайта. То есть нужен аналог и чтобы включалось из приложения дектопного.
А если свою написать?
Реализовать MFCC как описано здесь:
Скользящее окно, БПФ , треугольные фильтры и функция пересчёта частот.
Полученные коэффициенты подаём на нейронную сеть ANN. Размер скользящего окна подбираем так что-бы у нас была N-грамма из 3-х фонем(букв). Идём с перекрытием в 33%.
Из 3-х результатов на каждую букву берём медиану.
Потом удаляем повторяющиеся гласные, проверяем по словарю на частоту встречи слов.
Для обучения ANN используем датасет.
БПФ:
https://web.archive.org/web/20140808002054/http://psi-logic.shadanakar.org/fft/fftf.htm
http://rosettacode.org/wiki/Fast_Fourier_transform
ANN можно взять здесь:
https://cs.stanford.edu/~karpathy/svmjs/demo/demonn.html
https://cs.stanford.edu/~karpathy/svmjs/lib/nn.js
Метод обучения AdataDelta.
https://cs.stanford.edu/people/karpathy/convnetjs/demo/trainers.html
Частотный словарь словоформ
http://www.ruscorpora.ru/new/corpora-freq.html
Словарь лучше сделать самому, так как тут словоформы нормализованы(приведены к одному падежу). Другими словами потеряна информация о окончании.
Я в вузе делал с помощью HTK http://htk.eng.cam.ac.uk/
Получилось плохое качество, даже при том что надо было распознавать только себя после тренировки системы на нескольких главах Белого Клыка
Это не студенческий проект. Тут времени не хватит если ковырять все самому.
Сфинкса получилось подключить к шарпу через DllImport. Распознает в целом неплохо. Читал что можно как то самому натренировать базу что очень вдохновляет.
Так что всем кому нужно офлайн распознавание можно использовать. )