Голосовое распознавание

Так тогда можно и с браузерами не париться, если не веб-приложение нужно )

Нужно чтобы приложуха могла голосом вводить данные в свои поля. в идеале без интернета, но уже согласны и на интернет.
Вот есть такая штука но она работает не удобно. Надо все время кнопку нажимать на странице сайта. То есть нужен аналог и чтобы включалось из приложения дектопного.

А если свою написать?
Реализовать MFCC как описано здесь:


Скользящее окно, БПФ , треугольные фильтры и функция пересчёта частот.

Полученные коэффициенты подаём на нейронную сеть ANN. Размер скользящего окна подбираем так что-бы у нас была N-грамма из 3-х фонем(букв). Идём с перекрытием в 33%.
Из 3-х результатов на каждую букву берём медиану.

Потом удаляем повторяющиеся гласные, проверяем по словарю на частоту встречи слов.

Для обучения ANN используем датасет.

БПФ:
https://web.archive.org/web/20140808002054/http://psi-logic.shadanakar.org/fft/fftf.htm
http://rosettacode.org/wiki/Fast_Fourier_transform
ANN можно взять здесь:
https://cs.stanford.edu/~karpathy/svmjs/demo/demonn.html
https://cs.stanford.edu/~karpathy/svmjs/lib/nn.js
Метод обучения AdataDelta.
https://cs.stanford.edu/people/karpathy/convnetjs/demo/trainers.html
Частотный словарь словоформ
http://www.ruscorpora.ru/new/corpora-freq.html
Словарь лучше сделать самому, так как тут словоформы нормализованы(приведены к одному падежу). Другими словами потеряна информация о окончании.

Я в вузе делал с помощью HTK http://htk.eng.cam.ac.uk/
Получилось плохое качество, даже при том что надо было распознавать только себя после тренировки системы на нескольких главах Белого Клыка :donald:

Это не студенческий проект. Тут времени не хватит если ковырять все самому.
Сфинкса получилось подключить к шарпу через DllImport. Распознает в целом неплохо. Читал что можно как то самому натренировать базу что очень вдохновляет.
Так что всем кому нужно офлайн распознавание можно использовать. )