Распознавая речь. Современные системы распознавания речи достаточно хороши в не-диалоговых приложениях, таких как диктовка или запросы к различным справочникам. Подобные приложения возможно не столь впечатляющи, но из-за акцента, различных интонаций и пауз, даже такие простые приложения требуют давольно сложного аппарата для аккуратного перевода звуковых колебаний в слова. Одним из таких наиболее часто используемых методов является неявная марковская модель (hidden Markov model), использующая условные вероятности, обучаемая на тестовых звуках для нахождения лучшего варианта для заданного ввода.
Диктовка компьютеру, являющейся в данный момент роскошью, возможно в скором времени станет обычным и необходимым интерфейсом, по мере уменьшения устройств ввода. Исследователи продолжают искать мовые математические модели и алгоритмы (которые возможно будут использовать математическую статистику и машинное обучение), способные отфильтровывать шум, распознавать различный слэнг и подстраиваться под кажого говорящего. Это давольно-таки трудные задачи, но будучи решёнными, позволят речевому интерфейсу быстро вытеснить клавиатуру, мышь и всевозможные пульты управления.
так и представляю себе "вики, найди мне информацию в гугле по ключевым словам 'сочинские блоги'... ага, открой первую ссылку" и т.д. не думаю, что речевые интерфейсы будут вытеснять механические, для меня палец на скролле - продолжение меня и моего желания мотать страницу с какой я хочу скоростью. а как перематывать голосом? я содрогаюсь при мысли об этом.
с другой стороны, имхо, как раз пульты управления и будут заменены. вперед, влево, стоп, открыть, активировать - это все довольно простые, дискретные команды (при наличии в том же колесе для мыши некоторой аналоговости), которые просто реализовать в речевом управлении. уже сейчас нокия моторола собираются выпускать телефоны с распознаванием глосовых команд, независящих от говорящего (не требуется предварительное обучение), что подтверждает мысль о применении речевого интерфейса.
с другой стороны, подумайте о том, что в будущем могут появиться другие интерфейсы, основанные на голосовых командах. например, может быть команды будут отдаваться не голосом, а каким-нибудь мычанием определенной высоты (вроде бы уже сейчас ведутся исследования у Майкрософт на эту тему). компьютер может сообщать информацию такой скороговоркой, чтобы было быстро, что для этого нужно будет специально обучаться, как например сейчас учать набирать на клавиатуре слепым методом. много чего может быть 🙂
сумбурно немного, но мысль одна - речевые интерфейсы БЫСТРО не вытеснят клавиатуру и мышь 🙂 я дал бы на это около 20 лет (при условии 90% замены голосовым вводом клавиатур) 🙂
Ну речевой интерфейс это далеко не одинственная грядущая фенечка, например "чтение мыслей", типа будет по зрачкам глаз отслуживать куда взляд направлен и гнать туда "курсор" 🙂