Разработчики мобильной операционной системы Android поделились некоторыми деталями относительно распознавания голоса.
Как выяснилось, в основе технологии лежат искусственные нейронные сети, которые не просто определяют содержание сказанных фраз, но и учатся с каждым новым распознаванием.
Трудно поверить, но технологии, которые считались передним краем науки в 80-х годах прошлого века, сегодня стали обыденной реальностью. За счет внедрения нейронных сетей в Android 4.1 разработчикам удалось повысить точность распознавания речи на целых 25% по сравнению с предыдущими версиями. Эта цифра имеет и прямое практическое значение – Android-аппараты сегодня на самом деле предлагают самое точное распознавание голосового ввода, причем качество все время растет.
За революцию в распознавании голоса можно благодарить двоих крупных исследователей, которые проделали огромную работу (вместе с коллегами) по созданию уникальной нейросети на базе вычислительных ресурсов компании Google: Винсента Ванхоука (Vincent Vanhoucke) и Джеффа Дина (Jeff Dean). Кроме того, теоретическую основу для нынешних технологий заложил Джеффри Хинтон (Geoffrey Hinton), профессор университета Торонто, когда он со своей командой в 2006 г. открыл способ построения многоуровневых нейросетей, гораздо более сложных, чем все предшественники.
Джефф Дин, уже известный нашим читателям по созданию системы для распознавания кошек на фотографиях, помог создать технологию для распределенной обработки голосового ввода: каждое сказанное слово пользователя превращается в спектрограмму и отправляется на обработку сразу на восемь разных серверов по всему миру. Для каждого запроса выполняется распознавание исходного языка, выделение гласных и согласных, а затем – распознавание собственно слов (вместе с обучением!).
Заслуга Винсента Ванхоука и его коллег состоит в создании алгоритмической основы для нейронной сети – эта сеть позволяет оценивать совершенно незнакомые системе образцы, используя только знания, полученные ранее из других образцов. Прорыв в нейронных сетях начался в 2006 г. после открытий Хинтона и появления недорогих графических ускорителей с возможностью исполнения задач общего назначения, а теперь сочетание доступных вычислительных ресурсов и новых ресурсоемких алгоритмов приводит к быстрому и заметному прогрессу в машинном распознавании речи.