Голосовые помощники – новая точка роста технологических компаний

Голосовые помощники с элементами искусственного интеллекта (ИИ), распознающие речь, значительно усовершенствовались с момента своего первого появления. Теперь они гораздо лучше понимают пользователей и совершают меньше ошибок. Прогресс в технологии ускоряет ее коммерциализацию.

Крупнейшие технологические компании запустили коммерческие версии голосовых помощников. На рынке представлены: Alexa от лидера интернет-торговли Amazon.com Inc. (AMZN, NASDAQ), Google Assistant от корпорации Alphabet Inc. (GOOGL, NASDAQ), Siri от одной из крупнейших IT-компаний Apple Inc. (AAPL, NASDAQ), Cortana от лидера в области программного обеспечения Microsoft Corporation (MSFT, NASDAQ). Такие помощники могут осуществлять поиск в интернете по голосовому запросу, напоминать о событиях, отвечать на вопросы, включать музыку и т. д. Алгоритмы распознавания голоса также начинают использоваться в мультимедийных системах автомобилей, видеоиграх, сервисах поддержки пользователей и т. д.

В ходе опроса руководителей компаний, 32% респондентов сказали, что программы распознавания голоса, такие как Siri от Apple, Google Assistant от Alphabet Inc., Alexa компании Amazon.com являются наиболее часто используемыми на рабочем месте сервисами. Предполагается, что к 2020 г. такие технологии будут обслуживать 85% запросов клиентов компаний.

Существующие сейчас программы – Alexa, Siri, Cortana, Google Assistant – уже могут выполнять многие задачи и начинают приносить доход.

Однако распознавание голоса у современных программ все еще несовершенно, в частности, голосовой помощник не понимает вопроса, если пользователь говорит слишком быстро или с акцентом. Именно высокий процент ошибок в распознавании пока является одним из самых серьезных ограничений для развития. Нейронные сети, на основе которых работают помощники, могут лучше распознавать речь при наличии огромной базы данных. Поэтому успех в этой сфере напрямую связан с созданием массива голосов на разных языках, диалектах и с разными акцентами.

Крупнейшие компании, такие как Amazon.com, Apple, Microsoft, Google и китайская компания Baidu давно приступили к сбору образцов человеческой речи. Microsoft привлекла добровольцев для записи образцов повседневной речи по всему миру. Например, благодаря приложению для игровой приставки Xbox компания собрала большой массив данных на португальском языке в Бразилии для локальной версии голосового помощника Cortana. Baidu собирает образцы для каждого диалекта в Китае. Google также собирает десятки тысяч звуковых фрагментов длиной от двух до пяти секунд. В настоящее время разработчики стремятся к тому, чтобы сократить количество ошибок в распознавании речи до 1% и менее. После этого начнется быстрая экспансия технологии на мировой рынок.

В решении проблем распознавания речи в шумовом потоке также намечены определенные положительные сдвиги. Например, Microsoft тестирует технологию, которая может отвечать на запросы путешественников, игнорируя шум громкоговорителей и транспорта на вокзалах и в аэропортах. Подобная технология также используется в автоматизированной системе заказа для сети быстрого питания McDonald's.

Amazon проводит испытания голосового помощника в автомобилях, совершенствуя возможности Alexa по работе в условиях дорожного шума и при открытых окнах.

Системы распознавания речи открывают новые возможности для бизнеса. Так, цифровой помощник Cortana в будущем году станет доступным для производителей устройств. Компания Harman International Industries Inc. уже использует Cortana в управляемых голосом устройствах. Банк Capital One Financial Corp. использует цифровой помощник Microsoft, чтобы помогать клиентам управлять деньгами, а Expedia Inc. разработала на базе Cortana бота для заказа отелей.