Поделиться
VK Telegram OK

Генеральный директор ElevenLabs: Голос - это следующий интерфейс для искусственного интеллекта

Искусственный интеллект
AGILog · 2026-02-05 14:41

Соучредитель и генеральный директор ElevenLabs Мати Станишевски (Mati Staniszewski) говорит, что голос становится следующим важным интерфейсом для искусственного интеллекта - способом взаимодействия людей с машинами, поскольку модели выходят за рамки текста и экранов.

Выступая на веб—саммите в Дохе , Станишевски рассказал AGI_LOG, что голосовые модели, подобные разработанным ElevenLabs, недавно вышли за рамки простой имитации человеческой речи, включая эмоции и интонацию, и начали работать в тандеме с возможностями мышления больших языковых моделей. Результатом, по его мнению, станет изменение в том, как люди взаимодействуют с технологиями.

В ближайшие годы, по его словам, “мы надеемся, что все наши телефоны вернутся в наши карманы, и мы сможем погрузиться в окружающий нас реальный мир, используя голос в качестве механизма, управляющего технологиями”.

Это видение способствовало привлечению ElevenLabs на этой неделе 500 миллионов долларов на сумму 11 миллиардов долларов, и оно все чаще используется в индустрии искусственного интеллекта. OpenAI и Google сделали голосовую связь центральным элементом своих моделей следующего поколения, в то время как Apple, похоже, потихоньку развивает технологии, связанные с голосовой связью и всегда работающие с помощью таких приобретений, как Q.ai. По мере того, как ИИ распространяется на носимые устройства, автомобили и другое новое оборудование, управление все больше сводится не к касанию экрана, а к разговорной речи, что делает голос ключевым полем битвы на следующем этапе развития ИИ.

Генеральный партнер Iconiq Capital Сет Пьерпонт поддержал это мнение, выступая на Web Summit, заявив, что, хотя экраны по-прежнему будут играть важную роль в играх и развлечениях, традиционные методы ввода, такие как клавиатура, начинают казаться “устаревшими”.

По словам Пьерпонта, по мере того, как системы искусственного интеллекта становятся все более агентивными, само взаимодействие также изменится: модели получат ограждения, интеграцию и контекст, необходимые для реагирования на менее явные запросы пользователей.

Станишевски назвал это изменение в системе управления одним из самых значительных изменений, которые происходят в настоящее время. Вместо того, чтобы подробно описывать каждую инструкцию, он сказал, что будущие голосовые системы будут все больше полагаться на постоянную память и контекст, создаваемый с течением времени, что сделает взаимодействие более естественным и потребует меньше усилий от пользователей.

Эта эволюция, добавил он, повлияет на то, как будут внедряться голосовые модели. В то время как высококачественные аудиомодели в основном работали в облаке, по словам Станишевски, ElevenLabs разрабатывает гибридный подход, сочетающий обработку данных в облаке и на устройстве, - шаг, направленный на поддержку нового оборудования, включая наушники и другие носимые устройства, где голос становится постоянным спутником, а не функцией, которую вы сами решаете, когда использовать с помощью.

ElevenLabs уже сотрудничает с Meta, чтобы внедрить свои голосовые технологии в продукты, включая Instagram и Horizon Worlds, платформу виртуальной реальности компании. Станишевски сказал, что он также будет готов сотрудничать с Meta в разработке умных очков Ray-Ban, поскольку голосовые интерфейсы приобретают новые форм-факторы.

Но по мере того, как голос становится все более устойчивым и внедряется в повседневное оборудование, это вызывает серьезные опасения по поводу конфиденциальности, слежки и объема персональных данных, которые будут храниться голосовыми системами по мере их приближения к повседневной жизни пользователей. такие компании, как Google уже были обвинены в жестоком обращении.