Сюжет
совместный проект
Что умеет голосовой помощник? 5 удивительных навыков
Колл-центры, виртуальные ассистенты и даже автоответчик — в повседневной жизни становится все больше голосовых помощников. Почему их так активно внедряют? И правда ли сервисы речевых технологий помогают бизнесу? На примере SmartSpeech от «Сбера» разберемся, на что они способны
1

Автоматически распознавать речь

«Распознать речь» значит превратить голосовое сообщение в текст. Такая система состоит из декодера и акустических моделей: в зависимости от задачи бизнеса обрабатывается отдельное слово, предложение, фраза до паузы или вся речь целиком. Это можно внедрить с помощью различных протоколов. Например, в SmartSpeech от «Сбера» реализовано синхронное, потоковое и асинхронное распознавание.

Читать статью

Не то, чем кажутся. Разбираем главные мифы о нейросетях

Выясняем, как устроена работа нейросетей, в каких отраслях они помогают и способен ли ИИ обойтись без человека.

2

Обучаться и совершенствоваться

По своему устройству нейросети похожи на нейронные связи: они имитируют работу человеческого мозга с абстрактным мышлением. Именно поэтому искусственный интеллект не программируют, а обучают, причем занимаются этим люди. Например, при разработке платформы SmartSpeech нейронные сети регулярно дообучаются на живой речи, чтобы совершенствоваться.

3

Распознавать оттенки смысла

Подобно человеку, искусственный интеллект обладает словарным запасом. Точнее, набором шаблонов, который подсказывает системе, какую информацию хочет получить собеседник. Иногда в технологиях функцию словаря выполняет грамматика распознавания речи. В SmartSpeech с этой задачей справляются «хинты» — подсказки, указывающие нейросетям, чего хочет собеседник. Они позволяют усиливать распознавание отдельных, в том числе редко употребляемых слов, распознавать отдельно произнесенные буквы, а также задавать интервал ожидания окончания речи пользователя.

4

Анализировать психологическое состояние собеседника

В разговоре важны не только слова, но и то, как они произносятся. В будущем анализ речи позволит диагностировать по голосу депрессию, болезнь Паркинсона и деменцию, а пока нейросети помогают бизнесу понять, с каким настроением к нему обратился клиент. Распознавание эмоций происходит по множеству различных голосовых параметров. В зависимости от психологического состояния собеседника, которое определяет SmartSpeech, можно подобрать подходящий алгоритм общения с клиентом.

5

Синтезировать речь

Преобразование текста в речь (text to speech) сейчас происходит двумя способами. В первом речь генерируется из заранее записанных минимальных единиц языка — слогов или фонем. Этот прием используют в большинстве современных голосовых программ. Второй способ выстраивает целую модель, которая подбирает акустические свойства звука для предложенного текста. Такой подход более кропотлив в процессе подготовки, зато позволяет воспроизводить интонацию, близкую к естественной человеческой речи. Именно этот способ реализовал «Сбер» в сервисе SmartSpeech.