8.8 C
Москва
Среда, 28 сентября, 2022

Speechmatics взламывает транскрипцию чисел с новым форматированием сущностей — IT Connection

Популярное

[ad_1]

Speechmatics взламывает транскрипцию чисел с новым форматированием сущностей — IT Connection ⋆ VOLDEMARU will stofega e1640046222792
В. Стофег

Резюме Пули:

  • Точная интерпретация речи создает проблемы из-за различий в значении и контексте, которые возникают во время обычного разговора.
  • Общеизвестно, что добиться форматирования сущностей или интерпретации чисел очень сложно. Люди могут говорить «о» вместо «ноль» или использовать «три три» вместо «3-3-3».

Компания Speechmatics была основана доктором Тони Робинсоном в 2006 году и базируется в Кембридже, Англия (Великобритания). Робинсон был пионером в применении рекуррентных нейронных сетей и глубоких нейронных сетей для автоматического распознавания речи (ASR). В Speechmatics работает около 250 человек, и компания находится в частной собственности. В 2012 году компания начала предлагать свое программное обеспечение ASR корпоративным предприятиям по модели дохода, основанной на использовании.

ASR помогает предприятиям уменьшить трения в рабочем процессе и исключить трудоемкие ручные процессы. Системы ASR в настоящее время развернуты в различных ролях, включая голосовых ботов, контакт-центры, финансовые учреждения и субтитры в кино и на телевидении. Чтобы преобразовать речь в читаемый текст, системы ASR полагаются на три уровня обработки. Первый уровень, известный как уровень сигнала, извлекает критические особенности из слышимой части речевого потока, а также удаляет посторонние шумы из файла. Акустический уровень определяет различные состояния и помогает повысить четкость речи. Наконец, на уровне языка система ASR пытается построить осмысленные предложения из речевых данных.

Использование ИИ и сетевых архитектур, таких как глубокие нейронные сети и рекуррентные нейронные сети, оказалось полезным для повышения производительности и точности систем ASR. Глубокое обучение особенно эффективно при построении моделей для ASR из-за больших объемов данных и тегов, необходимых для обучения машины тонкостям человеческой речи. Алгоритмы неконтролируемого обучения сократят время обучения систем ASR и избавят от необходимости собирать или создавать помеченные данные. Подобно методам, используемым при обработке естественного языка, неконтролируемое обучение снизит стоимость и позволит системам ASR увеличить количество поддерживаемых языков.

Добавление форматирования объектов избавляет компании от постоянной проблемы с интерпретацией чисел в стенограммах ASR. Чтобы решить эту проблему, Speechmatics использует обратную нормализацию текста, процесс, который преобразует устную форму вывода в соответствующую текстовую запись. Сюда входят простые числа, валюты, адреса, идентификаторы электронной почты, даты, время и универсальный идентификатор ресурса. Использование рекуррентных нейронных сетей помогло добиться большей точности; однако частота ошибок была недостаточно низкой для внедрения в производственные системы. Некоторые компании, такие как Apple, успешно использовали архитектуру нейронной сети с расширенной памятью. К сожалению, этот подход основан на правилах, устанавливаемых вручную, и не является масштабируемым или экономически нецелесообразным, поскольку для управления правилами преобразования требуются носители языка. Решение этой проблемы поставило в тупик инженеров-программистов Apple, которые отмечают, что назначение меток может привести к правильному формату нумерации. Однако в сообщении Apple отмечается, что «некоторые явления требуют дополнительной постобработки», включая выражения времени, финансовые символы и суммы; эта дополнительная постобработка создает сбои в рабочем процессе и может задержать доставку окончательной расшифровки работы клиентам.

Неясно, как именно Speechmatics ASR добился прорыва в распознавании чисел там, где другие потерпели неудачу. На основе заранее выбранных стандартов, выбранных заказчиком, числа могут быть представлены либо в письменном формате, либо в устной форме в стенограмме. Тем не менее, некоторые подсказки, вероятно, всплывут, как только Speechmatics подаст заявку на патентную защиту своей функциональности. Любое улучшение, уменьшающее количество ошибок в расшифровке и вмешательство человека, может сократить время производства и повысить удовлетворенность клиентов. Даже если Speechmatics эффективен только на 95%, сокращение времени, затрачиваемого на ручное исправление ошибок, увеличит использование ASR и поможет компаниям стать более продуктивными.

Оригинал

[ad_2]

- Advertisement -

Выбор редакции

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

- Advertisement -

Последние статьи