Генерация словаря английского произношения манипури с использованием задачи маркировки последовательностей title={Создание словаря английского произношения манипури с помощью задачи маркировки последовательностей}, автор={Раджлакшми Сайкия и Санасам Ранбир Сингх}, Journal={2016 Международная конференция по обработке азиатских языков (IALP)}, год = {2016}, страницы = {67-70} }
- Раджлакшми Сайкия, Санасам Ранбир Сингх
- Опубликовано 1 ноября 2016 г.
- Компьютерные науки
- Международная конференция по обработке азиатских языков (IALP) 2016 г. качественная синтезированная речь. Большинство существующих исследований, связанных с созданием систем TTS на индийском английском языке, адаптируют словарь произношения CMU к соответствующему целевому индийскому акценту. В большинстве этих исследований для адаптации к целевому языку используются разработанные вручную подходы, основанные на правилах. Создание таких правил требует глубокого понимания целевого языка и занимает много времени…
View on IEEE
doi. org
Transliteration of English Loanwords and Named-Entities to Manipuri: Phoneme vs Grapheme Representation
- Lenin Laitonjam, Loitongbam Gyanendro Singh, Sanasam Ranbir Singh
Computer Science, Linguistics
2018 Международная конференция по обработке азиатских языков (IALP)
- 2018
Эксперименты показали, что представление на основе графем превосходит аналоги на основе фонем как в словарных методах, так и в методах обучения.
Study of Indian English Pronunciation Variabilities relative to Received Pronunciation
- Priyanshi Pal, Shelly Jain, A. Vuppala, Chiranjeevi Yarra, P. Ghosh
Linguistics
ArXiv
- 2022
—Analysis of Indian English (IE) вариативность произношения полезна при создании систем автоматического распознавания речи (ASR) и синтеза текста в речь (TTS) в индийском контексте.
Как правило,…Использование фонологической информации для систем речи на индийском языке
- Шелли Джейн, А. Вуппала, С. Гангашетти
Лингвистика
- 2022
Языковое разнообразие является одной из определяющих черт Индийского субконтинента. С тысячами официальных языков и бесчисленным количеством родных языков многоязычие является образом жизни для людей.…
Модель гибридной машинной транслитерации, основанная на структуре кодировщика-декодера с несколькими источниками: с английского на манипури
- Ленин Лайтонджам, Санасам Ранбир Сингх
Информатика
SN Информатика
- 2022
Из различных экспериментальных наблюдений видно, что предложенная структура может эффективно комбинировать последовательности графем и фонем исходного слова, и она значительно превосходит фонемы и графы. мне коллеги.
Создание неродного английского словаря для двуязычного синтеза речи
- Арун Бэби, Пранав Джавале, Саранья Виннайтертан, Сумукх Бадам, Нагарадж Адига, Шарат Адаванн
Лингвистика
11-й семинар ISCA по синтезу речи (SSW 11)
- 2021
Предлагается общий подход к получению правил, основанный на выравнивании букв и фонем для сопоставления родной английской лексики с их неродной версией, и эффективность такого отображения изучается путем сравнения двуязычных систем TTS, обученных с предложенными правилами и без них.
Фонетические особенности английского языка в Индии
- Грольман М.Б., Зубайда Альбертовна, Биктагирова, Олимжон Хабибович, Касимов
Лингвистика
- 2021
В Индии английский язык имеет статус официального языка наряду с хинди. По мнению лингвистов, английский язык, на котором говорят в Индии, отличается от английского языка, на котором говорят в других странах, поскольку он представляет собой… СИСТЕМА РЕЧИ
- Анируддха Сен
Лингвистика
- 2003
Синтез речи на индийском английском полезен для доставки сообщений, хранящихся на компьютерах и в Интернете, индийским пользователям, незнакомым со стандартным английским акцентом. Такая работа ведется в TIFR и…
Лексическое моделирование для распознавания неродной речи с использованием нейронных сетей
- Р. Читтури, Венкатеш Кери, Г. Ануманчипалли, С. Джоши
Лингвистика, информатика
- 4
- S. Ganesh, S. Harsha, Prasad Pingali, Vasudeva Varma
Computer Science
IJCNLP 2008
- 2008
- Силке М. Витт, С. Янг
Информатика
EUROSPEECH
- 1999
- Сачин Агарвал, П. Агарвал
Лингвистика
IICAI
- 2005
- Рохит Кумар, Рашми Гангадхарая, С. Рао, К. Прахаллад, К. Розе, А. Блэк
Физика
SSW
- 2007
- Югал Джусгир Маллик, С. Агравал, Смита Тайал, М. Госвами
Лингвистика
- 2004
- Анируддха Сен, К. Самудраджайя
Информатика
- 2002
- A. McCallum, D. Freitag, Fernando C Pereira
Computer Science
ICML
- 2000
- Guillaume Wisniewski, P. Gallinari
Компьютерная наука
PKDD
- 2007 9 0004 9007
. двухэтапный метод, который объединяет оценки локальных классификаторов с методом релаксационной маркировки, который может учитывать редкие динамически изменяющиеся зависимости и эффективно обнаруживать соответствующие нелокальные зависимости и использовать их.
Что такое распознавание речи? | ИБМ
Что такое распознавание речи?
Распознавание речи, также известное как автоматическое распознавание речи (ASR), компьютерное распознавание речи или преобразование речи в текст, — это возможность, позволяющая программе преобразовывать человеческую речь в письменный формат. Хотя его обычно путают с распознаванием голоса, распознавание речи фокусируется на переводе речи из вербального формата в текстовый, тогда как распознавание голоса просто стремится идентифицировать голос отдельного пользователя.
IBM играла заметную роль в распознавании речи с момента своего создания, выпустив «Shoebox» в 1962 году. Эта машина могла распознавать 16 разных слов, продвигая первоначальную работу Bell Labs 1950-х годов. Однако IBM не остановилась на этом, а продолжала внедрять инновации на протяжении многих лет, запустив приложение VoiceType Simply Speaking в 1996 году. Это программное обеспечение для распознавания речи имело словарь из 42 000 слов, поддерживало английский и испанский языки и включало орфографический словарь на 100 000 слов.
Преобразование речи в текст IBM Watson
Преобразование текста в речь IBM Watson
Ключевые особенности эффективного распознавания речи
Доступно множество приложений и устройств для распознавания речи, но более продвинутые решения используют искусственный интеллект и машинное обучение. Они объединяют грамматику, синтаксис, структуру и состав звуковых и голосовых сигналов для понимания и обработки человеческой речи. В идеале они учатся на ходу — развивая реакцию при каждом взаимодействии.
Лучшие системы также позволяют организациям настраивать и адаптировать технологию к своим конкретным требованиям — от языка и нюансов речи до узнаваемости бренда. Например:
- Взвешивание языка: Повышение точности путем взвешивания определенных слов, которые часто произносятся (таких как названия продуктов или отраслевой жаргон), помимо терминов, уже имеющихся в базовом словаре.
- Обозначение выступающего: Вывод транскрипции, которая цитирует или помечает вклад каждого выступающего в разговор с несколькими участниками.
- Обучение акустике: Займитесь акустической стороной бизнеса. Научите систему адаптироваться к акустической среде (например, окружающему шуму в колл-центре) и стилям говорящих (например, высоте голоса, громкости и темпу).
- Фильтрация ненормативной лексики: Используйте фильтры для идентификации определенных слов или фраз и очистки речевого вывода.
Тем временем распознавание речи продолжает развиваться. Такие компании, как IBM, продвигаются вперед в нескольких областях, стремясь улучшить взаимодействие человека и машины.
Алгоритмы распознавания речи
Капризы человеческой речи усложнили разработку. Она считается одной из самых сложных областей информатики, включающей лингвистику, математику и статистику. Распознаватель речи состоит из нескольких компонентов, таких как речевой ввод, извлечение признаков, векторы признаков, декодер и вывод слов. Декодер использует акустические модели, словарь произношения и языковые модели для определения соответствующего вывода.
Технология распознавания речи оценивается по степени ее точности, т. е. по частоте ошибок в словах (WER) и скорости. На количество ошибок в словах может влиять ряд факторов, таких как произношение, акцент, высота тона, громкость и фоновый шум. Достижение человеческого паритета — то есть уровень ошибок, равный уровню двух человек, говорящих — уже давно является целью систем распознавания речи. Исследование, проведенное Lippmann (ссылка находится за пределами ibm.com) (PDF, 344 КБ), оценивает уровень ошибок в словах примерно в 4 процента, но было трудно воспроизвести результаты из этой статьи.
Подробнее о том, как IBM добилась успехов в этом отношении, установив отраслевые рекорды в области распознавания речи.
Для распознавания речи в текст и повышения точности транскрипции используются различные алгоритмы и методы вычислений. Ниже приведены краткие пояснения некоторых из наиболее часто используемых методов:
- Обработка естественного языка (NLP): Хотя NLP не обязательно является конкретным алгоритмом, используемым для распознавания речи, это область искусственного интеллекта, которая фокусируется на взаимодействие между людьми и машинами посредством языка посредством речи и текста. Многие мобильные устройства включают в свои системы распознавание речи для осуществления голосового поиска. Siri — или предоставьте больше возможностей для обмена текстовыми сообщениями.
- Скрытые марковские модели (HMM): Скрытые марковские модели основаны на модели цепи Маркова, согласно которой вероятность данного состояния зависит от текущего состояния, а не от его предыдущих состояний. В то время как модель цепи Маркова полезна для наблюдаемых событий, таких как ввод текста, скрытые марковские модели позволяют нам включать скрытые события, такие как теги части речи, в вероятностную модель. Они используются в качестве моделей последовательности при распознавании речи, присваивая метки каждой единице, т.е. слова, слоги, предложения и т. д. — в последовательности. Эти метки создают сопоставление с предоставленными входными данными, что позволяет определить наиболее подходящую последовательность меток.
- N-грамм: Это простейший тип языковой модели (LM), который присваивает вероятности предложениям или фразам. N-грамма — это последовательность N-слов. Например, «закажи пиццу» — это триграмма или 3 грамма, а «пожалуйста, закажи пиццу» — это 4 грамма. Грамматика и вероятность определенных последовательностей слов используются для улучшения распознавания и точности.
- Нейронные сети: В основном используемые для алгоритмов глубокого обучения, нейронные сети обрабатывают обучающие данные, имитируя взаимосвязь человеческого мозга через слои узлов. Каждый узел состоит из входных данных, весов, смещения (или порога) и выходных данных. Если это выходное значение превышает заданный порог, он «запускает» или активирует узел, передавая данные на следующий уровень в сети. Нейронные сети изучают эту функцию отображения с помощью обучения с учителем, настраиваясь на основе функции потерь в процессе градиентного спуска. Хотя нейронные сети, как правило, более точны и могут принимать больше данных, это приводит к снижению производительности, поскольку они, как правило, медленнее обучаются по сравнению с традиционными языковыми моделями.
- Диаризация говорящего (SD): Алгоритмы диаризации говорящего идентифицируют и сегментируют речь по идентификатору говорящего. Это помогает программам лучше различать людей в разговоре и часто применяется в центрах обработки вызовов, различая клиентов и торговых агентов.
Варианты использования распознавания речи
Многие отрасли сегодня используют различные приложения речевых технологий, помогая предприятиям и потребителям экономить время и даже жизни. Вот некоторые примеры:
Автомобильная промышленность: Распознаватели речи повышают безопасность водителя, активируя голосовые навигационные системы и возможности поиска в автомобильных радиоприемниках.
Технология: Виртуальные агенты все больше интегрируются в нашу повседневную жизнь, особенно в наши мобильные устройства. Мы используем голосовые команды для доступа к ним через наши смартфоны, например, через Google Assistant или Siri от Apple, для таких задач, как голосовой поиск, или через наши динамики, через Alexa от Amazon или Cortana от Microsoft, для воспроизведения музыки. Они будут только продолжать интегрироваться в повседневные продукты, которые мы используем, подпитывая движение «Интернета вещей».
Здравоохранение: Врачи и медсестры используют приложения для диктовки, чтобы фиксировать и регистрировать диагнозы пациентов и заметки о лечении.
Продажи: Технология распознавания речи имеет несколько применений в сфере продаж. Это может помочь колл-центру расшифровать тысячи телефонных звонков между клиентами и агентами, чтобы определить общие шаблоны вызовов и проблемы. Чат-боты с искусственным интеллектом также могут общаться с людьми через веб-страницу, отвечая на общие вопросы и решая базовые запросы, не дожидаясь, пока станет доступен агент контакт-центра. В обоих случаях системы распознавания речи помогают сократить время решения проблем потребителей.
Безопасность: По мере того как технологии интегрируются в нашу повседневную жизнь, протоколы безопасности становятся все более приоритетными.
- 4
Нейросетевой подход к моделированию лексики иностранного языка с ограниченным объемом обучающих данных, способный расшифровать произношение иностранного слова с учетом его исходного фонетического состава.
Statistical Transliteration for Cross Langauge Information Retrieval using HMM alignment and CRF
The results show that этот метод работает лучше, чем существующая система транслитерации, которая использует выравнивание HMM и условные вероятности, полученные в результате подсчета выравниваний.
Офлайн акустическое моделирование неродных акцентов
В этой статье представлено семейство из трех методов улучшения распознавания неносителя языка, т.е. известен родной язык не носителя языка, и разрабатывает метод автоматического получения такого сопоставления.
Прагматичное решение для синтезатора речи на английском языке с индийским акцентом, использующего остаточное возбуждение с линейным предиктивным кодированием голоса
Улучшение голоса индийского английского языка с использованием «дополнительных данных»
Первый эксперимент показал, что изменение моделей произношения может улучшить существующий голос индийского английского языка, и второй эксперимент был проведен для проверки этого вывода.
Преобразование текста в фонематическую транскрипцию и разбор английского текста на односложные слова
В данной статье описывается программа, которая преобразует английский текст (введенный с обычной компьютерной клавиатуры) в его фонематическое представление, а затем разбирает его на односложные слова. Для каждого…
Система преобразования текста в речь с индийским акцентом для просмотра веб-страниц
A ‘reading the text content’ описывается выбранная веб-страница на хинди или на английском языке с индийским акцентом, которая передается в собственную разработанную систему преобразования текста в речь для хинди / индийского английского языка для создания устного вывода.
Maximum Entropy Markov Models for Information Extraction and Segmentation
A new Markovian sequence model is presented that allows observations быть представлены в виде произвольных перекрывающихся признаков (таких как слово, использование заглавных букв, форматирование, часть речи) и определяет условную вероятность последовательностей состояний при заданных последовательностях наблюдения.
Релаксационная маркировка для выбора и эксплуатации эффективно нелокальных зависимостей в маркировке последовательностей