Собирать фонетический разбор слова: Фонетический разбор слова и звуко-буквеннный анализ

Содержание

Главные вопросы логопеду: когда ребёнок должен начать говорить и как понять, что ему нужна помощь

Родители постоянно задаются вопросами о речевом развитии ребёнка. Почему в три года он молчит, нужно ли учить его читать как можно раньше, обязательно ли выговаривать звук «Р»? Учитель-логопед высшей категории в школе № 45 имени Л. И. Мильграма Нина Половнева объясняет, в каких случаях действительно нужно обратиться к специалисту и как записаться в логопедическую группу.

Чем занимаются логопеды, кроме постановки звуков?

За последние 8-10 лет работы у логопедов ощутимо прибавилось. Если раньше «речевым» (с нарушениями речевого развития) ребёнком в среднем был каждый четвёртый, то сегодня редко удаётся встретить хотя бы одного дошкольника, который бы соответствовал установленным нормам. Дело не только в пресловутых «р» и «л». Работа логопеда состоит в увеличении словарного запаса, отработке лексики, освоении грамматических категорий. Мы тренируем зрительную память и способность анализировать информацию, чтобы затем грамотно её излагать. Для разного возраста логопед решает свои задачи, но все они связаны между собой.

Если в детском саду ребёнку так и не поставили звук «с», и вместо «санки» он произносит «шанки», то в первом классе, скорее всего, он будет ошибаться и на письме.

Если в дошкольном возрасте ребёнку не даётся связный рассказ-монолог по картинке, то в школе не избежать трудностей с сочинениями по литературе

Ведь способность структурировать мысли и переходить от общего к частному закладывается ещё на логопедических занятиях в детском саду.

Если не научить ребёнка видеть на картинке центр, передний и задний планы — то он будет выхватывать небольшую деталь («птичка летит!»), упуская остальные. Впоследствии это может привести к сложностям в анализе текста и даже собственных рассуждений.


Как развивается речь ребёнка от года до семи лет?

Когда мы говорим о том, что ребёнок должен или не должен уметь в том или ином возрасте, то ориентируемся на понятие «нормы», которое так часто повергает современных родителей в беспокойство. С одной стороны, их страх, что ребёнок не впишется в установленные рамки нормального развития, оправдан. Именно норма определяет, готов ли ребёнок к школе и его дальнейшие успехи. Но само понятие нормы довольно размыто, а исключения из неё встречаются довольно часто.

У каждого есть история про знакомого ребёнка, который не говорил до трёх лет, а затем выпалил целое предложение за ужином, испугав всю семью и невероятно осчастливив маму.

Речевое развитие очень индивидуально, и до трёх лет мы всегда даём ребёнку время разговориться. Если, конечно, у него в порядке артикуляционный аппарат и задержка речевого развития — не следствие других заболеваний и травм.

Речь здорового ребёнка должна развиваться с учётом таких этапов (плюс-минус полгода для каждого указанного возраста)

  • 1 год — в пассивном словаре 10-20 слов (он их понимает и может показать или хотя бы посмотреть на названный предмет). В активном словаре — около пяти или десяти коротких слов.
  • 2 года — активный словарь увеличивается до 100-300 слов, в речи появляются простые короткие предложения-словосочетания «дай китю», «хочу игрушку», «киса сидит».
  • 3 года — в активном словаре около 1000 слов, при этом ребёнок может дать адекватный ответ на вопрос.
  • 4 года — может правильно повторить слово из четырёх слогов за взрослым, освоил понятия «большой-маленький», «много-мало».
  • 5 лет — может повторить предложение из девяти слов. Оперирует понятиями «сегодня», «завтра», «вчера» — для согласования времён и структурирования речи.
  • 6 лет — в активном словаре более 2 000 слов. В этом возрасте можно учить его составлять рассказ по картинке — к первому классу как раз пригодится.
  • 7 лет — активный словарь более 3 000 слов, у ребёнка сформирована связная речь, он может пересказать прочитанный рассказ или услышанную историю.

Из этих норм формируются требования к речевому развитию при поступлении в школу.


Как понять, что ребёнку нужен логопед?

Я всегда говорю родителям, что логопедические дефекты нужно по максимуму исправить до первого класса, потому что в школе у них и так будет достаточно приключений. Есть, конечно, и такие дети, которым искажённый звук «р» никак не мешает учиться. Они не испытывают трудностей с написанием слов и их речь понятна собеседникам. В таком случае правильная постановка звука — вопрос вкуса и всегда остаётся на усмотрение самих родителей и детей. Но в большинстве случаев важно вовремя заметить дефект и обратиться к логопеду чем раньше, тем лучше.

Обратиться к логопеду в дошкольном возрасте стоит, если:
  • В раннем детстве ребёнок не произносит звуков, не гулит, не начинает разговаривать до трёх лет. Многие дети пропускают период гуления, но показаться логопеду не будет лишним — хотя бы чтобы убедиться, что всё в порядке с артикуляционным аппаратом.
  • Словарный запас ребёнка с годами не пополняется или расширяется очень медленно.
  • Дошкольник испытывает трудности с запоминанием вида букв.
  • Плохо или неправильно произносит звуки, их сочетания или не произносит некоторые из них.
  • С трудом выполняет задания «найди четвёртый лишний», сложно обобщает ряд слов одной категории (не может ответить на вопрос «малина, клубника, смородина — что это?»).
  • Заикается.
  • К пяти годам не начинает «сливать» буквы в слоги, хотя знает, как они произносятся по отдельности.

Когда ребёнок приходит к логопеду в детском саду или в школе, логопед обязательно общается с родителями, смотрит его медицинскую карту и проводит собственное обследование. В первую очередь, чтобы определить характер нарушений и возможные причины этих проблем. Часто речевые дефекты связаны с тем, что детей просто не научили, например, правильно произносить определённые звуки или делать их слияние. Тогда мы ставим их, отрабатываем и отпускаем.

К сожалению, в детских садах и школах у логопедов нет возможности проследить, чтобы каждый ребёнок ещё и вводил в свою речь отработанный звук. Часто бывает, что дети ленятся произносить правильно, даже если научились, ведь родители и так их понимают. Поэтому здесь важно помнить, что отработка звука должна продолжаться и дома.

Другие речевые дефекты могут быть вызваны как внешними, так и внутренними факторами. К внешним относятся и речевая среда, в которой растёт ребёнок, и питание, и экология, и челюстно-лицевые травмы. К внутренним — генетическая предрасположенность (строение артикуляционного аппарата может передаваться по наследству), родовые травмы, неблагополучное протекание беременности матери.

Если ребёнок не произносит некоторые звуки, скажем, из-за короткой уздечки языка или неповоротливого языка, ему назначают логопедический массаж.

Массаж — не самое приятное ощущение, но всё же лучше, чем разрезать уздечку

В случае операции всё равно нужно долго работать с ребёнком, прежде чем появится нужный звук. Так что её эффективность под большим вопросом.

Иногда нарушение речевого развития носит вторичный характер. Например, при задержке психического развития, умственной отсталости, черепно-мозговых травмах. В этом случае необходимо подключать дефектолога, который занимается коррекцией физического и психического развития.

К сожалению, часто родители до такой степени боятся проблем собственного ребёнка, что просто отказываются признаться в них самим себе и не слышат рекомендаций специалистов. Бывает, что у ребёнка все признаки задержки психического развития, но мама не хочет в это верить. Соответственно, она не предпринимает нужных шагов, чтобы вовремя взять ситуацию под контроль. Чем раньше проблема обнаружится, тем больше шансов эффективно с ней работать.


Как сами родители могут помочь ребёнку?

Разговаривайте с ребёнком. Всегда. С самого раннего детства. Озвучивайте свои действия, называйте предметы, общайтесь с ним, вовлекайте в диалог. «Сейчас мы пойдём на кухню готовить обед», «Смотри, какая на улице метель», «Кто это к нам пришёл?» и прочее. Только ни в коем случае не сюсюкайтесь словами «ктё этё у нас туть ти мой харёсий».

С самого рождения ребёнку нужно создавать грамотную и чистую речевую среду

Если он так и не начал разговаривать, а возраст уже подошёл, отлично работает идея с семейным альбомом. Создайте альбом или тетрадь с фотографиями родных и близких родственников — тех, которых ребёнок хорошо знает и любит. Можно вместе с ним этот альбом рассматривать, показывать на людей на фотографии и называть их. А через некоторое время просить показать: «А где же у нас тётя Люба? Что-то я не найду!». Если ребёнок начнёт искать и показывать — полдела сделано. Он пошёл на контакт, пусть пока и молча.

Дальше попробуйте усложнять: «Так, а кто это у нас здесь? Совсем забыла!». Ребёнок может начать издавать звуки — радостные, разочарованные (если тётю Любу назвать бабой Машей), говорить «О!» или пытаться сказать имя. Любой звук здесь будет победой — ведь это значит, что артикуляционный аппарат начинает работать. Постепенно звуки будут усложняться.

Если ребёнок плохо запоминает буквы: никак не может показать в алфавите «Н» или путает положение средней палочки в «И», значит, ему нужно развивать зрительную память. Здесь подойдут любые упражнения и игры на запоминание — «найти пять отличий», «что изменилось на картинке». Но самые эффективные — тактильные упражнения. Например, пока готовите обед, предложите ребёнку выложить «проблемную» букву гречкой, слепить её из пластилина, разложить на полу верёвочками или чем ему захочется. Пусть информация поступает через разные источники — это отлично работает.

Разрабатывайте мелкую моторику. Доказано, что именно она активизирует части мозга, ответственные за развитие речи и письма. Дети, которые хорошо рисуют, прорисовывают мелкие детали, уверенно держат карандаш в руке, показывают стабильные успехи в речевом развитии. Поэтому не упускайте случая попросить ребёнка поднять с пола мелкие детали, нанизывать бусинки, собрать конструктор и прочее.

Не обсуждайте при нём с другими людьми его речевые проблемы. Иногда кажется, что ребёнок занят своими делами и ничего не слышит, а если и слышит, то мало что понимает. Это совсем не так. Если родители будут тяжело вздыхать, мол, «а наш-то никак не заговорит» или многозначительно переглядываться, жаловаться по телефону и любыми другими способами проявлять отрицательные эмоции, ситуация только ухудшится.

Есть распространённый миф: чем быстрее ребёнок научится читать — тем лучше. Это совсем не так. Я иногда даже запрещаю родителям торопить события, потому что процесс речевого развития происходит поэтапно. Плавное чтение должно начинаться со слогов-слияния: ребёнок должен осознать звуки, почувствовать их соединения.

Если перейти к чтению раньше, чем нужно, ребёнок будет читать бегло, но неправильно

Он будет догадываться о значении слов, а не читать их, или неправильно произносить звуки. Если вы не уверены, что способны грамотно отрабатывать с ребёнком навыки плавного чтения, лучше доверьте это логопеду. Ведь исправлять привычки детей в разы сложнее, чем учить их с нуля.

Если говорить о том, в каком возрасте стоит плавно подталкивать ребёнка к чтению, то мой опыт показывает, что это 5-6 лет. Разумеется, что если ребёнок сам начинает читать раньше — такое бывает — запрещать ему не нужно. Но неправильное произношение обязательно поправлять.

И одно из самых главных и эффективных правил, которое почему-то часто не соблюдается. Слушайте своих детей и помогайте им быть понятными. Я часто вижу картину, как ребёнок впопыхах что-то рассказывает маме, которая сидит в телефоне. Он так хочет, чтобы его услышали, что перескакивает с мысли на мысль, торопится, эмоции его захлёстывают. Информации вокруг ребёнка сейчас слишком много — и ему просто-напросто сложно с ней справиться. Задача родителя в том, чтобы помочь ему успокоиться, выдохнуть и взять под контроль свои эмоции. Сядьте рядом, посмотрите в глаза, скажите: «Да, дорогой, что ты хотел сказать?». Слушать ребёнка — искренне и заинтересованно — для развития речи не менее важно, чем говорить с ним.


Что должен уметь ребёнок к первому классу?

Он должен знать звуковой состав слова и уметь разложить слово на звуки, не называя его. Например, учитель показывает ему картинку мака, и ребёнок произносит «м», «а», к». Если он может это сделать, скорее всего, на письме он не будет пропускать буквы. Ведь первое время младшие школьники «шепчут», будто диктуют сами себе, когда пишут. Если есть сложность с восприятием звуков — это обязательно скажется в дальнейшем обучении.

То же самое и с неправильным произнесением звуков — если вместо «рыба» ребёнок говорит «лыба», то на уроках русского будет сложно.

Звуки, которые школьник не выговаривает в принципе, он с большой вероятностью будет пропускать и на письме

Пропуски букв при написании слов — логопедическая проблема. Возможно, ребёнок не научился мысленно делить слово на звуки, поэтому во время письма забывает некоторые или путает и пропускает звуки. В любом случае, требуется помощь логопеда.

К 1 классу у ребёнка должен быть хороший словарный запас. Бедная речь бывает у детей, с которыми редко разговаривают родители или которые растут без должного внимания. Или у тех, кто мало читает и чаще увлечён гаджетами. Но наверстать его можно в любом возрасте, если начать целенаправленно заниматься с ребёнком — в задачи логопеда обогащение активного словаря тоже входит. В школе детям с маленьким словарным запасом тяжелее «вливаться» в программу, понимать учителя и задавать вопросы.

Ребёнок должен знать грамматические согласования — на уровне слуховой памяти. Конечно, первоклассник ещё не понимает, что такое падежи и склонения. Но он должен правильно согласовывать существительное с прилагательным, числительное с существительным и так далее.

Первоклассник уже должен составлять рассказ по картинке, пересказывать текст в формате монолога. Учиться этому можно дома уже с шести лет. Но важно не подсаживать ребёнка на наглядность, а наоборот, тренировать память и образное мышление, учить преобразовывать образы в слова. Рассказ по картинке — это фундамент для школьного сочинения, изложения, пересказа, которые постоянно встречаются на уроках и на ОГЭ и ЕГЭ. Здесь активно работает фантазия — особенно в задании, где нужно придумать, скажем, конец истории или «дорисовать» картинку самостоятельно. Описать собственные образы и фантазии — задача посложнее, чем описать готовую картинку, но этот навык очень важен в школе.


Как попасть в логопедическую группу в детском саду или школе?

Чтобы определить, куда лучше обращаться в случае логопедических дефектов, нужно понимать серьёзность речевой проблемы. Например, с дислексией, дисграфией, дизартрией, ринолалией, дислалией в в обычных детских садах бороться может быть довольно проблематично. В группе может быть и 15, и 20 человек, а серьёзные формы таких дефектов требуют индивидуальных занятий.

При работе с заиканием, например, могут потребоваться специальные условия для создания режима молчания — обеспечить его в группе детей сложно. Поэтому работать с множественными или тяжёлыми нарушениями речевого развития при интеллектуальной норме стоит в специализированных логопедических садах или центрах. Логопед в обычном саду занимается звукопроизношением, а в школе преимущественно решает те проблемы, которые не удалось решить в детском саду, и помогает детям преодолеть трудности с чтением и письмом.

Сейчас, чтобы попасть к логопеду в детский сад или в школу, нужно получить заключение Центральной медико-психолого-педагогической комиссии (ЦПМПК). Для этого необходимо собрать документы и записаться на психолого-педагогическое обследование ЦПМПК на mos.ru или по телефону в ближайший филиал Городского психолого-педагогического центра. С заключением комиссии ребёнок может ходить к логопеду в школе бесплатно. Однако, по моему опыту, комиссия тоже не всегда объективно видит ситуацию. Хотя бы просто потому, что при осмотре может сыграть роль и человеческий фактор, и настроение ребёнка в этот день. Поэтому родителям самим нужно держать руку на пульсе.

Фото: Shutterstock

Автоматическое распознавание речи и обработка естественного языка

Эта статья была опубликована в рамках блога по науке о данных.

Введение

В этой статье мы подробно рассмотрим, как на самом деле работает распознавание речи. Теперь, когда мы говорим о распознавании речи, мы на самом деле имеем в виду ASR или автоматическое распознавание речи. Цель автоматического распознавания речи состоит в том, чтобы просто ввести любую непрерывную звуковую речь и вывести ее текстовый эквивалент. Мы хотим, чтобы наш ASR не зависел от говорящего и имел высокую точность. Такая система долгое время была основной целью ИИ, и в 19В 80-х и 90-х годах прогресс в вероятностных моделях сделал автоматическое распознавание речи реальностью.

Фото Клема Оноджегуо на Unsplash

 

Что затрудняет распознавание речи?

Как и многие другие проблемы ИИ, которые мы видели, автоматическое распознавание речи может быть реализовано путем сбора большого пула размеченных данных, обучения модели на этих данных, а затем развертывания обученной модели для точной маркировки новых данных. Суть в том, что речь структурирована во времени и имеет множество вариаций.

Мы определим конкретные проблемы, с которыми мы сталкиваемся при декодировании произносимых слов и предложений в текст. Чтобы понять, как можно решить эти проблемы, мы углубимся в сам звуковой сигнал, а также в различные модели речи. Звуковой сигнал — это наши данные. Мы рассмотрим анализ сигналов, фонетику и способы извлечения признаков для представления речевых данных.

 

Типы моделей в распознавании речи

Модели распознавания речи можно концептуально разделить на акустическую модель и языковую модель. Акустическая модель решает задачи преобразования звуковых сигналов в некое фонетическое представление. Языковая модель содержит знания предметной области о словах, грамматике и структуре предложений для языка. Эти концептуальные модели могут быть реализованы с помощью вероятностных моделей с использованием алгоритмов машинного обучения. Скрытые марковские модели были усовершенствованы с помощью достижений в области автоматического распознавания речи за несколько десятилетий и считаются традиционным решением ASR. Между тем, передовые технологии ASR сегодня — это сквозные модели глубокой нейронной сети. Мы поговорим об обоих.

 

Проблемы с автоматическим распознаванием речи

Распознавание непрерывной речи имеет непростую историю. В начале 1970-х годов Соединенные Штаты финансировали исследования автоматического распознавания речи с помощью задачи DARPA. Цель была достигнута несколько лет спустя с помощью системы Гарпия Карнеги-Меллона. Но перспективы на будущее были неутешительными, и финансирование иссякло. Совсем недавно вычислительная мощность сделала реальностью более масштабное моделирование нейронных сетей. Так что же затрудняет распознавание речи?

Фото Джейсона Розуэлла на Unsplash

Первый набор проблем, которые необходимо решить, связан с самим звуковым сигналом, например с шумом. Проезжающие машины, тиканье часов, разговоры других людей, помехи в микрофонах, наш ASR должен знать, какие части звукового сигнала имеют значение, а какие следует отбросить. Другим фактором является изменчивость высоты тона и изменчивость громкости. Один говорящий звучит иначе, чем другой, даже если произносит одно и то же слово. Высота тона и громкость, по крайней мере, в английском языке не меняют истинности произнесенного слова.

Если я поздороваюсь в другой тональности, это все то же слово и написание. Мы могли бы даже думать об этих различиях как о другом виде шума, который необходимо отфильтровать. Еще одним фактором является изменчивость скорости слова.

Слова, произносимые с разной скоростью, должны быть согласованы и согласованы. Если я произношу речь с другой скоростью, это все равно одно и то же слово с тем же количеством букв.

Правильное выравнивание звуковых последовательностей выполняется ASR. Кроме того, границы слов являются важным фактором. Когда мы говорим, слова бегут одно за другим без паузы. Мы не разделяем их естественным образом. Люди понимают это, потому что мы уже знаем, что границы слов должны быть в определенных местах. Это подводит нас к другому классу проблем, связанных с языком или знаниями.

У нас есть предметное знание нашего языка, что позволяет нам автоматически устранять двусмысленности, как только мы их слышим. Группы слов, которые уместны в одном контексте, но неприемлемы в другом.

 

Фото Бена Уайта на Unsplash

Кроме того, разговорный язык отличается от письменного. Есть колебания, повторы, обрывки предложений, оговорки, человек-слушатель способен это отфильтровать.

Представьте себе компьютер, который знает язык только из аудиокниг и газет, прочитанных вслух. Такой системе может быть трудно расшифровать неожиданные структуры предложений. Хорошо, мы определили много проблем, которые нужно решить здесь.

Некоторые из них — вариативность высоты тона, громкости и скорости, двусмысленность из-за границ слов, правописания и контекста. Я собираюсь представить некоторые способы решения этих проблем с помощью ряда моделей и технологий. Начну сначала с самого голоса.

 

Анализ сигналов

Когда мы говорим, мы создаем синусоидальные колебания в воздухе. Более высокие ноты вибрируют быстрее с более высокой частотой, чем более низкие. Эти вибрации могут быть обнаружены микрофоном и преобразованы из акустической энергии, переносимой звуковой волной, в электрическую энергию, где она записывается в виде звукового сигнала. Амплитуда звукового сигнала говорит нам, сколько акустической энергии содержится в звуке, насколько он громкий. Наша речь состоит из множества частот одновременно. Фактический сигнал представляет собой сумму всех этих частот, слипшихся вместе. Чтобы правильно проанализировать сигнал, мы хотели бы использовать частоты компонентов в качестве признаков. Мы можем использовать преобразование Фурье, чтобы разбить сигнал на эти компоненты. Алгоритм БПФ или быстрое преобразование Фурье широко доступен для этой задачи.

Мы можем использовать эту технику разделения для преобразования звука в спектрограмму. Чтобы сначала создать спектрограмму, разделите сигнал на временные рамки. Затем разделите каждый сигнал кадра на частотные составляющие с помощью БПФ. Каждый временной кадр теперь представлен вектором амплитуд на каждой частоте. Если мы снова выстроим векторы в порядке их временного ряда, мы сможем получить визуальную картину звуковых компонентов, спектрограмму.

Фото Яцека Дылага на Unsplash

Спектрограмма может быть синхронизирована с исходным звуковым сигналом. Спектрограмма дает нам полное представление о наших звуковых данных. Но у нас все еще есть шум и изменчивость, встроенные в данные. Кроме того, здесь может быть больше информации, чем нам действительно нужно. Далее мы рассмотрим методы извлечения признаков, чтобы уменьшить шум и уменьшить размерность наших данных.

 

Извлечение признаков

Какая часть звукового сигнала действительно важна для распознавания речи?

Один человек создает слова, а другой их слышит. Наша речь ограничена как нашими голосовыми механизмами, так и тем, что мы можем воспринимать нашими ушами. Начнем с уха и звуков, которые мы можем слышать.

Шкала Мела была разработана в 1937 году и говорит нам, какие высоты звука могут действительно различать человеческие слушатели. Получается, что некоторые частоты звучат для нас одинаково, но различия в более низких частотах мы слышим более отчетливо, чем в более высоких. Если мы не слышим высоту тона, нет необходимости включать ее в наши данные, а если наше ухо не может различить две разные частоты, то для наших целей их вполне можно считать одинаковыми.

В целях извлечения признаков мы можем поместить частоты спектрограммы в ячейки, соответствующие нашим собственным ушам, и отфильтровать звук, который мы не слышим. Это немного уменьшает количество частот, на которые мы смотрим. Однако это не конец истории. Нам также необходимо отделить элементы звука, которые не зависят от говорящего. Для этого мы сосредоточимся на механизме создания голоса, который мы используем для создания речи. Человеческие голоса различаются от человека к человеку, хотя наши основные анатомические особенности одинаковы. Мы можем думать о модели воспроизведения человеческого голоса как о комбинации источника и фильтра, где источник уникален для человека, а фильтр — это артикуляция слов, которые мы все используем при разговоре.

Фото Эбигейл Кинан на Unsplash

Кепстральный анализ опирается на эту модель для разделения двух. Главное помнить, что мы отбрасываем компонент речи, уникальный для отдельных голосовых связок, и сохраняем форму звука, издаваемого голосовым трактом. Кепстральный анализ в сочетании с мел-частотным анализом дает вам 12 или 13 признаков MFCC, связанных с речью. Функции Delta и Delta-Delta MFCC могут быть дополнительно добавлены к набору функций. Это удвоит или утроит количество функций, но, как было показано, дает лучшие результаты в ASR. Вывод из использования извлечения признаков MFCC заключается в том, что мы значительно уменьшаем размерность наших данных и в то же время удаляем шум из системы. Далее мы рассмотрим звук с точки зрения языка, фонетики слов, которые мы слышим.

 

Фонетика

Фонетика — это изучение звуков в человеческой речи. Лингвистический анализ языка во всем мире используется для разбиения человеческих слов на их мельчайшие звуковые сегменты. В любом данном языке некоторое количество фонем определяет различные звуки в этом языке. В американском английском обычно можно найти от 39 до 44 фонем. Напротив, графема — это наименьшая отдельная единица, которую можно записать на языке. В американском английском наименьший набор графем, который мы можем определить, — это набор из 26 букв алфавита плюс пробел. К сожалению, мы не можем просто сопоставить фонемы с графемой или отдельными буквами, потому что некоторые буквы сопоставляются с несколькими звуками фонем, а некоторые фонемы сопоставляются более чем с одной комбинацией букв.

Например, в английском языке буква С звучит по-разному в словах «кошка», «чат» и «круг». Между тем, звук фонемы Е, который мы слышим в приемах и ударах, представлен разными буквосочетаниями. Вот пример набора фонем английского языка США под названием Arpabet. Arpabet был разработан в 1971 году для исследования распознавания речи и содержит тридцать девять фонем, 15 гласных звуков и 24 согласных, каждая из которых представлена ​​​​одно- или двухбуквенным символом.

Фонемы часто являются полезным посредником между речью и текстом. Если мы сможем успешно создать акустическую модель, которая декодирует звуковой сигнал в фонемы, оставшейся задачей будет сопоставление этих фонем с соответствующими им словами. Этот шаг называется лексическим декодированием и основан на лексиконе или словаре набора данных. Почему бы просто не использовать нашу акустическую модель для прямого перевода в слова?

 

Зачем делать промежуточный шаг?

Это хороший вопрос, и существуют системы, которые переводят функции непосредственно в слова. Это выбор дизайна и зависит от размерности проблемы. Если мы хотим обучить ограниченный словарный запас слов, мы можем просто пропустить фонемы, но если у нас есть большой словарный запас, который сначала преобразуется в более мелкие единицы, это уменьшает количество сравнений, которые необходимо выполнить в системе в целом.

Лаборатория голосовых данных Введение

Мы многое узнали о звуке речи. Мы представили методы анализа сигналов и извлечения признаков для создания представлений данных для этого речевого звука. Теперь нам нужно много примеров аудио, сопоставленных с текстом, метками, которые мы можем использовать для создания нашего набора данных. Если у нас есть эти помеченные примеры, скажем, строка слов, совпадающая с фрагментом аудио, мы можем превратить аудио в спектрограммы или представления MFCC для обучения вероятностной модели.

К счастью для нас, ASR — это проблема, над которой работали многие люди. Это означает, что нам доступны размеченные аудиоданные и множество инструментов для преобразования звука в различные представления.

Одним из популярных источников эталонных данных для обучения и тестирования автоматического распознавания речи является Акустико-фонетический корпус TIMIT. Эти данные были разработаны специально для исследования речи в 1993 году и содержат данные о 630 говорящих, произносящих по 10 предложений, богатых фонемами, каждое, такие как «Джордж редко смотрит дневные фильмы». часов чтения газет и свободно доступного LibriSpeech Corpus с 1000 часами чтения общедоступных книг. Инструменты для преобразования этих различных аудиофайлов в спектрограммы и другие наборы функций доступны в ряде программных библиотек.

 

Акустические модели и проблемы со временем

Благодаря извлечению признаков мы решили проблемы шума, связанные с факторами окружающей среды, а также с разнообразием динамиков. Фонетика дает нам представление звуков и языка, с которыми мы можем сопоставить. Это отображение от звукового представления к фонетическому представлению является задачей нашей акустической модели. Мы до сих пор не решили проблему сопоставления переменных длин одного и того же слова. DTW вычисляет сходство между двумя сигналами, даже если их продолжительность различается. Это можно использовать при распознавании речи, например, для сопоставления данных последовательности нового слова с его наиболее похожим аналогом в словаре примеров слов.

Как мы вскоре увидим, скрытые марковские модели также хорошо подходят для решения этого типа последовательности паттернов временных рядов в рамках акустической модели. Эта характеристика объясняет их популярность в решениях для распознавания речи в течение последних 30 лет. Если мы решим использовать глубокие нейронные сети для нашей акустической модели, проблема секвенирования снова появится. Мы можем решить проблему с помощью гибридной системы HMM/DNN или решить ее другим способом.

Фото Энди Келли на Unsplash

Позже мы поговорим о том, как мы можем решить проблему в DNN с коннекционистской временной классификацией или CTC. Однако сначала мы рассмотрим HMM и то, как они используются в распознавании речи.

 

HMM в распознавании речи

Мы изучили основы скрытых марковских моделей. HMM полезны для обнаружения закономерностей во времени. Это именно то, что мы пытаемся сделать с акустической моделью. HMM могут решить проблему изменчивости времени, которую мы определили ранее. Например, мой более ранний пример речи против речи, одно и то же слово, но произнесенное с разной скоростью. Мы могли бы обучить HMM с последовательностями временных рядов меток, чтобы создать отдельные модели HMM для каждой конкретной звуковой единицы. Единицами могут быть фонемы, слоги, слова или даже группы слов. Обучение и распознавание довольно просты, если наши обучающие и тестовые данные являются изолированными единицами.

У нас есть много примеров, мы их обучаем, мы получаем модель для каждого слова. Затем распознавание одного слова сводится к подсчету вероятности нового наблюдения по каждой модели. Ситуация усложняется, когда наши обучающие данные состоят из непрерывных фраз или предложений, которые мы будем называть высказываниями. Как можно разделить ряды фонем или слов при обучении?

В этом примере у нас есть слово «кирпич», непрерывно соединенное в девяти различных комбинациях высказываний. Чтобы тренироваться на непрерывных высказываниях, HMM можно связать вместе попарно. Мы определяем эти соединители как HMM. В этом случае мы будем тренировать ее кирпич, мой кирпич, кирпич, кирпичный дом, кирпичную дорожку и кирпичную стену, связывая соединительные состояния вместе. Это повысит размерность. Нам понадобится HMM не только для каждого слова, но и для каждого возможного рабочего соединения, которых может быть много, если слов много.

Тот же принцип применяется, если мы используем фонемы. Но для больших словарей увеличение размерности не так сильно, как для слов. С набором из 40 фонем нам нужно 1600 HMM для учета переходов. Все еще управляемое число. После обучения модели HMM можно использовать для оценки новых высказываний через цепочки вероятных путей.

 

Языковые модели

На данный момент у нас есть инструменты для устранения шума и изменчивости речи посредством извлечения признаков. У нас есть модели HMM, которые могут преобразовывать эти функции в фонемы и решать проблемы секвенирования для нашей полной акустической модели. Однако мы еще не решили проблемы языковой неоднозначности. Цель автоматического распознавания речи состоит в том, чтобы просто ввести любую непрерывную звуковую речь и вывести ее текстовый эквивалент. Система не может сказать по акустической модели, какие сочетания слов наиболее разумны.

Это требует знаний. Нам нужно либо предоставить эти знания модели, либо дать ей механизм для самостоятельного изучения этой контекстной информации. Далее мы поговорим о возможных решениях этих проблем.

 

Н грамм

Задача языковой модели состоит в том, чтобы внедрить языковые знания в этап преобразования слов в текст при распознавании речи, обеспечивая еще один уровень обработки между словами и текстом для устранения двусмысленности в правописании и контексте. Например, поскольку акустическая модель основана на звуке, мы не можем отличить правильное написание слов, которые звучат одинаково, например, слышать. Другие последовательности могут не иметь смысла, но их можно исправить, добавив немного больше информации.

Слова, созданные Акустической Моделью, не являются абсолютным выбором. Их можно рассматривать как распределение вероятностей по множеству разных слов. Каждая возможная последовательность может быть рассчитана как вероятность того, что конкретная последовательность слов могла быть создана звуковым сигналом. Статистическая языковая модель обеспечивает распределение вероятностей по последовательностям слов.

Если у нас есть обе эти возможности, акустическая модель и языковая модель, то наиболее вероятной последовательностью будет комбинация всех этих возможностей с наибольшей вероятностью. Если бы все возможности в обеих моделях были оценены, это могло бы быть очень большое измерение вычислений.

Мы можем получить хорошую оценку, взглянув только на некоторую ограниченную глубину выбора. Оказывается, на практике слова, которые мы произносим в любое время, в первую очередь зависят только от предыдущих трех-четырех слов. N-граммы — это вероятности отдельных слов, упорядоченных пар, троек и т. д. С помощью N-грамм мы можем аппроксимировать вероятность последовательности с помощью цепного правила.

Вероятность того, что появится первое слово, умножается на вероятность появления второго при данном первом и так далее, чтобы получить вероятности данной последовательности. Затем мы можем оценить эти вероятности вместе с вероятностями из акустической модели, чтобы удалить языковую двусмысленность из вариантов последовательности и обеспечить лучшую оценку высказывания в тексте.

 

Новая парадигма

В предыдущем обсуждении были выявлены проблемы распознавания речи и предложено традиционное решение ASR с использованием HMM извлечения признаков и языковых моделей. Эти системы становились все лучше и лучше с тех пор, как они были представлены в 1980-х годах.

Фото Hitesh Choudhary на Unsplash

Но есть ли лучший способ?

По мере того, как компьютеры становятся все более мощными, а данные более доступными, глубокие нейронные сети стали идеальным решением для всех видов больших вероятностных задач, включая распознавание речи. В частности, можно использовать рекуррентные нейронные сети RNN, поскольку эти типы сетей имеют временную память, важную характеристику для обучения и декодирования речи. Это горячая тема и область активных исследований.

Нижеследующая информация в основном основана на недавних презентациях исследований. Технология находится на переднем крае и быстро меняется, но мы собираемся прыгнуть прямо сейчас. Итак, начнем.

 

Глубокие нейронные сети как модели речи

Если HMM работает, зачем нам новая модель. Это сводится к потенциалу. Предположим, у нас есть все данные, которые нам нужны, и вся вычислительная мощность, которую мы хотим. Как далеко может завести нас модель HMM и как далеко может завести нас какая-то другая модель?

По словам Адама Коутса из Baidu в недавней презентации, дополнительная тренировка традиционного ASR нивелирует неточность. Между тем, решения Deep Neural Network Solutions не впечатляют при работе с небольшими наборами данных, но они становятся лучше, когда мы увеличиваем размеры данных и моделей. Вот процесс, который мы рассмотрели до сих пор. Мы извлекаем признаки из звукового речевого сигнала с помощью MFCC. Используйте акустическую модель HMM для преобразования в звуковые единицы, фонемы или слова. Затем он использует статистические языковые модели, такие как N-граммы, для устранения языковых неоднозначностей и создания окончательной текстовой последовательности. Многие части мелодии можно заменить многослойной глубокой нейронной сетью. Давайте немного интуитивно поймем, почему их можно заменить.

При извлечении признаков мы использовали модели, основанные на человеческом восприятии звука, чтобы преобразовать спектрограмму в признаки. Интуитивно это похоже на идею использования сверточных нейронных сетей для извлечения признаков из данных изображения. Спектрограммы — это визуальное представление речи. Таким образом, мы должны позволить CNN таким же образом находить релевантные признаки для речи. Акустическая модель, реализованная с помощью HMM, включает вероятности перехода для организации данных временных рядов. Рекуррентные нейронные сети также могут отслеживать данные временных рядов через память, как мы видели в RNN.

Традиционная модель также использует HMM для последовательности звуковых единиц в слова. RNN производят плотность вероятности для каждого временного интервала. Поэтому нам нужен способ решить проблему последовательности. Уровень временной классификации Connectionist используется для преобразования выходных данных RNN в слова. Итак, мы можем заменить акустическую часть сети комбинацией слоев RNN и CTC. Сквозная DNN по-прежнему допускает лингвистические ошибки, особенно в словах, которые не встречались в достаточном количестве примеров. Существующее использование N-грамм может быть сделано. С другой стороны, языковая модель нейронной сети может быть обучена на большом количестве доступного текста. Используя слой NLM, вероятности правописания и контекста могут быть повторно оценены для системы.

 

Заключение

Мы многое изучили. Мы начали с анализа сигнала, разделив звуковые характеристики сигнала и извлекая только те признаки, которые нам требовались для декодирования звуков и слов. Мы узнали, как функции могут быть сопоставлены со звуковыми представлениями фонем с помощью моделей HMM и как языковые модели повышают точность при декодировании слов и предложений.

Наконец, мы изменили нашу парадигму и заглянули в будущее распознавания речи, где нам может вообще не понадобиться извлечение признаков или отдельные языковые модели . Надеюсь, вам понравилось изучать эту тему так же, как мне понравилось ее писать 😃

 

Ссылки

1. Введение в стемминг и лемматизацию (НЛП)

Введение в стемминг и лемматизацию (НЛП)
Полное исследование стемминга и лемматизации, а также какие методы используются при различных обработках естественного языка… medium.com

2. Введение в встраивание слов (NLP)

Введение в встраивание слов (NLP)
Полное исследование о фиксации контекстуальных значений соседних слов с использованием таких методов, как Word2Vec и GloVe. Medium.com

Обо мне

На этом мы подошли к концу этой статьи. Спасибо, что прочитали это и последовали за нами. Надеюсь, вам понравилось! Большое спасибо за прочтение!

Мое портфолио и LinkedIn 🙂

  • prateeksawhney97 — Обзор
    Приложение Share Split позволяет быстро и легко передавать файлы без использования Интернета. Приложение Share Split, созданное Prateek Sawhney… github.com
  • Приложения для Android от Prateek Sawhney в Google Play
    Инженер по искусственному интеллекту @ Школа цифровых продуктов UnternehmerTUM и Технический университет Мюнхена, Германия play.google.com

 

Средства массовой информации, показанные в этой статье, не принадлежат Analytics Vidhya и по усмотрению Автора.

Срок запроса | Elasticsearch Guide [8.7]

Возвращает документы, содержащие точный термин в указанном поле.

Вы можете использовать запрос термина для поиска документов на основе точного значения, такого как цена, идентификатор продукта или имя пользователя.

Избегайте использования запроса термина для текстовых полей .

По умолчанию Elasticsearch изменяет значения текстовых полей в рамках анализа. Это может сделать поиск точных совпадений для текстовых значений поля трудный.

Для поиска текстовых значений поля используйте соответствует запросу вместо.

Пример requestit

 ответ = client.search(
  тело: {
    запрос: {
      срок: {
        "ID пользователя": {
          значение: 'кимчи',
          усиление: 1
        }
      }
    }
  }
)
помещает ответ 
 GET /_search
{
  "запрос": {
    "срок": {
      "ID пользователя": {
        "значение": "кимчи",
        "буст": 1,0
      }
    }
  }
} 

Параметры верхнего уровня для

term edit
<поле>
(Обязательно, объект) Поле, которое вы хотите найти.

Параметры для

<поле> редактировать
значение
(Обязательный, строка) Термин, который вы хотите найти в предоставленном <поле> . Чтобы вернуть документа термин должен точно соответствовать значению поля, включая пробелы и капитализация.
буст

(Необязательно, с плавающей запятой) Число с плавающей запятой, используемое для уменьшения или увеличения показатели релевантности запроса. По умолчанию 1,0 .

Вы можете использовать параметр boost , чтобы настроить показатели релевантности для поиска. содержащий два и более запроса.

Значения Boost относятся к значению по умолчанию 1.0 . Значение повышения между 0 и 1,0 снижает показатель релевантности. Значение больше 1,0 повышает показатель релевантности.

без учета регистра [7.10.0] Добавлено в 7.10.0.
(Необязательный, логическое значение) Разрешает сопоставление символов ASCII без учета регистра. value со значениями индексированного поля, если установлено значение true. Значение по умолчанию false, что означает чувствительность к регистру при сопоставлении зависит от сопоставления базового поля.

Notesedit

Избегайте использования запроса
term для text fieldsedit

По умолчанию Elasticsearch изменяет значения text полей во время анализа. Для например, стандартный анализатор по умолчанию меняется текст значения полей следующим образом:

  • Удаляет большинство знаков препинания
  • Разделяет оставшееся содержимое на отдельные слова, называемые жетоны
  • Нижние регистры токенов

Для лучшего поиска текстовых полей запрос match также анализирует предоставленные вами поисковый запрос перед выполнением поиска. Это означает, что запрос соответствует . текстовых полей для анализируемых токенов, а не точного термина.

Запрос термина не анализирует поисковый термин. Только запрос термина ищет точный термин , который вы предоставляете. Это означает, что запрос термина может возвращать плохие результаты или нет результатов при поиске текст поля.

Чтобы увидеть разницу в результатах поиска, попробуйте следующий пример.

  1. Создайте индекс с полем text с именем full_text .

     ответ = client.indices.create(
      индекс: 'мой-индекс-000001',
      тело: {
        сопоставления: {
          характеристики: {
            полный текст: {
              тип: 'текст'
            }
          }
        }
      }
    )
    ставит ответ 
     разрешение, ошибка := es.Indices.Create(
    "мой-индекс-000001",
    es.Indices.Create.WithBody(strings.NewReader(`{
    "сопоставления": {
    "характеристики": {
    "полный текст": {
    "тип": "текст"
    }
    }
    }
    }`)),
    )
    fmt.Println(разрешение, ошибка) 
     ПОЛОЖИТЬ мой-индекс-000001
    {
      "сопоставления": {
        "характеристики": {
          "полный_текст": { "тип": "текст" }
        }
      }
    } 
  2. Проиндексируйте документ стоимостью Quick Brown Foxes! в полный_текст поле.

     ответ = client.index(
      индекс: 'мой-индекс-000001',
      идентификатор: 1,
      тело: {
        full_text: 'Быстрые бурые лисы!'
      }
    )
    ставит ответ 
     разрешение, ошибка := es.Index(
    "мой-индекс-000001",
    strings.NewReader(`{
    "full_text": "Быстрые бурые лисы!"
    }`),
    es.Index.WithDocumentID("1"),
    es.Index.WithPretty(),
    )
    fmt.Println(разрешение, ошибка) 
     ПОЛОЖИТЬ мой-индекс-000001/_doc/1
    {
      "full_text": "Быстрые бурые лисы!"
    } 

    Поскольку full_text является полем text , Elasticsearch изменяет Quick Brown Foxes! по [быстрый, коричневый, лиса] во время анализа.

  3. Используйте запрос термина для поиска быстрых коричневых лисиц! в полный_текст поле. Включите параметр pretty , чтобы ответ был более читабельным.

     ответ = клиент.поиск(
      индекс: 'мой-индекс-000001',
      красивая: правда,
      тело: {
        запрос: {
          срок: {
            full_text: 'Быстрые бурые лисы!'
          }
        }
      }
    )
    ставит ответ 
     разрешение, ошибка := es. Search(
    es.Search.WithIndex("мой-индекс-000001"),
    es.Search.WithBody(strings.NewReader(`{
    "запрос": {
    "срок": {
    "full_text": "Быстрые бурые лисы!"
    }
    }
    }`)),
    es.Search.WithPretty(),
    )
    fmt.Println(разрешение, ошибка) 
     ПОЛУЧИТЬ my-index-000001/_search?pretty
    {
      "запрос": {
        "срок": {
          "full_text": "Быстрые бурые лисы!"
        }
      }
    } 

    Поскольку поле full_text больше не содержит точного термина Quick Brown Лисы! , поиск по термину не дает результатов.

  4. Используйте запрос match для поиска Quick Brown Foxes! в полный_текст поле.

     ответ = клиент.поиск(
      индекс: 'мой-индекс-000001',
      красивая: правда,
      тело: {
        запрос: {
          соответствовать: {
            full_text: 'Быстрые бурые лисы!'
          }
        }
      }
    )
    ставит ответ 
     разрешение, ошибка := es.Search(
    es.Search.WithIndex("мой-индекс-000001"),
    es.Search.WithBody(strings.

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *