Определение, фонетический (звуко-буквенный) разбор и разбор слова по составу
На данной странице представлено лексическое значение слова «ездить», а также сделан звуко-буквенный разбор и разбор слова по составу с транскрипцией и ударениями.Оглавление:
- Значение слова
- Звуко-буквенный разбор
- Разбор по составу
Значение слова
ЕЗДИТЬ, езжу, ездишь; езди; несов.
1. То же, что ехать (в 1, 2 и 3 знач., но обозначает действие, совершающееся не в одно время, не за один приём или не в одном направлении). Е. на поезде. Ездят поезда. Е. по выставкам.
2. Посещать кого-что-н., приезжая. Е. в гости.
3. Уметь пользоваться каким-н. средством передвижения. Хорошо е. на велосипеде.
4. перен. Не иметь устойчивости, скользить, передвигаясь по чему-н. (разг.). Линейка ездит по бумаге.
5. перен., на ком. То же, что выезжать (в 4 знач.; см. выехать) (разг.). Е. на подчинённых.
| многокр. езжать, наст. не употр. (к 1 и 2 знач.; разг.) и езживать, наст. не употр. (к 1, 2 и 3 знач.; разг.).
| сущ. езда, ы, ж. (к 1, 2 и 3 знач.).
| прил. ездовой, ая, ое (к 1 знач.). Ездовые сани.
Фонетический (звуко-буквенный) разбор
е́здить
ездить — слово из 2 слогов: е-здить. Ударение падает на 1-й слог.
Транскрипция слова: [й’эзд’ит’]
е — [й’] — согласный, звонкий непарный, сонорный (всегда звонкий), мягкий (непарный, всегда произносится мягко)
— [э] — гласный, ударный
з — [з] — согласный, звонкий парный, твёрдый (парный)
д — [д’] — согласный, звонкий парный, мягкий (парный)
т — [т’] — согласный, глухой парный, мягкий (парный)
ь — не обозначает звука
В слове 6 букв и 6 звуков.
При разборе слова используются правила:
- Гласная е в начале слова является йотированной и обозначает два звука
Цветовая схема: ездить
Разбор слова «ездить» по составу
ездить (программа института)
ездить (школьная программа)
Части слова «ездить»: езд/и/ть
Часть речи: глагол
Состав слова:
езд — корень,
и, ть — суффиксы,
нет окончания,
езди — основа слова.
Примечание: ть является формообразующим суффиксом и не входит в основу слова, но во многих школьных программах ть отмечается как окончание.
Ехать звуко-буквенный (фонетический) разбор слова
Ехать
1. Двигаться, перемещаться при помощи каких-нибудь средств передвижения. Ехать лесом. Ехать на санях. Ехать на пароходе. Ехать на велосипеде. Ехать верхом.
| Двигаться, катиться (о самих средствах передвижения; разг.). Поезд едет. Вдали ехала телега.
2. Отправляться куда-нибудь, уезжать, совершать поездку куда-нибудь. Завтра еду в Москву. Он едет на место службы. Экспедиция едет на Памир. «Дедушки пошехонские, едучи на погост, сказывали, что…» Салтыков-Щедрин.
3. перен. Сдвигаться со своего места, соскальзывать в сторону (разг.). Галстук едет на бок.
| перен. Скользить, разъезжаться в стороны (разг.). Как скользко! ноги так и едут в разные стороны.
• Ехать в Ригу (разг. вульг.) — извергать рвоту при сильном опьянении. Дальше ехать некуда (разг. фам.
Морфологический разбор слова «ездишь»
Часть речи: Глагол в личной форме
ЕЗДИШЬ — слово может быть как одушевленное так и неодушевленное, смотрите по предложению в котором оно используется.
Начальная форма слова: «ЕЗДИТЬ»
Слово | Морфологические признаки |
---|---|
ЕЗДИШЬ |
|
Все формы слова ЕЗДИШЬ
ЕЗДИТЬ, ЕЗЖУ, ЕЗДИМ, ЕЗДИШЬ, ЕЗДИТЕ, ЕЗДИТ, ЕЗДЯТ, ЕЗДИЛ, ЕЗДИЛА, ЕЗДИЛО, ЕЗДИЛИ, ЕЗДЯ, ЕЗДИВ, ЕЗДИВШИ, ЕЗДИ, ЕЗДЯЩИЙ, ЕЗДЯЩЕГО, ЕЗДЯЩЕМУ, ЕЗДЯЩИМ, ЕЗДЯЩЕМ, ЕЗДЯЩАЯ, ЕЗДЯЩЕЙ, ЕЗДЯЩУЮ, ЕЗДЯЩЕЮ, ЕЗДЯЩЕЕ, ЕЗДЯЩИЕ, ЕЗДЯЩИХ, ЕЗДЯЩИМИ, ЕЗДИВШИЙ, ЕЗДИВШЕГО, ЕЗДИВШЕМУ, ЕЗДИВШИМ, ЕЗДИВШЕМ, ЕЗДИВШАЯ, ЕЗДИВШЕЙ, ЕЗДИВШУЮ, ЕЗДИВШЕЮ, ЕЗДИВШЕЕ, ЕЗДИВШИЕ, ЕЗДИВШИХ, ЕЗДИВШИМИ
Разбор слова в тексте или предложении
Если вы хотите разобрать слово «ЕЗДИШЬ» в конкретном предложении или тексте, то лучше использовать морфологический разбор текста.
Примеры предложений со словом «ездишь»
1
А если ты такой квасной патриот, чего ж не ездишь на жигулях, а ездишь на иномарочке?
Глас вопиющего, Сергей Константинович Карамов2
Все ездишь, ездишь, мельтешишь, устраиваешь чужие дела, исследуешь чужие проблемы, судьбы, и своей заняться недосуг…
3
Все, – говорит, – ездишь, ездишь, мельтешишь…“ Ну и что?
Гримасы свирепой обезьяны и лукавый джинн, Александр Юдин4
Всё ездишь, – приговаривала, – давно ведь ездишь…
Постоянное напряжение (сборник), Роман Сенчин, 2017г.5
Бывает ездишьездишь, и вдруг один тип притаскивает тебе огнетушитель на всякий случай.
Монах, который купил мерседес, Андрей ПросинНайти еще примеры предложений со словом ЕЗДИШЬ
Памятка разбора по составу частей речи | Учебно-методический материал по русскому языку (4 класс) на тему:
Разбор слов по составу
Порядок разбора слова по составу:
1. Прочитаю слово
2. Узнаю, на какой вопрос отвечает слово и что оно обозначает (какой частью речи является).
3. Выделю окончание, для этого изменю слово:
-существительное и глагол по числам: сосна-сосны, (она) бегала — (они) бегали
-прилагательное — по родам:
(он) синий- (она) синяя
4. Подберу несколько родственных слов с разными приставками и без приставки. Сравню слова и найду общую часть. Это и будет корень. Выделю корень.
5. Найду приставку. Для этого сравню однокоренные слова с разными приставками и без приставки. Часть, которая стоит перед корнем — приставка.
6. Найду суффикс. Эта часть стоит после корня и служит для образования слова.
Пример устного полного разбора по составу имени прилагательного октябрятский (значок)
1. Узнаю, какая это часть речи. Слово октябрятский отвечает на вопрос какой?, обозначает признак предмета. Это имя прилагательное.
2. Найду в слове окончание. Для этого изменю слово по родам: октябрятский, октябрятская, октябрятское. Изменяется часть -ий. Это окончание. (Обозначаю окончание.)
3. Найду корень. Для этого подбираю однокоренные слова. Октябрята, октябрь, октябренок. Сравниваю. Общая часть октябр-. Это корень. (Обозначаю корень.)
4. Приставки в слове нет.
5. Нахожу суффикс. Слово октябрятский образовалось от слова октябрята с помощью суффикса -ск-. (Обозначаю суффикс.) Слово октябрята образовалось от слова октябрь с помощью суффикса -ат-, (Обозначаю.) В слове октябрятский два суффикса: -ат-, -ск-.
Пример устного разбора по составу имени существительного
поездка
1. Поездка — имя существительное.
2. Нахожу окончание. Изменяю слово по падежам: поездки, поездкой. Окончание — а. (Обозначаю окончание.)
3. Нахожу корень. Подбираю однокоренные слова с приставками и без приставок: поезд, переезд, выезд, заезд, ездить. Общая часть езд-. Это корень. (Обозначаю корень.)
4. Нахожу приставку. Сравниваю однокоренные слова: ездить, поездить, переезд, выезд. По — стоит перед корнем -езд-. Это приставка. (Обозначаю приставку.)
5. Нахожу суффикс. Слово поездка образовалось от слова поездить с помощью суффикса -к-. (Обозначаю суффикс.)
Пример устного разбора глагола
прочитала
1. Прочитала. Что сделала? Глагол. Стоит в прошедшем времени, в единственном числе, в женском роде.
2. Нахожу окончание. Изменяю глагол по числам: прочитала, прочитали. Окончание — а. (Обозначаю окончание.)
3. Нахожу корень. Подбираю однокоренные слова с приставками и без приставок: читать, перечитать, зачитать, читка. Общая часть — чит-. Это корень.
4. Нахожу суффикс: — а— суффикс глагольный, -л— суффикс прошедшего времени. (Обозначаю суффикс.)
При разборе возвратных глаголов выделяется суффикс -ся.
При разборе глаголов неопределенной формы -ть выделяется как окончание.
жизнь, снежинка, шалаши, лужи, жираф, малыши, машина, этажи, гаражи, к
В иудейской традиции Шабат (та самая суббота) — день отдыха от всякой работы, в субботу иудеям запрещено выполнять практически любую работу, если это не связано с риском для человеческой жизни. В европейские и славянские языки слово «суббота» пришло именно от еврейского шабата, хотя у христиан днём отдыха является воскресенье. Кстати, раньше воскресенье называлось «неделя», как день, в который «не делают», ну а понедельник — это «день после недели». Слово «суббота» восходит к древнееврейскому «шабат», что означает «день отдыха». Дело в том, что по ветхозаветной легенде, бог творил Землю и всё, что на ней, ровно шесть дней, а на седьмой день он «отдыхал».
Нестись вскачь, зорко стеречь, темная полночь, стричься в парихмахерской, съешь бутерброд, январская брошь, отрежьте хлеба;
Все остальные
Ответ:
1)
1. Повествовательное
2. Невосклицательное
3. Простое
4. Распространенное
5. Подлежащее – парень
Сказуемое – вошёл
Всюду зима.Бескрайние поля покрыты толщей искрящегося снега.Хмурое небо и низкие чёрные тучи говорят о надвигающейся метели.Зимняя дорога светится множеством весёлых огоньков.Так хочется поскорей оказаться в бабушкином доме и попить горячего чая со вкусными пирогами,но вдруг подул резкий ветер и меня вернуло в реальность.Нужно быстрей идти домой,чтобы не замёрзнуть.ride %d0%bf%d0%b5%d1%80%d0%b5%d0%b2%d0%be%d0%b4 %d1%82%d1%80%d0%b0%d0%bd%d1%81%d0%ba%d1%80%d0%b8%d0%bf%d1%86%d0%b8%d1%8f
Припев: Jingle bells, jingle bells Jingle all the way What fun it is to ride In a one horse open sleigh, hey. [ о д] (просьба подвести на автомобиле). звоните колокольчики. ride hailing , Существительное ride hailing / ride hailings , заказ транспорта , по заказу транспорта freeze [fri:z] froze [frouz] frozen [frouzn] замерзать In the winter the milk froze. «She laughed.» Senze Spiritual Massasjelys — Grapefruit Palmarosa Petitgrain. Jingle all the way. Senze Vitalizing Massasjelys — Lemon Pepper Eucalyptus. Paste or type your English text in the text field above and click “Show transcription” button (or use [Ctrl+Enter] shortcut from the text input area). Первая, вторая, третья форма галогола ride с озвучкой, транскрипцией, примерами с переводом , ride в past simple (прошедшем времени). Kampanje. Она предпочитает ездить на своей лошади без седла. fact, government, took, for, ride. ride / rides. A day or two ago. Нам – 30 лет, вам – 60% скидки! Hi! I never rode on … ездить, ехать, кататься, катать, поездка, езда, прогулка, дорога, всадник, заниматься конным спортом; участвовать в верховых состязаниях, одолевать, овладевать, обуревать, охватывать. chorus: Jingle bells, jingle bells Jingle all the way, Oh what fun it is to ride In a one-horse open sleigh, O Jingle bells, jingle bells Давай прокатимся /покатаемся/ на велосипеде. Произношение odd — транскрипция русскими буквами. speak [spi:k] spoke [spouk] spoken Я поехал вперёд, чтобы разведать местность. Inflections of ‘ride’ (v): (⇒ conjugate) rides v 3rd person singular riding v pres p verb, present participle: -ing verb used descriptively or to form progressive verb—for example, «a singing bird,» «It is singing.» Он каждый день ездит на работу на своём велосипеде. Со словами: «Я знаю, что ты слышал, но я помогу тебе обо всём забыть…» baby let me feel you… Малышка, я хочу почувствовать тебя… (Ride it) we are all alone… (Стань моей) ведь мы совсем одни… (Ride it) just lose control… (Стань моей) потеряй контроль над собой… (Ride it, ride … Тебя подвезти домой? Swede. Лингво-лаборатория Амальгама: перевод текста песни Ride It группы Jay Sean Для корректной работы сайта необходимо включить Javascript в настройках браузера. take somebody for a ride Hugh took me for a ride in his new car. Перевод ‘ride’ Толковый словарь английского языка. Перевод, транскрипция слова ride, фразы и предложения со словом ride. Перевод слов word list YLE MOVERS Word List/Список слов Полный официальный список слов для экзамена Young Learners MOVERS можно найти здесь Список слов Got an English text and want to see how to pronounce it? What fun it is to ride And sing a sleighing song tonight. I rode forward to reconnoitre. troops, march, front, president, country, member, government. Таблица неправильных глаголов английского языка с переводом и русской транскрипцией, которой удобно воспользоваться, как с компьютера, так и с мобильного телефона. Перевод песни BTS — Filter (Map of the Soul: 7) с корейского и английского на русский, слова и текст песни BTS — Filter, кириллизация и транскрипция to ride sandwich — ехать зажатым между двумя соседями Предложения со словом ride: In fact the government took the taxpayers for a ride. Русский Перевод песни Stray Kids — MIROH на русский язык, слова, текст, кириллизация и транскрипция Stray Kids — MIROH Бесплатный сервис Google позволяет мгновенно переводить слова, фразы и веб-страницы с английского более чем на 100 языков и обратно. get a ride AmE: I left the farm that night, and got a ride into town. Перевод в любом приложении с PREMIUM подпиской. Если вы нашли неточный перевод или вам кажется, что какого-то перевода не хватает, Аманда ускакала галопом. Я первый раз в жизни проехалась в лимузине. 3 формы глагола ride (ездить верхом) в английском языке. Afternoon Delight, disambiguation, All the Worlds Delights, novel, Hearts Delight, Delightful, Earthly Delights, Buddleja Autumn Delight, Buddleja Pink Delight Twenty One Pilots — Ride перевод песни на русский текст песни … Транскрипция twenty one pilots ride. Hi! ride n noun: Refers to person, place, thing, quality, etc. Английский глагол ride [raɪd], переводится как: ездить верхом. English ride, drive, go, travel, kick around: ехать: go, ride, drive, travel, fare: кататься: ride, go for a drive: ехать верхом: ride, ride astride, horse, take horse: катать: ride, roll, calender: плыть: swim, sail, ride, pull: пускать на самотек: ride: качать: sway, swing, shake, rock, pump, oscillate Склонение существительных, спряжение глаголов, степени сравнения прилагательных, Транскрипцию и произношение Подробный перевод и примеры. Транскрипция произношения английского слова ride. In a one horse open sleigh . ride n noun: Refers to person, place, thing, quality, etc. Перевод слова train c английского языка, транскрипция, определения, примеры использования, предложения с переводом на русский язык. Она взяла нас покататься на своей новой машине. ride. Oh, what fun it is to ride. hitch a ride (=get a free ride from a passing vehicle) He hitched a ride to Denver on a truck. Мы знаем, что с помощью нашего сервиса вы изучаете иностранные языки, а также делаете домашние задания в школе, университете и на курсах. Словари PROMT для английского, немецкого, французского, русского, испанского и Jingle bells, jingle bells Jingle all the way Oh, what fun it is to ride In a one horse open sleigh. ride — прогулка, поездка, езда, дорога, аллея; rider — всадник, наездник, жокей, седок, ездок; ride high — наслаждаться чувством; Фактически правительство обмануло налогоплательщиков. Припев: Jingle bells, jingle bells Jingle all the way What fun it is to ride In a one horse open sleigh, hey. rode v past verb, past simple: Past tense—for example, «He saw the man.» Употребление слов и словосочетаний в разных контекстах с переводом. Представляем удобный список (таблицу) неправильные глаголы с транскрипцией, переводом и русским произношением, а также даем советы по изучению A day or two ago I thought I’d take a ride … Транскрипция, произношение, правила чтения, примеры употребления, фразеологические обороты Paste or type your English text in the text field above and click “Show transcription” button (or use [Ctrl+Enter] shortcut from the text input area). Перевод документов целиком в безопасной среде, О сервисе | Условия использования | Политика конфиденциальности | Реклама у нас | Помощь | Разработчикам | Мобильная версия | Мы поехали на автобусе, идущем через весь город. Español Jingle bells, jingle bells Jingle all the way Oh, what fun it is to ride In a one horse open sleigh. Swede. accept — транскрипция произношения и перевод слова accept. Слово. Кстати, о поездке, лохматый мальчик. Перевод ‘ride’ Фразовые глаголы. This online converter of English text to IPA phonetic transcription will translate your English text into its phonetic transcription using International Phonetic Alphabet. итальянского языков включают миллионы слов и словосочетаний, самую современную разговорную лексику, которая постоянно отслеживается и пополняется нашими лингвистами. Транскрипция … What fun it is to ride and sing A sleighing song tonight. In fact the government took the taxpayers for a ride. ride — транскрипция произношения и перевод слова ride. Примеры употребления, фразеологические обороты, сленг, идиомы Fasten your seat belts for a very bumpy ride. Français Ride (a horse) Ездить на (лошади, велосипеде, мотоцикле) Take (a bus) Ездить (на общественном транспорте) Примеры: I go to school every I am so sick of this. Произношение ride — транскрипция русскими буквами. Jingle bells, jingle bells. We rode a crosstown bus. Twenty One Pilots: Morph — перевод — MuzOko. break [breɪk] broke [brouk] broken [broukən] ломать Windows in the street were broken by the blast. Для того чтобы добавить вариант перевода, кликните по иконке ☰, напротив примера. то обязательно пишите нам. Перевод текста песни ‘Jingle Bells’ исполнителя Christmas Carols с Английский на … Oh, what fun it is to ride. Я поехал в школу на попутной машине /автостопом/. In a one horse open sleigh. Amanda rode off at a gallop. Перевод текста песни ‘Unravel’ исполнителя Tokyo Ghoul (OST) (東京喰種トーキョーグール) с Японский на Русский choose [tʃu:z] chose [tʃouz] chosen [tʃouzn] выбирать He chose a seat facing the door. перевод. Перевод 1 вe [bi] ː was, were [w z], ɔ [w ]ɜː been [bin] ː быть, существовать, являться, находиться 2 bear [b ] ɛə bore [b ] ɔː born [b n]ɔː носить, нести, рождать 3 beat … поездка ж.р. ride — ПЕРЕВОД И ЗНАЧЕНИЕ ПЕСНИ (twenty one pilots) на русский … Транскрипция twenty one pilots ride Twenty One Pilots: Morph — перевод — MuzOko Постарайтесь расслабиться и получить удовольствие от поездки. A day or two ago I thought I’d take a ride … to ride a horse — ехать верхом to ride a mule — ехать на муле to be / lie / ride at anchor — стоять на якоре to go / ride / sit pillion — ездить на заднем сидении Транскрипция: … My youngest child is learning to ride a bike (Мой младший ребенок учится ездить на велосипеде) … Перевод и разбор песни Believer (Imagine dragons) Английская грамматика самостоятельно — видеокурс Coffee Grammar; (action) About that ride, shaggy boy. Произношение слов и их переводов, транскрипция английских слов, Контексты Не подкинешь меня? Deutsch ride — перевод с английского на русский , транскрипция, произношение, примеры, грамматика. В статье рассмотрено английское существительное Bike с переводом, транскрипцией, образованием множественного числа и примером. Фактически правительство обмануло налогоплательщиков. дорога ж.р. Português, Для добавления в Избранное необходимо авторизоваться, Российские онлайн-сервисы написали открытое письмо против антиконкурентного поведения «Яндекс», Российские интернет-компании подписали открытое письмо, в котором выразили обеспокоенность в связи со злоупотреблением доминирующим положением на рынке поиска со стороны «Яндекса» и поддержали решение, Ваш комментарий будет доставлен разработчикам, Translate.Ru Первый онлайн-переводчик Рунета. Мы уверены, что наши словари станут для вас незаменимыми помощниками. Войска прошли перед президентом страны и членами правительства. This online converter of English text to IPA phonetic transcription will translate your English text into its phonetic transcription using International Phonetic Alphabet. Лингво-лаборатория Амальгама: перевод текста песни Ride Or Die (She’s Not Me) группы Lana Del Rey (Лана Дель Рей) ADJECTIVES/NOUN + ride a car/bus/train etc ride The resort is a short bus ride … ride — транскрипция, произношение и перевод онлайн. ride one’s horse at a fence — вести лошадь на барьер; ride a joke to death — заездить шутку; ride down — нагонять верхом; настигать верхом; сшибить с ног; take for a ride — поехать на прогулку; i ride by bus — я ездить на автобусе; to ride on a sledge — ездить на санках; low voltage ride through — низкое напряжение ездить через; ever ride — когда-либо ездить; funicular ride — фуникулер езды (means of transport) поездка ж (give a ride) подвезти сов + вин (give a ride) подвозить сов + вин : Can I give you a ride home? kr 259. What fun it is to ride And sing a sleighing song tonight. Транскрипция и произношение слова «ride» в британском и американском вариантах. ride [raɪd] Существительное. Got an English text and want to see how to pronounce it? 3 формы глагола ride: Infinitive (ride), Past Simple — (rode), Past Participle — … Они ехали в двухэтажном автобусе. Ищите точный перевод слова и выражений в словаре, а также смотрите, Грамматику [р а ид] Английский язык — перевод слова ride: ехать (верхом, в машине), поездка. Входит в группы: неправильные глаголы, глаголы 3-й класс. (amusement park) (для катания) Если вы нашли неточный перевод или вам кажется, что какого-то перевода не хватает, то обязательно пишите нам. They rode in a double-decker bus. Посмотреть перевод, определение, значение транскрипцю и примеры к «Enjoy the ride», узнать синонимы, антонимы, а также прослушать произношение к «Enjoy the ride».
Immobilienvermögen Evangelische Kirche, Zs Associates Gurgaon Salary, Brauereigasthof Löwen-post Alpirsbach Speisekarte, Project Sunshine Wikipedia, Laudensacks Parkhotel Verkauft,
Морфологический разбор глагола «ездили» онлайн. План разбора.
Для слова «ездили» найден 1 вариант морфологического разбора
- Часть речи. Общее значение
Часть речи слова «ездили» — глагол - Морфологические признаки.
- ездить (инфинитив)
- Постоянные признаки:
- 2-е спряжение
- непереходный
- несовершенный вид
- изъявительное наклонение
- множественное число
- прошедшее время.
Да вот, мы с женой и ездили в прошлом месяце, помнишь, Танюша?
Выполняет роль сказуемого.
Поделитесь страницей с друзьями — это лучшая благодарность
Морфологический разбор другого слова
План разбора глагола
- Часть речи. Общее значение
- Морфологические признаки.
- Начальная форма (инфинитив)
- Постоянные признаки:
- Вид (совершенный (что сделать?) или несовершенный (что делать?)
- переходный (употребляется с сущeствительным в винительном падеже без предлога)/ непереходный (не употребляется с существительным в винительном падеже без предлога).
- Спряжение
- Наклонение в зависимости от вопроса:
- Изъявительное — что делал? что делает? что сделает?
- Повелительное — что делай?
- условное — что делал бы? что сделал бы?
- Число
- Время (если есть)
- Лицо (если есть)
- Род (если есть)
- Синтаксическая роль (подчеркнуть как член предложения, является главным или второстепенным членом предложения)
Поделитесь страницей с друзьями — это лучшая благодарность
Оцени материал
7 голосов, оценка 4.571 из 5
План разбора составлен на основе общих правил, в зависимости от класса и предпочтений учителя ответ может отличаться. Если ваш план разбора отличается от представленного, просто сопоставьте его с данными нашего ответа.
Если морфологический разбор глагола «ездили» имеет несколько вариантов, то выберите наиболее подходящий вариант разбора исходя из контекста предложения.
Разборы производились исходя из заложенного программного алгоритма, результаты в редких случаях могут быть недостоверны, если вы нашли несоответствие пожалуйста сообщите нам. Представленный результат используется вами на свой страх и риск.
проехал — Викисловарь
Английский [править]
Произношение [править]
Этимология 1 [править]
Из среднеанглийского гнал , дроф , драф , от древнеанглийского драф («действие вождения; изгнание, изгнание; гнал, стадо, банда; компания, банда; дорога, по которой гнали скот. »), От протогерманского * draibō (« толкать, двигаться, вести »), от протоиндоевропейского * dʰreybʰ- (« водить, толкать »), от протоиндоевропейского * dʰer- («поддерживать»).Схожесть с шотландцами: drave , dreef («гнал, толпа»), голландский dreef («дорожка, широкая дорога с деревьями, гнал»), средневерхненемецкий treip («гнал»), шведский drev («погонял, погнал»), исландский dreif («россыпь, раздача»). Больше на драйве.
Существительное [править]
ездил ( множественное число водил )
- Поголовье крупного рогатого скота на рынок или на новые пастбища.
- (обычно во множественном числе) Большое количество людей в движении (в прямом или переносном смысле).
- 2009 , Эрик Захте, (укажите название книги или журнала) [1] :
Новые редакторы присоединяются к английской Википедии группами !
- 2009 , Эрик Захте, (укажите название книги или журнала) [1] :
- (коллективный) Группа зайцев.
- Дорога или колея, по которой обычно гнали скот.
- Узкий желоб или канал, используемый для орошения земли.
- (Можем ли мы найти и добавить цитату Симмондса к этой записи?)
- Широкое долото, используемое для доведения камня до почти гладкой поверхности.
- Рифленая поверхность камня, обработанная долотом.
Производные термины [править]
Переводы [править]
поголовье крупного рогатого скота, выведенное на рынок или новые пастбища
большое количество людей в движении
Дорога или колея, по которой обычно пасется скот
Этимология 2 [править]
Из более раннего drave , со среднеанглийского drave , draf , с древнеанглийского drāf , изъявительного претерита первого и третьего лица единственного числа drīfan («водить»).
Глагол [править]
проехал
- простое прошедшее время drive
- 1898 , Уинстон Черчилль, глава 2, в Знаменитость :
У меня была возможность […] совершить довольно длительную командировку в Чикаго, а по возвращении […] я обнаружил, что Фаррар ждал меня в Железнодорожная станция. Он улыбнулся своей привычной долей в качестве приветствия, […], и, наконец, подвел меня к своей багги, повернул, и уехал на из города.
- 1898 , Уинстон Черчилль, глава 2, в Знаменитость :
управлял ( третье лицо единственного числа простое настоящее водило , причастие настоящего приводило , простое причастие прошедшего и прошедшего времени приводило )
- Выпас крупного рогатого скота; особенно на большом расстоянии.
- 1890 , Банджо Патерсон, он Человек из Снежной реки :
Он гнал теперь с овцами Конроя по Каслри.
- 1890 , Банджо Патерсон, он Человек из Снежной реки :
- (переходный) Отделать (камень) долотом.
Переводы [править]
для выпаса скота, для перемещения крупного рогатого скота на большие расстояния
Анаграммы [править]
Среднеанглийский [править]
Прилагательное [править]
проехал
- Альтернативная форма drof
Лексическое обучение и лексическая обработка у детей с нарушениями развития речи
Philos Trans R Soc Lond B Biol Sci.2014 19 января; 369 (1634): 20120387.
Департамент экспериментальной психологии Оксфордского университета, South Parks Road, Oxford OX1 3UD, UK
Copyright © 2013 Автор (ы) Опубликовано Королевским обществом. Все права защищены.Эта статья цитировалась в других статьях в PMC.Abstract
Лексические навыки являются важным компонентом понимания и обработки языка. В данной статье рассматриваются доказательства дефицита лексического уровня у детей и молодых людей с нарушениями языка в развитии (LI).Для целого ряда задач LI ассоциируется с уменьшением словарного запаса с точки зрения как широты, так и глубины, а также трудностей с изучением и запоминанием новых слов; Данные, полученные из интерактивных задач, позволяют предположить, что низкий уровень языковых навыков связан с различиями в лексической конкуренции в распознавании устных слов. Обсуждается также роль лексических дефицитов в понимании природы LI.
Ключевые слова: язык, нарушение, лексика
1. Введение
Слова являются строительными блоками языка.Они обеспечивают связь между фонологической (или орфографической) формой и референтом, что приводит к единице значения, которую можно понять и разделить между людьми. Знания слов развиваются в раннем младенчестве, и вскоре дети могут воспроизводить и понимать многие тысячи слов, гибко и творчески используя свой словарный запас для общения с другими. Слова являются важным компонентом понимания, и поэтому неудивительно, что дети, которые испытывают трудности с речью в процессе развития, часто испытывают трудности со словами.Наиболее очевидно это проявляется, когда у ребенка ограниченный словарный запас: незнание значения конкретного слова имеет очевидные и пагубные последствия для понимания языка, содержащего это слово. Однако для того, чтобы слова способствовали пониманию, нам нужно подумать не только о том, есть ли знание конкретного слова или нет. Слова и контексты, в которых они появляются, тесно взаимосвязаны. Слово вносит вклад в значение предложения, но в то же время значение слова частично является продуктом предложения и контекста, в котором оно появляется.С этой точки зрения, владение словарным запасом слова не является фактором «все или ничего», который определяется тем, знает ли ребенок что-то похожее на словарное определение слова. Также важна возможность извлекать идентификаторы слов, чтобы передать значение, необходимое слушателю в данном контексте, и делать это быстро, поскольку входящий речевой поток разворачивается в реальном времени.
Дефицит слов на уровне слов связан с различными нарушениями развития, в первую очередь с нарушениями развития языка (LI). 1 Прежде чем обсуждать это, уместно начать с определения некоторых терминов. В этом обзоре я использую слово лексический в различных контекстах, включая, например, лексические знания, лексическую обработку, лексическое обучение и лексические дефициты. На общем уровне эти термины связаны с аспектами языка на уровне слов (с словом , содержащим что-то с ментальным представлением или концептом, связанным с конкретной формой), в отличие от синтаксических, грамматических или дискурсивных аспектов. языка.Труднее указать более точные определения, не в последнюю очередь потому, что термины используются в литературе по-разному. Например, лексическое обучение можно оценить, попросив детей выучить фонологическую форму и связать ее с предметом новой, но бессмысленной формы. Это касается изучения связей между формой и ее референтом, но требования к семантической системе довольно низкие, поскольку объект имеет мало значения. Или же детей могут попросить изучить семантические атрибуты, связанные с новым объектом или новой фонологической формой; возможно, это отличается от тех процессов, которые используются, когда дети изучают связь между формой и бессмысленным референтом, количественно и с точки зрения сложности, если не качественно тоже.То, как мы измеряем производительность, также является усложняющим фактором. Стандартные лабораторные задачи (такие как наименование картинок, сопоставление слов с картинками, предоставление определения, словесные ассоциации или напоминание семантических атрибутов) могут претендовать на определение того, могут ли дети идентифицировать, распознавать или понимать слова, но на самом деле эти задачи не таковы. процесс чистый. Если отложить в сторону нелингвистические факторы, которые влияют на производительность, такие как память или процессы исполнительного управления, язык является динамичным и интерактивным — это не тот случай, когда обработка может быть аккуратно разделена на компоненты, которые можно обозначить как идентификация, распознавание и понимание.
Из этого краткого обзора становится ясно, что определение и измерение лексических процессов является сложной задачей. Я использую здесь широкую перспективу, согласующуюся с мнением о том, что лексические навыки многогранны и включают в себя все, что ребенок знает о слове и его использовании. Самый очевидный показатель лексических навыков ребенка — это словарный запас. Проще говоря, сколько слов они знают? Соответственно, этот обзор начинается с рассмотрения этого, поскольку я рассматриваю доказательства дефицита словарного запаса у детей с LI.Затем я рассматриваю природу лексического обучения детей с LI, прежде чем обратить внимание на то, отличаются ли дети с LI от своих сверстников, поскольку они активируют, используют и обрабатывают лексическую информацию.
2. Знание словарного запаса при языковых нарушениях
Дефицит словарного запаса является обычным, но не универсальным для детей с LI. Как правило, дети, которым в дальнейшем ставится диагноз ЛИ, часто «поздно говорят», что свидетельствует о различиях в усвоении слов и знаниях с раннего возраста [5]; есть также свидетельства того, что дефицит словарного запаса сохраняется в более позднем детстве [6,7].Хотя широко распространено мнение о том, что дети с LI испытывают трудности с пониманием слов, менее ясно, как следует концептуализировать такие недостатки, как с точки зрения их основной природы, так и их последствий для понимания языка.
Непосредственной отправной точкой может быть указание количества слов, которые знает ребенок. Однако сразу же возникает вопрос о том, что составляет «адекватное» словесное знание и как его лучше всего измерить. Размер словарного запаса обычно оценивается с помощью воспринимающих заданий, которые требуют от детей выбора целевого референта из массива картинок.Возможно, однако, такие задачи не очень чувствительны [8], приводят МакГрегор и др. . [9], чтобы использовать данные из задачи по определениям для продольного определения размера словарного запаса у 177 детей с LI между 2-м и 10-м классами (хотя следует отметить, что задачи с определениями не являются «чистым процессом», поскольку они предъявляют требования к выразительным навыкам и управляющим функциям а также нажатие на знание слов). Дети с LI могли определять меньше слов, чем дети контрольной группы, в каждый момент времени, при этом величина дефицита оставалась стабильной с течением времени.Доступность данных из задачи определений также позволила McGregor et al . чтобы провести полезное различие между широтой словарного запаса — как описано выше — и глубиной словарного запаса, имея в виду, насколько хорошо дети знают слова, по оценке качества определений, которые они произвели. Наряду с ограничениями в словарном запасе, дети с LI показали меньшую глубину знаний по сравнению с их сверстниками, и это также сохраняется с течением времени.
МакГрегор и др. .Обнаружение дефицита как в глубине, так и в широте важно, поскольку это предполагает, что что-то в отношении качества знания слов у детей с LI отличается, а не только количество известных слов. Это согласуется с другими наблюдениями в литературе. Marinellie & Johnson [10] также сообщили о недостаточном качестве определений, производимых детьми с LI, как с точки зрения семантического содержания, так и с точки зрения синтаксической формы; они также менее способны использовать контекст, чтобы указать на несколько значений неоднозначных слов [11].Дети с LI производят меньше семантических ассоциаций, чем их сверстники, производя вместо них фонологические ассоциации, напоминающие типично развивающихся детей гораздо младшего возраста [12]. Даже после обширного обучения, направленного на улучшение семантических знаний вновь выученных слов, дети с LI реже вспоминали семантические ассоциации этих слов (N. Munro 2007, неопубликованная докторская диссертация, цитируется в [12]). Взятые вместе, Шенг и МакГрегор [12] утверждали, что эти результаты свидетельствуют о том, что дети с LI демонстрируют различия в лексико-семантических знаниях и организации.С этой точки зрения, LI характеризуется не только хрупким знанием основного значения отдельных слов, но и хрупкими семантическими связями между словами. Возможно, это будет иметь серьезные последствия для понимания и использования языка, когда лексическая обработка должна быть детализированной, контекстно-зависимой и гибкой. Я вернусь, чтобы обсудить это более подробно позже в этой статье.
3. Лексическое обучение при языковых нарушениях
Учитывая эти различия в знании слов при тестировании детей с LI в определенный момент времени, неудивительно видеть различия в лексическом обучении в лабораторных экспериментах.Дети с LI плохо усваивают слова, как случайно, так и в течение более продолжительных периодов явного обучения [13–21]. Эти исследования указывают на трудности с изучением новых фонологических форм, а также с изучением семантических атрибутов, таких как цвет, узор и одушевленность. Мета-анализ изучения слов у детей с LI [22] показал, что лексическое обучение было нарушено по сравнению со сверстниками того же возраста, но эквивалентно младшим детям, сопоставимым по языковому уровню (некоторые исследования соответствовали с использованием показателя восприимчивого словарного запаса, тогда как другие использовали средняя длина высказывания).Обучение было модулировано тяжестью, при этом дети с более низким уровнем владения языком демонстрировали худший уровень обучения, а также невербальными способностями. Различия между языковыми группами были больше, когда эксперименты включали больше испытаний воздействия (предполагая, что контрольная группа получает больше пользы от повторного воздействия, чем дети с LI), и когда обучение оценивалось посредством понимания, а не производства.
Нарушения лексического обучения традиционно рассматривались как последующие последствия нарушений в других аспектах языка или когнитивных навыков, с предложением множества причинно-следственных гипотез.Например, первичный грамматический дефицит может препятствовать росту словарного запаса, поскольку дети с LI менее способны использовать синтаксическую структуру для облегчения изучения слов (так называемый синтаксический бутстрэппинг, [23]; см. [24–26]). С другой стороны, дефицит лексического обучения может быть следствием лингвистических или нелингвистических ограничений обработки, при этом различия в способности детей обрабатывать, хранить и извлекать информацию о новых словах влияют на легкость, с которой создаются новые ассоциативно-смысловые ассоциации [27–29]. ].Однако важно то, что существуют доказательства причинной природы отношений, действующих в противоположном направлении, то есть словарные знания сами вносят вклад в фонологическую краткосрочную память ([30] и см. [31] для вычислительной модели, которая обращается к причинно-следственной связи. между фонологической кратковременной памятью и изучением словарного запаса).
Довольно иной взгляд на природу дефицита лексического обучения исходит из гипотезы процедурного дефицита (PDH; [32]). Это предполагает, что изучение языка поддерживается двумя системами памяти, декларативной и процедурной.Декларативная память включает в себя ментальный лексикон — хранилище заученных словесных знаний — и, таким образом, связана с приобретением словарного запаса и семантическими знаниями. Напротив, процедурная память сродни ментальной грамматике и имеет дело с синтаксисом и фонологией — вычислительными аспектами языка, которые в этом подходе считаются основанными на правилах. Согласно PDH, LI связан с дефицитом процедурной памяти, но с неизменной декларативной системой. С этой точки зрения словарный запас рассматривается как относительная сила LI, поскольку он в первую очередь поддерживается декларативной системой.В то же время, однако, гипотеза признает, что некоторая степень дефицита словарного запаса часто наблюдается в LI, но утверждает, что это является следствием процедурных недостатков. Здесь процедурные недостатки будут препятствовать лексическому обучению, при этом изучение и сохранение фонологических последовательностей будет особенно уязвимым. В соответствии с этой идеей, дети с LI демонстрируют дефицит процедурного обучения как в лингвистической, так и в неязыковой областях [33,34], и это может быть напрямую связано с грамматическими навыками [35].Менее ясно, сохранилась ли декларативная система, как Lum et al . [33] также сообщили о нарушении декларативного обучения вербальным материалам, а также о нарушении процедурного обучения.
PDH обсуждает один тип неявного обучения — процедурное обучение. Другая форма неявного обучения была описана в литературе по статистическому обучению, и это также дает альтернативный взгляд на лексическое обучение в LI. В задачах статистического обучения учащиеся знакомятся с потоком элементов, которые содержат закономерности, например, один слог надежно предсказывает появление другого слога.Даже младенцы имеют большой опыт в отслеживании таких статистических закономерностей (например, [36]) и в неявном использовании этих знаний способами, которые имеют отношение к языку, например, для определения границ слов в непрерывной речи. Более того, младенцы могут сопоставлять результаты статистического обучения (например, потенциальные словоформы) с референтами и лексическими категориями без явных инструкций или подкрепления [37–39], что согласуется с тем, что статистическое обучение играет роль в развитии естественного языка (для обзор см. [40]).Основываясь на этой работе, посвященной изучению статистического обучения и изучения языка в процессе типичного развития, Evans et al . [41] спросили, показывают ли дети с LI различия в статистическом обучении по сравнению с контрольной группой того же возраста. Дети занимались рисованием, пассивно слушая 21-минутную непрерывную речь на новом языке. В речь были встроены «слова», идентифицируемые как таковые благодаря высокой переходной вероятности (то есть вероятности того, что один слог будет следовать за другим, тем самым давая подсказку относительно того, где границы слова могут быть помещены в речевой поток).Во время теста детям разыгрывались «слова» и «не слова», и они решали, какие из них больше всего напоминают звуки, которые они слышали во время рисования. Дети LI были хуже контрольной группы, и их результаты не отличались от случайных. Во втором эксперименте удвоение количества воздействий улучшило обучение в группе LI, которая теперь показала результаты значительно лучше, чем случайность. Интересно, что дети с LI также плохо выявляли статистические закономерности в неязыковом состоянии, включающем тоны.
Требуется гораздо больше работы, чтобы выяснить, когда и почему дети с LI хуже справляются с задачами статистического обучения. Захватывающая перспектива будущих исследований будет заключаться в том, чтобы расширить изучение статистического обучения в LI от определения границ слов до отображения формы на значение. Недавние разработки в психолингвистике показали, что научиться отображать слова в значения — это статистический процесс обучения [42–45]. Такой подход может помочь нам лучше понять природу и происхождение индивидуальных различий в лексическом обучении.Нам также необходимо учитывать сходства и различия между неявным обучением, воплощенным в литературе по статистическому обучению, и процедурным обучением. Если изучение слов является продуктом механизмов статистического обучения [42], его более уместно рассматривать как часть процедурной системы, а не декларативной системы. Обсуждение сходства и различий между PDH и неявным или статистическим обучением выходит за рамки данной статьи, но может быть найдено в других местах [46,47].
Независимо от того, как мы охарактеризуем причины различий в лексическом обучении в LI, ясно то, что дети с LI плохо усваивают новые слова, и это может привести к тому, что значение будет представлено в долговременной памяти в обедненном виде, не в полной мере. разработка и взаимосвязь между элементами и, следовательно, в результате словарного запаса, недостаточного как по качеству, так и по количеству. Как отмечалось ранее, это имеет серьезные последствия для понимания, которое зависит от активации соответствующих аспектов значения слова, учитывая конкретный контекст и нюанс, и проистекает из них.Однако, чтобы изучить эту возможность напрямую и более подробно, нам нужно перейти к исследованиям, которые измеряют лексические знания совсем другим способом.
4. Лексическая обработка при языковых нарушениях
Как отмечалось ранее, существует тесная взаимозависимость между словами и контекстами, в которых они появляются, при этом слова вносят вклад в значение предложения и в то же время получают некоторое собственное значение от контекст предложения. Ясно, что методов, использующих изолированное знание слов, недостаточно, чтобы уловить это сложное взаимодействие.Альтернативный способ концептуализировать знания ребенка словами — это измерить, как они используют слова и реагируют на них в процессе языковой обработки. Большой объем работ по психолингвистике научил нас многому о том, как слушатели находят и распознают произносимые слова, и мы знаем ряд особенностей, которые характеризуют это у взрослых (обзоры см. В [48,49]). МакМюррей и др. . [50] резюмируют ключевые особенности следующим образом: (i) слова активируются немедленно, после получения наименьшего объема перцептивного ввода, (ii) активация обновляется постепенно, по мере развертывания ввода, (iii) активация составляет с оценкой , (iv) несколько слов активируются в параллелях , и (v) эти слова активно конкурируют во время распознавания .Хотя для понимания значения слов нужно больше, чем то, как произносимые слова изначально активируются и распознаются (см. [51,52] в этом томе для обсуждения семантики и концептуального знания), свойства лексического доступа и распознавания устных слов, выявленные в исследованиях взрослых представляет собой основу, которая помогает нам задуматься об аспектах знания слов у детей с ЛИ, а также в типичном развитии [53,54]. Проще говоря, проявляют ли дети с LI какие-либо качественные или количественные различия в каких-либо из этих основных характеристик распознавания слов?
Метод, который был продуктивно использован для изучения ключевых особенностей активации и распознавания слов у взрослых, — это парадигма визуального мира [55,56].Здесь движения глаз измеряются, когда участники просматривают визуальную сцену (которая может включать в себя массив реальных объектов или объектов, представленных на экране компьютера). В то же время они слушают речевые стимулы, описывающие аспекты визуальной сцены. Поскольку люди склонны смотреть на объекты, которые служат потенциальными референтами для языковых выражений, которые они слышат, наблюдение за движениями глаз может задействовать языковую обработку, поскольку она разворачивается в реальном времени. Этот метод является многообещающим для изучения обработки речи у детей, особенно с нарушениями развития [57], поскольку он не требует второстепенных заданий, сложных инструкций или словесного вывода.Вместо этого движения глаз незаметно отслеживаются по мере того, как дети слышат речь, что позволяет относительно неявно оценивать процесс обработки.
Несмотря на то, что их немного, исследования с использованием парадигмы визуального мира для изучения обработки речи у детей с LI позволили сделать некоторые важные выводы. МакМюррей и др. . [50] наблюдали за движениями глаз подростков с LI в наборе визуальных сцен, каждая из которых содержала четыре объекта: цель (например, , свеча, ), когортный участник (например, , свеча, ).грамм. конфеты ), участник рифмы (например, ручка ) и не связанный предмет (например, пуговица ). Мы знаем, что взрослые слушатели демонстрируют систематический паттерн движений глаз к объектам по мере того, как речевой поток, содержащий целевое слово, разворачивается во времени [56]: примерно через 200 мс после появления целевого слова в речи, эквивалентные взгляды видны для человека. цель и когортный конкурент, и оба они зациклены больше, чем на рифме и посторонних отвлекающих факторах. По мере продолжения речевого потока и разрешения неоднозначности между целью и когортой количество обращений к конкурентам когорты уменьшается, что сопровождается небольшим увеличением взглядов на конкурентов-рифмованных.Эти результаты демонстрируют прекрасные временные свойства парадигмы и ее способность обозначать ключевые особенности распознавания слов, такие как непосредственность, градация и конкуренция. На основе этих результатов McMurray et al . [50] исследовали данные о движении глаз у подростков с ЛИ и спросили, отличается ли он, когда и чем от такового у детей контрольной группы. Первоначальная активация была нормальной, но со временем снижение языковых способностей было связано с меньшим количеством взглядов на цель и большим количеством взглядов на когорту и рифмовку участников.Они использовали TRACE [58] для моделирования данных и проверки ряда гипотез относительно возможной причины этого нетипичного паттерна движений глаз. Наилучшее соответствие данным получено при моделировании вариации факторов лексического уровня, а не факторов восприятия или фонологии. В частности, усиление лексического распада в модели лучше всего отражает данные, ведущие McMurray и др. . предположить, что высокий уровень лексического разложения не позволяет целевому слову быть полностью активным, что позволяет конкурентам стать более активными, чем они должны быть.
Эти данные указывают на различия в распознавании слов у детей с LI, которые имеют лексический локус и относительно позднее время обработки. Дополнительное подтверждение этому исходит из эксперимента, описанного Munson et al . [59]. Этот эксперимент был разработан для измерения чувствительности к небольшим акустическим различиям в процессе распознавания устных слов. Предыдущая работа со взрослыми [60] показала, что слушатели чувствительны к небольшим изменениям времени начала голоса (VOT) в пределах фонематической категории (т.е.е. различные токены / b /, некоторые из которых в VOT ближе к a / p /), и это проявляется в движениях их глаз, когда они смотрят на сцену, содержащую изображения пляжа и персика , среди прочего Предметы. В частности, больше внимания уделяется изображению конкурента (например, персик ) по мере того, как акустический сигнал становится ближе к a / p /, даже несмотря на то, что слушатели по-прежнему классифицируют токен как a / b /. В соответствии с увеличением лексического распада, Munson et al .обнаружили, что подростки с LI были более склонны фиксировать конкурентов, чем дети контрольной группы, и это показало линейную связь с величиной LI. Однако важно отметить, что группа лиц с нарушением языка продемонстрировала эквивалентную чувствительность к мелкозернистым вариациям VOT, что свидетельствует об отсутствии дефицита в перцепционной или фонологической обработке. Взятые вместе, результаты McMurray et al . [50] и Munson и др. . [59] указывают на детей с LI, демонстрирующих повышенный уровень лексической неопределенности.Это не кажется следствием различий в начальной активации, но вместо этого, кажется, отражает более поздние компоненты обработки, связанные с выбором между конкурентами.
До сих пор я обсуждал исследования, которые исследуют обработку слов (и конкурентов) изолированно. Однако в естественном языке слова обычно встречаются в предложениях. Недавние исследования с использованием парадигмы визуального мира со взрослыми изучали, как проявляется когортный эффект, когда слова обрабатываются в контекстах, которые служат для ограничения значения.Основываясь на более ранней работе взрослых [61], Brock & Nation [62] отслеживали движения глаз, когда взрослые слышали целевое слово (например, , кнопка ) в нейтральном или ограничивающем контексте ( Джо выбрал пуговицу по сравнению с Джо застегнул пуговицу ). ) при просмотре визуальной сцены, которая содержала три изображения отвлекающих элементов и изображение конкурента, в данном примере это примерно масла . Как и ожидалось в нейтральных условиях, слушатели смотрели преимущественно на конкурента когорты после акустического начала кнопки .Этот эффект был значительно уменьшен в ограничивающем условии, когда глагол закрепил , что сделало конкурента маловероятным референтом. Доступность контекстной информации оказала почти немедленное влияние на идентификацию слов, действуя во времени, аналогичном самому эффекту когорты.
Имеет отношение к нашему обсуждению LI, Brock et al . [63] исследовали этот эффект контекста на когорту у детей с аутизмом, используя парадигму визуального мира. Они не обнаружили эффекта от диагноза аутизм: дети с аутизмом, как и дети контрольной группы, показали точно такой же эффект, что и у взрослых, с контекстом, который блокировал эффект конкурента когорты.Однако важно отметить, что дети с низким уровнем устной речи (включая некоторых детей с диагнозом ЛИ, с аутизмом или без него) показали пониженную чувствительность к контексту: при прослушивании Джо застегивал кнопку , они дольше смотрели на неуместного по контексту конкурента. ( масло ), чем дети с лучшими языковыми навыками, что согласуется с выводами МакМюррея и его коллег о том, что подростки с LI чаще смотрят на конкурентов.
Хотя еще не тестировалось на детях с LI, Хуанг и Снедекер [54] представили данные о типично развивающихся 5-летних детях, которые также указывают на более длительный эффект конкуренции при относительно слабых языковых навыках.Используя парадигму визуального мира, взрослые и дети просматривали сцены, содержащие целевое изображение (например, журналов, ), конкурента (например, , ключ ) и два несвязанных отвлекающих фактора, слушая нейтральное предложение, содержащее целевое слово (например, поднять журналы ). Обоснование здесь состоит в том, что журналов должны активировать (отсутствующий) фонологический конкурент блокирует , что приводит к активации ключа через его семантическую ассоциацию с блокировкой.Если слушатели чувствительны к этому, они должны больше смотреть на тональность , чем на любой из отвлекающих изображений. Это именно то, что Хуанг и Снедекер обнаружили как у взрослых, так и у 5-летних детей, повторяя ранее описанные эффекты у взрослых [64]. Кроме того, для детей соревнования длились дольше, и они иногда допускали ошибки, в результате которых они выбирали участника, а не цель — ошибку, которую допускают не взрослые. Эти данные показывают, что дети, как и взрослые, демонстрируют возрастающую активацию на нескольких уровнях представления, при этом частичный речевой ввод активирует лексические элементы-кандидаты с точки зрения формы и значения.Однако важно то, что дети менее искусны, чем взрослые, в использовании последующей фонологической информации для быстрого подавления или исключения фонолого-семантического конкурента.
Подводя итог этим четырем исследованиям парадигмы визуального мира: все они показывают, что участники с низким уровнем языка (подростки с LI в [50,59]; дети старшего возраста с LI, с аутизмом или без него [63]; обычно развивающиеся 5 лет -старшие дети в [54]) демонстрируют эффекты конкуренции, согласующиеся с общими основными свойствами лексического доступа и распознавания устных слов, описанными ранее.Однако во всех четырех исследованиях эффекты конкуренции сохранялись дольше у лиц с более низким уровнем языковых навыков. Стоит отметить, что соревновательные различия у детей с LI были описаны в исследованиях с использованием других методологий, таких как семантическое праймирование и разрешение лексической неоднозначности [65–67], стробирование [68], определение слов [69,70] и отложенное повторение. [71,72]. Взятые вместе, эти наблюдения предоставляют сходные доказательства и заверения в том, что длительная активность конкурентов вряд ли является артефактом парадигмы визуального мира.
Что эти результаты могут означать для понимания предложений? Поскольку семантический анализ начинается на очень ранней стадии обработки, до того, как распознавание слов завершится, можно предположить, как вариации в лексической обработке (например, медленное определение одного кандидата) могут иметь прямые последствия для аспектов понимания предложения более высокого уровня. И, если несколько слов-кандидатов остаются активированными одновременно, система может быть перегружена или заблокирована, что приведет к трудностям синтаксического анализа и семантической интерпретации.Это недооцененные предположения, и прямые доказательства отсутствуют, но, тем не менее, общее представление о том, что неэффективность или неопределенность на лексическом уровне служит препятствием для понимания, имеет смысл. Ясно, однако, как отмечалось ранее, исследования, изучающие лексический доступ и распознавание устных слов, исследуют первые шаги к пониманию. Требуется гораздо больше работы, чтобы раскрыть, как лексико-фонологические взаимодействия, наблюдаемые в этих исследованиях визуального мира, способствуют пониманию предложений и дискурса (и на них влияют).
5. Связь лексического обучения и лексической обработки
Обучение и обработка обычно рассматриваются в литературе отдельно. В действительности, однако, они должны быть переплетены: на эпизод обработки слова будет влиять предыдущий опыт человека с этим словом; в свою очередь, эпизод предоставит новую встречу, чтобы добавить к накопленным знаниям об этом слове, и таким образом повлиять на дальнейшую обработку. Различия в размере словаря на ранних этапах разработки имеют значение, поскольку это будет влиять на статистические свойства, которые извлекаются из входных данных (доказательства см. В [73]), и, в свою очередь, это будет влиять на последующее обучение и обработку.
Эксперименты со взрослыми показывают, что недавно выученные слова вскоре интегрируются с существующими знаниями и начинают конкурировать со словами со схожим звучанием в онлайн-обработке [74]. Хендерсон и др. . [53] недавно распространили эти данные на детей в возрасте 7–8 лет. Здесь дети испытали новые слова, которые конкурировали с существующими словами (например, бискал вместо основного слова бисквит ). После периода консолидации онлайн-обработка бисквита замедлилась, что указывает на то, что бисквит стал достаточно интегрированным, чтобы вызвать лексическую конкуренцию.Интересно, что дети демонстрировали большую лексическую конкуренцию, чем взрослые, что напоминает усиление эффектов конкуренции, наблюдаемых у людей с LI в экспериментах с использованием парадигмы визуального мира. Кроме того, как отмечалось ранее, дети с LI также демонстрируют трудности с закреплением словарного запаса [21,22] при выполнении лабораторных учебных заданий. Расширение экспериментов, объединяющих обучение и обработку, например, Хендерсон и др. . [53] детям с LI предлагает богатый потенциал для раскрытия гораздо большего количества информации о том, как различия в обучении связаны с различиями в онлайн-обработке.Это хорошо проиллюстрировано в недавнем исследовании МакГрегора и др. . [75]. Взрослых с LI попросили выучить новые фонологические формы и сопоставить их с новыми значениями. В дополнение к измерению навыков кодирования относительно типично развивающейся группы взрослых, обучение оценивалось после периода консолидации. Взрослые LI плохо усваивали как форму, так и значение, кодируя меньше информации, чем участники контрольной группы; Интересно, однако, что они сохраняли знания о значении с течением времени, но их способность вспоминать новые формы со временем снижалась.И кодирование, и запоминание были связаны с серьезностью LI, при этом те, у кого был наиболее серьезный дефицит языка, демонстрировали более низкий уровень обучения. Этот эксперимент показывает полезность разделения различных аспектов обучения (кодирование против запоминания; форма против значения) и исследования обучения с течением времени. Дальнейшая работа могла бы основываться на этом эмпирическом подходе и устанавливать связи с литературой по обучению [36–45].
Другой способ рассмотреть сложное взаимодействие между обучением и обработкой — это вычислительное моделирование.Это хорошо иллюстрирует динамическая ассоциативная модель обучения словам МакМюррея и др. . [42]. В модели реализованы как обучение, так и обработка: обучение осуществляется путем изменения весов связи между словами и объектами, тогда как обработка — это активация в реальном времени по этим весам. В ассоциативных отчетах мы часто думаем о необходимости изучать сопоставления стимулов и ответов на основе явных встреч со словами и их референтами. Масштабность запоминания слов традиционно рассматривается как проблема для таких учетных записей.Однако, если мы примем во внимание, что каждая обучающая встреча не только усиливает сопоставление между словом и его референтом, но также подавляет или сокращает нерелевантные сопоставления со всеми другими референтами, мы видим, что во время каждой встречи можно узнать гораздо больше. Этот процесс медленный, но McMurray et al . убедительно доказать, что изучение слов происходит медленно . Для детей с LI этот процесс будет еще медленнее. Наблюдение за тем, что способность модели подавлять или «сокращать» ненужные или неправильные ассоциации является важным фактором, определяющим обучение (что, в свою очередь, влияет на обработку в реальном времени), может иметь отношение к LI.Моделирование показало, что удаление ненужных связей заставляет систему как учить новые слова, так и быстрее их распознавать. Во время обработки ненужные связи заставляли слуховой ввод активировать несколько лексических единиц, которые затем конкурировали. Для детей с LI сокращение словарного запаса может быть связано с большим количеством ложных ассоциаций, которые затем приведут к усилению конкуренции во время обработки и снижению обучающей способности этой встречи. Это предположение, но его можно проверить, объединив усилия по моделированию с онлайн-данными, полученными от детей на разных этапах развития, и с LI.
6. Лексические различия при языковых нарушениях: причина или следствие?
Вопросы причинно-следственной связи сложны. Чтобы помочь сформулировать это обсуждение, полезно рассмотреть два различия: проксимальные и дистальные причины и объяснения, специфичные для предметной области, в сравнении с общими для предметной области. Ближайшая причина находится близко к наблюдаемому поведению — что-то неправильное, что напрямую способствует неупорядоченному поведению. Мы можем, например, постулировать когнитивную модель распознавания устного слова, которая имеет определенный компонент, и если у детей с LI обнаруживаются нарушения в этом компоненте, это будет адекватной ближайшей причиной различий в распознавании устного слова.Более отдаленный взгляд позволяет нам спросить , почему у детей возникают нарушения в обработке этого компонента, причем дистальная причина является конечной или основной причиной расстройства. Объяснение, специфичное для предметной области, будет специфичным для языковой системы, в то время как объяснение, относящееся к предметной области, будет выходить за рамки языка и спрашивать, не являются ли недостатки в других областях ответственными за языковой дефицит.
Конечно, можно привести правдоподобный случай, что различия в лексическом обучении и лексической обработке причинно связаны с LI.На ближайшем уровне объяснения можно утверждать, что понимание предложения имеет лексическую основу [76]. С этой точки зрения различия в лексической обработке имеют прямое влияние на постоянное понимание. Таким образом, различия в лексических навыках будут влиять на языковую обработку в более общем плане, а дефицит на уровне слов влияет на понимание предложения и дискурса. Если смотреть с точки зрения развития, то на ранних этапах разработки, если грамматика возникает из лексической базы [77,78], ограничения в размере лексикона будут иметь решающее значение.Об этом прекрасно сказал Локк, который сказал о детях с дефицитом лексических знаний: «Для них отложенный лексикон может быть отрицаемой грамматикой» [79, с. 281–282]. Другие утверждали, что лексический дефицит является следствием более первичного дефицита в других аспектах языка. И морфосинтаксис, и фонологическая кратковременная память характерны в каузальных теориях, которые предсказывают лексические последствия, см. Обзор [80].
Обращаясь к вопросам специфики предметной области, может оказаться, что очевидные языковые различия происходят из нелингвистических источников.Например, существует обширная литература, изучающая степень, в которой LI является следствием нарушений слуховой обработки, и они, по-видимому, связаны с повышенным риском LI, даже если они не играют простой причинной роли [81,82]; исследования также изучали гипотезу о том, что LI связан с ухудшением скорости обработки [83]. Параллели с литературой по приобретенным расстройствам [84] можно увидеть, если мы рассмотрим LI, происходящую от нарушений когнитивного контроля. У детей с LI часто наблюдается сопутствующий дефицит исполнительной функции, который может влиять на процессы, участвующие в лексической активации или отборе, например.грамм. [85]; с точки зрения развития существует тесная взаимосвязь между языком и развитием когнитивного контроля [86], но опять же, причину и следствие трудно различить: ограничения в когнитивном контроле могут ограничивать развитие языка, но в равной степени язык может также ограничивать развитие когнитивного контроля . PDH, описанный ранее, также можно рассматривать как общую теорию предметной области, как и различия в ассоциативном обучении, присущие вычислительной модели обучения словам МакМюррея и др. . [42].
Ясно, что различить причинно-следственную связь действительно очень сложно. Различие между проксимальной и дистальной частью не является четким (см. [87] для дальнейшего обсуждения), и то, насколько уместно точное определение причинности для нашего понимания лексической природы LI, во многом зависит от конкретного задаваемого вопроса. Если кого-то интересуют основные причины — какова природа и происхождение LI — тогда нужно спросить, как языковые трудности возникают из-за генетических и этиологических факторов окружающей среды, которые подвергают детей риску LI.В последние годы произошел отход от размышлений о причинно-следственной связи с точки зрения одной лежащей в основе когнитивной причины с текущими теориями, которые рассматривают, как различные когнитивные факторы могут действовать вместе в вероятностной манере с множеством рисков, вместо того, чтобы обсуждать « единственную или первичную основную причину ». причина [88]. В основе этой точки зрения лежит развитие, и она предлагает плодотворный способ рассмотреть, как факторы когнитивного уровня взаимодействуют и влияют друг на друга по мере обучения (см. [80,89] для обзора).В рамках этой структуры мы можем рассмотреть, как лексические дефициты возникают из-за того, что подвергает ребенка риску LI, в то же время признавая, что сами лексические различия также будут способствовать продолжающемуся проявлению LI в процессе развития.
Понимание причинности в рамках модели множественных и вероятностных факторов риска необходимо, если мы хотим понять сложность взаимосвязи ген-мозг-поведение в LI. Однако в равной степени для решения теоретических вопросов языковой обработки или индивидуальных различий в языковой обработке есть место для более близких вопросов о том, как слова изучаются и обрабатываются у людей с LI.К ним можно обратиться с точки зрения когнитивных процессов, участвующих в обработке языка (поведенчески или вычислительно), при этом не забывая об этиологии и конечных причинах LI. Рассмотренные здесь эмпирические и вычислительные работы демонстрируют полезность этого подхода.
7. Расстройства развития в сравнении с приобретенными
В соответствии с темой этого специального выпуска я заканчиваю некоторыми размышлениями о нарушениях развития и приобретенных расстройствах. Наиболее очевидна разница в специфичности.Я не пытался различать или обсуждать подтипы LI. Однако в случаях приобретенного расстройства после детального когнитивного тестирования проводятся различия, в первую очередь между пациентами, у которых есть дефициты, связанные с лежащими в основе семантическими представлениями, и теми, чей дефицит, по-видимому, сводится к доступу или восстановлению нетронутых в других отношениях репрезентаций, согласно обзору Mirman & Britt [ 84]. Несмотря на то, что LI в процессе развития ассоциируется со значительной неоднородностью, выделение подтипов даже на основе широкого различия между репрезентацией и доступом является проблематичным, конечно, исходя из базы данных, которая у нас есть в настоящее время.Профили симптомов частично совпадают, и у многих детей наблюдается дефицит репрезентативности, что, например, определяется ограничениями в объеме и глубине словарного запаса. Это затрудняет оценку доступа в чистом смысле: в процессе развития новые слова постоянно встречаются и изучаются, и они, по-видимому, слабо представлены и труднодоступны для детей с LI в процессе развития. Сообщалось о некоторых детях, которые, кажется, демонстрируют непропорционально большие трудности с лексическим поиском — дети с трудностями при поиске слов (например,грамм. [90]). Эти дети кажутся наиболее близкими к тому, чтобы иметь что-то вроде специфической проблемы доступа, но даже здесь интерпретация осложняется тем фактом, что часто возникают более широкие языковые трудности.
Гетерогенность в случаях развития следует ожидать, учитывая сложные взаимодействия, возникающие во время изучения языка [80]. Это, безусловно, клиническая реальность, о чем свидетельствует исследование детей, посещающих языковые отделения в Великобритании, Конти-Рамсден и др. . [91].Они применили большой набор мер, затрагивающих различные аспекты языка, от фонологической обработки до понимания дискурса. Это позволило идентифицировать шесть различных кластеров или «разновидностей» LI. Однако сопоставление этих кластеров с когнитивными моделями языковой обработки, каждая из которых четко соответствует определенному локусу, просто невозможно. Неоднородность также отражается в современных представлениях о причинах ЛИ, при этом подходы с множественными факторами риска занимают центральное место [88].Как отмечалось ранее, с этой точки зрения LI ассоциируется с рядом различных генетических факторов и факторов риска окружающей среды, которые объединяются, чтобы сформировать фенотип вероятностным образом, взаимодействуя друг с другом и с другими факторами, которые могут придавать устойчивость или дополнительный риск через сопутствующие факторы. заболеваемость. Важно, чтобы исследования охватили эту вариацию, если мы хотим более полно понять природу и причины ЛИ.
Тем не менее, можно извлечь некоторые уроки из подхода, используемого в приобретенных исследованиях.Как правило, фенотип расстройств развития можно охарактеризовать широко, участники отбираются на основе нарушения успеваемости в рамках комплексной языковой оценки или комплексного языкового критерия. Это подтверждает, что у детей есть функциональный LI, но затрудняет сравнение результатов исследований. Это также проблематично, когда общий балл по языку затем связан с результатами по экспериментальному измерению. В целом, это положительная особенность, поскольку позволяет нам постоянно смотреть на эффекты.Однако комплексные меры являются грубым инструментом и, помимо определения общей серьезности, мало полезны. Чтобы проиллюстрировать: является ли длительная конкуренция, наблюдаемая в выборке McMurray et al . [50], связанная с языковым дефицитом таким же образом, как устойчивость к контекстному эффекту для блокирования когортной конкуренции в Brock et al .’s [[50]]. 63] учиться? Мы просто не знаем. Как показано в ряде статей в этом специальном выпуске, использование показателей, которые теоретически мотивированы моделями языковой обработки, может позволить установить более тесную связь между экспериментальным эффектом и когнитивным профилем и упростить сравнение исследований.
Тем, кто изучает приобретенные расстройства, также может быть полезно более внимательно рассмотреть развивающую работу. Исследования развития LI охватывают индивидуальные различия в течение многих лет, мотивированные стремлением выявить отдаленные причины и объяснить неоднородность. Отдельные различия в областях помимо языка (например, исполнительная функция) также были рассмотрены довольно подробно. Интересно видеть более развивающий подход, характеризующий обсуждение приобретенных расстройств, воплощенный, например, в гипотезе первичных систем [92], и в размышлениях о природе взаимосвязи между общими факторами предметной области, такими как управляющая функция и лексико-семантическая обработка у пациентов с приобретенными нарушениями [84].
В будущей работе необходимо рассмотреть два важных набора вопросов, оба из которых связаны с проблемами развития. Во-первых, откуда берутся эти дефициты? Являются ли лексические дефициты первичными, ведущими к последующим последствиям для грамматики, или сами лексические дефициты являются последствием других дефицитов, и являются ли они специфичными для языка, или проявлением более общих различий в способах, которыми люди с LI учатся или обрабатывают Информация? Второй набор вопросов более независим от основных причин, но вместо этого спрашивает о последствиях дефицита лексического уровня для языковой обработки в более общем плане.Здесь необходима более тесная связь между когнитивной моделью и поведенческими эффектами. Рассмотренные здесь исследования визуального мира предлагают многообещающий подход к изучению LI, как и исследования лексического обучения и консолидации, но требуется гораздо больше данных. Мирман и Бритт [84] отмечают важность моделей, которые являются явными в вычислительном отношении. Это также верно в области развития. Хорошим примером является рассмотрение того, как вычислительные модели способствовали нашему пониманию проблем чтения в процессе развития [93,94]. 2 Имеющая отношение к этой статье модель обучения слов МакМюррея и др. . [42] предлагает новый взгляд на взаимодействие между обучением и обработкой в типичном развитии, с последствиями для размышлений о нарушениях развития в разных условиях. путь.
В заключение, очевидно, что некоторые дети с LI проявляют лексические слабости. Относительно небольшая работа была сосредоточена на вопросах лексического уровня, но, как здесь рассматривается, недавняя работа по изучению лексического обучения и лексической обработки у детей с LI выявила новые идеи и, по крайней мере, на мой взгляд, подчеркнула необходимость дополнительных исследований и, возможно, даже некоторый пересмотр роли лексических недостатков в понимании природы LI в более общем плане.
Благодарности
Я хотел бы поблагодарить Дороти Бишоп, Карлу МакГрегор, Боба МакМюррея и Каралин Паттерсон за их проницательные и полезные комментарии. Спасибо также Нику Куперу и Ниине Тамура за помощь в редактировании.
Примечания
1 В этой статье я использую термин LI, а не специфическое языковое нарушение (SLI), учитывая тот факт, что не во всех исследованиях проводится различие между специфическим и неспецифическим LI. Более того, языковые и невербальные навыки являются непрерывными и взаимосвязанными измерениями (см. Обсуждение в [1,2]).LI — не редкость: примерно 7% детей соответствуют критериям SLI [3], а многие другие имеют неспецифический LI или языковые трудности, связанные с другими состояниями развития, такими как аутизм или дислексия [4].
2 Интересная деталь, выделенная Бобом МакМюрреем: Харм и его коллеги [95,96] обнаружили, что скорость распада изменяется в Plaut et al . модель [94] хорошо согласуется с данными детей с дислексией развития, как и McMurray et al. совпадает между TRACE и данными из LI, как обсуждалось ранее.
Отчет о финансировании
Этот обзор был подготовлен при поддержке Nuffield Foundation.
Список литературы
1. Леонард Л.Б. 1991 г. Специфические языковые нарушения как клиническая категория. Lang. Речь Слушайте. Серв. Sch. 22, 66–68. [Google Scholar] 2. Томблин Дж. Б., Чжан Х. 1999 г. Являются ли дети с SLI уникальной группой изучающих язык? В расстройствах нервного развития: вклад в новую концепцию когнитивной нейробиологии (под ред.Тагер-Флусберг Х.), стр. 361–382. Кембридж, Массачусетс: MIT Press. [Google Scholar] 3. Томблин Дж. Б., Records NL, Баквалтер П., Чжан Икс, Смит Е., О’Брайен М. 1997 г. Распространенность специфических языковых нарушений у детей дошкольного возраста. J. Слушайте речи. Res. 40, 1245–1260. [Бесплатная статья PMC] [PubMed] [Google Scholar] 5. Хейнс С., Найду С. 1991 г. Дети со специфическими нарушениями речи и языка. Лондон, Великобритания: MacKeith Press. [Google Scholar] 6. Райс М. 2004 г. Модели роста нарушений развития языка. В Расстройства языка развития: от фенотипа к этиологии (ред. Райс М., Уоррен Ф.), стр. 207–240. Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс. [Google Scholar] 7. Стотхард С., Сноулинг М.Дж., Бишоп Д.В., Чипчейз ББ. 1998 г. Дошкольники с нарушением языка: наблюдение в подростковом возрасте. J. Speech Lang. Слышать. Res. 41, 407–418. [PubMed] [Google Scholar] 8. Грей С., Планте Э, Вэнс Р., Хенрихсен М. 1999 г. Диагностическая точность четырех словарных тестов, проводимых для детей дошкольного возраста. Lang. Речь Слушайте. Res. 30, 196–206. [PubMed] [Google Scholar] 9. МакГрегор К., Олесон Дж., Бансен А., Дафф Д.2013. Дети с нарушениями развития речи имеют дефицит словарного запаса, характеризующийся ограниченной широтой и глубиной. J. Lang. Commun. Disord. 48, 307–319. (10.1111 / 1460-6984.12008) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 10. Маринелли С., Джонсон К. 2002 г. Определяющие навыки у детей школьного возраста с определенными языковыми нарушениями. J. Commun. Disord. 35, 241–259. (10.1016 / S0021-9924 (02) 00056-4) [PubMed] [CrossRef] [Google Scholar] 11. Norbury CF. 2005 г. Лаять не на то дерево? Разрешение лексической неоднозначности у детей с языковыми нарушениями и расстройствами аутистического спектра.J. Exp. Child Psychol. 90, 142–171. (10.1016 / j.jecp.2004.11.003) [PubMed] [CrossRef] [Google Scholar] 12. Шэн Л., МакГрегор К. 2010 г. Лексико-семантическая организация у детей со специфическими языковыми нарушениями. J. Speech Lang. Слышать. Res. 53, 146–159. (10.1044 / 1092-4388 (2009 / 08-0160)) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 13. Грей С. 2003 г. Выучивание слов дошкольниками с определенными языковыми нарушениями: что предсказывает успех? J. Speech Lang. Слышать. Res. 46, 56–67. (10.1044 / 1092-4388 (2003/005)) [PubMed] [CrossRef] [Google Scholar] 14.Грей С. 2004 г. Изучение слов дошкольниками с определенными языковыми нарушениями: предикторы и плохо обучающиеся. J. Speech Lang. Слышать. Res. 47, 1117–1132. (10.1044 / 1092-4388 (2004/083)) [PubMed] [CrossRef] [Google Scholar] 15. Грей С. 2005 г. Изучение слов дошкольниками с определенными языковыми нарушениями: влияние фонологических или семантических сигналов. J. Speech Lang. Слышать. Res. 48, 1452–1467. (10.1044 / 1092-4388 (2005/101)) [PubMed] [CrossRef] [Google Scholar] 16. Кирнан Б., Грей С. 1998 г. Изучение слов в контексте поддерживаемого обучения детьми дошкольного возраста с определенными языковыми нарушениями.J. Speech Lang. Слышать. Res. 41, 161–171. [PubMed] [Google Scholar] 17. Dollaghan CA. 1987 г. Быстрое картирование у нормальных детей и детей с языковыми нарушениями. J. Слушайте речи. Disord. 52, 218–222. [PubMed] [Google Scholar] 18. Нэш М., Дональдсон М. 2005 г. Изучение слов у детей с дефицитом словарного запаса. J. Speech Lang. Слышать. Res. 48, 439–458. (10.1044 / 1092-4388 (2005/030)) [PubMed] [CrossRef] [Google Scholar] 19. Райс М., Бур Дж., Немет М. 1990 г. Быстрое отображение способностей к изучению слов дошкольников с задержкой языкового обучения.J. Слушайте речи. Disord. 55, 33–42. [PubMed] [Google Scholar] 20. Райс М., Бур Дж., Эттинг Дж. 1992 г. Быстрое случайное заучивание слов детьми со специфическими языковыми нарушениями: эффект паузы. J. Слушайте речи. Res. 35, 1040–1048. [PubMed] [Google Scholar] 21. Райс М., Эттинг Дж., Маркиз Дж., Боде Дж., Паэ С. 1994 г. Частота ввода влияет на понимание слов детьми с определенными языковыми нарушениями. J. Speech Lang. Слышать. Res. 37, 106–122. [PubMed] [Google Scholar] 22. Кан П., Виндзор Дж. 2010 г.Изучение слов у детей с нарушением основного языка: метаанализ. J. Speech Lang. Слышать. Res. 53, 739–756. (10.1044 / 1092-4388 (2009 / 08-0248)) [PubMed] [CrossRef] [Google Scholar] 23. Глейтман Л.Р., Глейтман Х. 1992 г. Картинка стоит тысячи слов, но проблема в том, что синтаксис играет роль в приобретении словарного запаса. Curr. Реж. Psychol. Sci. 1, 31–35. (10.1111 / 1467-8721.ep10767853) [CrossRef] [Google Scholar] 24. Фрауд К., ван дер Лели Х. 2008 г. Счетно-массовое различие у детей с типично развивающимися и грамматически специфическими языковыми нарушениями: новые данные о роли синтаксиса и семантики.J. Commun. Disord. 41, 274–303. (10.1016 / j.jcomdis.2007.11.001) [PubMed] [CrossRef] [Google Scholar] 25. О’Хара М., Джонстон Дж. 1997 г. Синтаксическая самозагрузка у детей с определенными языковыми нарушениями. Int. J. Lang. Commun. Disord. 32, 189–205. (10.3109 / 136828297003) [PubMed] [CrossRef] [Google Scholar] 26. Райс М., Клив П., Эттинг Дж. 2000 г. Использование синтаксических подсказок в овладении лексикой детьми с SLI. J. Speech Lang. Слышать. Res. 43, 582–594. [PubMed] [Google Scholar] 27. Gathercole S, Baddeley A.1990 г. Нарушения фонологической памяти у детей с языковыми расстройствами: есть ли причинно-следственная связь? J. Mem. Lang. 29, 336–360. (10.1016 / 0749-596X (90)-J) [CrossRef] [Google Scholar] 28. Леонард Л. и др. 1982 г. Раннее овладение лексикой у детей со специфическими языковыми нарушениями. J. Speech Lang. Слышать. Res. 25, 554–564. [PubMed] [Google Scholar] 29. Эллис Вайсмер С., Хескет Л. 1996 г. Лексическое обучение детьми с определенными языковыми нарушениями: эффекты языкового ввода, представленные с разной скоростью речи.J. Speech Lang. Слышать. Res. 39, 177–190. [PubMed] [Google Scholar] 30. Мелби-Лерваг М., Лерваг А., Листер С.-АХ, Хагвет Б., Халм К. 2012 г. Способность без повторения слов, по-видимому, не оказывает причинного влияния на развитие словарного запаса детей. Psychol. Sci. 23, 1092–1098. (10.1177 / 0956797612443833) [PubMed] [CrossRef] [Google Scholar] 31. Гупта П., Тисдейл Дж. 2009 г. Определяет ли фонологическая кратковременная память причинно-следственная связь при изучении словарного запаса? К вычислительному разрешению дискуссии. J. Mem. Lang.61, 481–502. (10.1016 / j.jml.2009.08.001) [CrossRef] [Google Scholar] 32. Ульман М., Пирпон Э. 2005 г. Специфические языковые нарушения не являются специфическими для языка: гипотеза процедурного дефицита. Кора 41, 399–433. (10.1016 / S0010-9452 (08) 70276-4) [PubMed] [CrossRef] [Google Scholar] 33. Лум Дж., Гельгик К., Конти-Рамсден Дж. 2010 г. Процессуальная и декларативная память у детей со специфическими языковыми нарушениями и без них. Int. J. Lang. Commun. Disord. 45, 96–107. (10.3109 / 13682820
2285) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 34.Томблин Дж. Б., Майнела-Арнольд Э, Чжан Х. 2007 г. Процедурное обучение подростков со специфическими языковыми нарушениями и без них. Lang. Учиться. Dev. 3, 269–293. (10.1080 / 15475440701377477) [CrossRef] [Google Scholar] 35. Hedenius M, et al. 2011 г. Грамматика прогнозирует нарушения процедурного обучения и закрепления у детей с определенными языковыми нарушениями. Res. Dev Disabil. 32, 2362–2375. (10.1016 / j.ridd.2011.07.026) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 36. Саффран Дж., Эслин Р., Ньюпорт Э.1996 г. Статистическое обучение 8-месячных младенцев. Наука 274, 1926–1928. (10.1126 / science.274.5294.1926) [PubMed] [CrossRef] [Google Scholar] 37. Хэй Дж., Пелуччи Б., Эстес К., Сафран Дж. 2011 г. Связывание звуков со значениями: статистическое обучение младенцев на естественном языке. Cogn. Psychol. 63, 93–106. (10.1016 / j.cogpsych.2011.06.002) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 38. Граф Эстес К., Эванс Дж. Л., Алибали М. В., Саффран Дж. Р. 2007 г. Могут ли младенцы отображать значение новых сегментированных слов? Статистическая сегментация и изучение слов.Psychol. Sci. 18, 254–260. (10.1111 / j.1467-9280.2007.01885.x) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 41. Эванс Дж., Саффран Дж., Роб-Торрес К. 2009 г. Статистическое обучение детей с определенными языковыми нарушениями. J. Speech Lang. Слышать. Res. 52, 321–335. (10.1044 / 1092-4388 (2009 / 07-0189)) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 42. МакМюррей Б., Хорст Дж., Самуэльсон Л. 2012 г. Обучение слов происходит в результате взаимодействия онлайн-выбора референта и медленного ассоциативного обучения.Psychol. Ред. 119, 831–877. (10.1037 / a0029872) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 43. Самуэльсон Л.К. 2002 г. Статистические закономерности в овладении языком словаря у коннекционистских моделей и у детей в возрасте 15–20 месяцев. Dev. Psychol. 38, 1016–1037. (10.1037 / 0012-1649.38.6.1016) [PubMed] [CrossRef] [Google Scholar] 44. Смит Л.Б., Ю. К. 2008 г. Младенцы быстро изучают сопоставление слов с референтами с помощью кросс-ситуационной статистики. Познание 106, 1558–1158. (10.1016 / j.cognition.2007.06.010) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 45.Yu C, Smith LB. 2007 г. Быстрое изучение слов в условиях неопределенности с помощью кросс-ситуационной статистики. Psychol. Sci. 18, 414–420. (10.1111 / j.1467-9280.2007.01915.x) [PubMed] [CrossRef] [Google Scholar] 46. Сюй Х., епископ Д. 2011 г. Грамматические трудности у детей с определенными языковыми нарушениями: плохо ли учатся? Гм. Dev. 53, 264–277. (10.1159 / 000321289) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 47. Перрюше П., Пактон С. 2006 г. Неявное обучение и статистическое обучение: одно явление, два подхода.Trends Cogn. Sci. 10, 233–238. (10.1016 / j.tics.2006.03.006) [PubMed] [CrossRef] [Google Scholar] 48. Дахан Д., Магнусон Дж. 2006 г. Распознавание устного слова. В Справочнике по психолингвистике (ред. Тракслер М., Гернсбахер М.А.), стр. 249–283. Амстердам, Нидерланды: Academic Press. [Google Scholar] 49. Маккуин Дж. 2007 г. Восемь вопросов о распознавании устного слова. В Оксфордском справочнике по психолингвистике (изд. Gaskell GM.), Стр. 37–53. Оксфорд, Великобритания: Издательство Оксфордского университета. [Google Scholar] 50. МакМюррей Б., Самуэльсон В., Ли С., Томблин Дж.2010 г. Движение глаз показывает динамику развития речи в режиме онлайн у людей с нарушениями языка и нормальных подростков. Cogn. Psychol. 60, 1–39. (10.1016 / j.cogpsych.2009.06.003) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 53. Хендерсон Л., Вейгхолл А., Браун Х., Гаскелл Г. 2013. Лексическая онлайн-конкуренция при распознавании устных слов и заучивании слов у детей и взрослых. Child Dev. 84, 1668–1685. (10.1111 / cdev.12067) [PubMed] [CrossRef] [Google Scholar] 54. Хуанг Ю.Т., Снедекер Дж. 2011 г.Каскадная активация по уровням репрезентации в лексической обработке детей. J. Child Lang. 38, 644–661. (10.1017 / S0305000
0206) [PubMed] [CrossRef] [Google Scholar] 55. Купер Р. 1974 г. Контроль фиксации взгляда с помощью значения разговорной речи: новая методология исследования восприятия речи, памяти и языка в реальном времени. Cogn. Psychol. 6, 84–107. (10.1016 / 0010-0285 (74)-X) [CrossRef] [Google Scholar] 56. Таненхаус МК, Спайви-Ноултон MJ, Эберхард KM, Sedivy JC.1995 г. Интеграция визуальной и лингвистической информации при понимании устной речи. Наука 16, 1632–1634. (10.1126 / science.7777863) [PubMed] [CrossRef] [Google Scholar] 57. Нация К. 2009 г. Использование движений глаз для исследования языковых нарушений, связанных с развитием. В «Понимании нарушений развития языка» (редакторы Norbury CF, Tomblin JB, Bishop DVM.), Стр. 39–52. Хоув, Великобритания: Psychology Press. [Google Scholar] 58. Макклелланд Дж., Элман Дж. 1986 г. Модель восприятия речи TRACE. Cogn. Psychol. 18, 1–86.(10.1016 / 0010-0285 (86) -0) [PubMed] [CrossRef] [Google Scholar] 59. Мансон С., МакМюррей Б., Томблин Дж. Б. Поданный. Индивидуальные различия в речевых результатах связаны с вариациями в распознавании слов, а не с восприятием речи: данные по движениям глаз. [Бесплатная статья PMC] [PubMed] [Google Scholar] 60. МакМюррей Б., Таненхаус М., Эслин Р. 2002 г. Градиентное влияние фонетической вариации внутри категории на лексический доступ. Познание 86, 33–42. (10.1016 / S0010-0277 (02) 00157-9) [PubMed] [CrossRef] [Google Scholar] 61.Дахан Д., Таненхаус М. 2004 г. Непрерывное отображение звука в значение в понимании устной речи: немедленные эффекты тематических ограничений, связанных с глаголами. J. Exp. Psychol. Учиться. Mem. Cogn. 30, 498–513. (10.1037 / 0278-7393.30.2.498) [PubMed] [CrossRef] [Google Scholar] 62. Брок Дж., Нэйшн К. Под давлением. Сложнее всего застегнуть на кнопку: мгновенные контекстные эффекты при распознавании устных слов. Q. J. Exp. Psychol. [PubMed] [Google Scholar] 63. Брок Дж., Норбери К., Эйнав С., Нейшн К. 2008 г. Обрабатывают ли люди с аутизмом слова в контексте? Свидетельства движений глаз, опосредованных языком.Познание 108, 896–904. (10.1016 / j.cognition.2008.06.007) [PubMed] [CrossRef] [Google Scholar] 64. Йи Э., Седиви Дж. 2006 г. Движение глаз к картинкам показывает временную семантическую активацию во время распознавания устных слов. J. Exp. Psychol. Учиться. Mem. Cogn. 32, 1–14. (10.1037 / 0278-7393.32.1.1) [PubMed] [CrossRef] [Google Scholar] 65. Барнс М., Фолкнер Х., Уилкинсон М., Деннис М. 2004 г. Значение конструирования и интеграции у детей с гидроцефалией. Brain Lang. 89, 47–56. (10.1016 / S0093-934X (03) 00295-5) [PubMed] [CrossRef] [Google Scholar] 66.Гернсбахер М, Фауст М. 1991 г. Механизм подавления: компонент общего навыка понимания. J. Exp. Psychol. Учиться. Mem. Cogn. 17, 245–262. (10.1037 / 0278-7393.17.2.245) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 67. Хендерсон Л.М., Сноулинг М.Дж., Кларк П. 2013. Доступ, интеграция и подавление значения слов у плохо понимающих. Sci. Stud. Читать. 17, 177–198. (10.1080 / 10888438.2011.652721) [CrossRef] [Google Scholar] 68. Доллаган К. 1998 г. Распознавание разговорных слов у детей с определенными языковыми нарушениями и без них.Прил. Психолингвистика 19, 193–207. (10.1017 / S0142716400010031) [CrossRef] [Google Scholar] 69. Монтгомери Дж. 2002 г. Изучение природы лексической обработки у детей с определенными языковыми нарушениями: временная обработка или дефицит способности обработки? Прил. Психолингвистика 23, 447–470. (10.1017 / S0142716402003077) [CrossRef] [Google Scholar] 70. Старк Р. Э., Монтгомери Дж. 1995 г. Обработка предложений у детей с нарушением речи в условиях фильтрации и сжатия времени. Прил. Психолингвистика 16, 137–164.(10.1017 / S0142716400007050) [CrossRef] [Google Scholar] 71. Майнела-Арнольд Э., Эванс Дж., Коуди Дж. 2008 г. Лексические представления у детей с SLI: данные из задачи стробирования с частотной манипуляцией. J. Speech Lang. Слышать. Res. 51, 381–393. (10.1044 / 1092-4388 (2008/028)) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 72. Майнела-Арнольд Э., Эванс Дж., Коуди Дж. 2010 г. Объяснение лексико-семантического дефицита при определенных языковых нарушениях: роль фонологического сходства, фонологической рабочей памяти и лексической конкуренции.J. Speech Lang. Слышать. Res. 53, 1742–1756. (10.1044 / 1092-4388 (2010 / 08-0198)) [Бесплатная статья PMC] [PubMed] [CrossRef] [Google Scholar] 73. Стокс SF. 2010 г. Плотность соседства и частота слов позволяют прогнозировать размер словарного запаса у детей ясельного возраста. J. Speech Lang. Слышать. Res. 53, 670–683. (10.1044 / 1092-4388 (2009 / 08-0254)) [PubMed] [CrossRef] [Google Scholar] 74. Гаскелл М, Дюмей Н. 2003 г. Лексическая конкуренция и усвоение новых слов. Познание 89, 105–132. (10.1016 / S0010-0277 (03) 00070-2) [PubMed] [CrossRef] [Google Scholar] 75.МакГрегор К., Ликандро Ю., Аренас Р., Иден Н., Стайлз Д., Бин А., Уокер Э. Под давлением. Почему взрослым с нарушениями развития языка трудно выучить слова . J. Speech Lang. Слышать. Res. [Бесплатная статья PMC] [PubMed] [Google Scholar] 76. Макдональд М., Перлмуттер, штат Нью-Джерси, Зайденберг, М. 1994 г. Лексическая природа разрешения синтаксической неоднозначности. Psychol. Ред. 101, 676–703. (10.1037 / 0033-295X.101.4.676) [PubMed] [CrossRef] [Google Scholar] 77. Бейтс Э, Гудман Дж. 1997 г. О нераздельности грамматики и лексики: свидетельства усвоения, афазия и обработка в реальном времени.Lang. Cogn. Процесс. 12, 507–584. (10.1080 / 016
(PDF) Глагол Дене: как фонетика поддерживает морфологию
Halle, M. и Marantz, A. (1993). Распределенная морфология и кусочки перегиба. In Hale,
K. и Keyser, S.J., редакторы, The View from Building 20: Essays in Linguistics in Honor of
Sylvain Bromberger, volume 24 of Current Studies in Linguistics, pages 111–176.MIT Press,
Кембридж, Массачусетс
Харди, Франк (1985) Псевдо-суффиксы и оптативное предсказание формы ствола в навахо, International
Journal of American Linguistics 51.435-438.
Харгус, Шарон (1986) Фонологические доказательства префиксации в глагольной морфологии навахо
, Труды конференции Западного побережья по формальной лингвистике 5.53-67.
Кари, Джеймс. (1992). Некоторые понятия в словообразовании Ахтна атабасков.В морфологии
Now, ed. Марка Аронова; Серия SUNY по лингвистике, SUNY Press, стр. 107–133.
Кэри, Джеймс (1989). Позиции и зоны аффиксов в комплексе атабаскских глаголов: Ахтна и
Навахо. Международный журнал американской лингвистики 55: 424 455
Кари, Джеймс. (1976). Фонология префикса глагола навахо. Нью-Йорк: издательство Garland Publishing Company.
Kostic ́, A., Markovic ́, T., and Baucal, A. (2003). Флективная морфология и значение слова:
Ортогональные или косвенные домены? В Баайене Р.Х. и Шредер Р., редакторы,
Морфологическая структура в языковой обработке, страницы 1–44. Мутон де Грюйтер, Берлин.
Куперман В., Бертрам Р. и Баайен Р. Х. (2008). Морфологическая динамика в обработке соединения
. рукопись представлена для публикации, Radboud University Nijmegen: 1–37.
McDonough, J. (2010) Интерфейс морфологии / фонологии в глаголе дене. Семинар по интерфейсу
между синтаксисом и фонологией / морфологией, приглашенный доклад, Сиракузский университет.
McDonough, J. (2003) Звуковая система навахо. Kluwer Academic Press.
МакДонаф, Дж. (2001) «Включение приступов в навахо: d-эффект», Документы в честь Кена
Хейла, изд. Карни, Елинек и Вилли, Рабочие документы Массачусетского технологического института по лингвистике: 177-88.
Макдонаф, Дж. (2000a) «О двудольной модели атабаскского глагола» Атабаскский
Языки: взгляд на языковую семью коренных американцев. Т. Б. Фернальд и П.R.
Platero. Oxford University Press: 139-166.
McDonough, J. (2000b) «Athabaskan redux: Против класса положения как морфологической категории
», в Morphological Analysis in Comparison под редакцией Дресслера, Пфайффера, Похтрагера
и Реннисона. Амстердам: Джон Бенджаминс: 155-78
McDonough, J. 1996. Epenthesis in Navajo. В Athabaskan Papers for Robert Young, eds. Елинек,
Рис и Саксон. Альбукерке: Издательство Университета Нью-Мексико.
МакДонаф, Дж., Мэри Уилли (2000) «Допустимая изменчивость: предварительное исследование распознавания слова
в навахо», Рабочие документы Рочестерского университета по языковедению
(WPLS: UR), том. Весна 00-1: 1-23
Милин П., Куперман В., Костич А. и Баайен Р. Х. (2010). Слова и парадигмы по крупицам:
Теоретико-информационный подход к обработке флексии и деривации. В J.P.
Блевинс и Дж. Блевинс (ред.), Аналогия в грамматике: форма и приобретение. Оксфордский университет
Press: Oxford.
Фонетически-обогащенное представление текста для анализа настроений китайского языка с обучением с подкреплением — arXiv Vanity
Аннотация
Китайская система произношения предлагает две характеристики, которые отличают ее от других языков: глубокая фонематическая орфография и интонационные вариации. Мы первые утверждаем, что эти два важных свойства могут играть важную роль в анализе настроений в Китае.В частности, мы предлагаем две эффективных функции для кодирования фонетической информации. Затем мы разрабатываем сеть устранения неоднозначности для анализа настроений (DISA), используя сеть подкрепления. Он функционирует как устранение неоднозначности интонаций для каждого китайского иероглифа (пиньинь). Таким образом изучается точное фонетическое представление китайского языка. Кроме того, мы также объединяем фонетические функции с текстовыми и визуальными функциями, чтобы имитировать то, как люди читают и понимают китайский текст. Экспериментальные результаты по пяти различным наборам данных анализа тональности китайского языка показывают, что включение фонетических функций значительно и последовательно улучшает производительность текстовых и визуальных представлений и затмевает современные представления на уровне китайских иероглифов.
Введение
В последние годы анализ настроений становится все более популярным для обработки данных социальных сетей об онлайн-сообществах, блогах, вики-сайтах, платформах микроблогов и других интерактивных средах для совместной работы [1] . Анализ тональности — это ветвь исследования аффективных вычислений [2, 3] , цель которого — классифицировать текст — но иногда также аудио и видео [4, 5] — на положительные или отрицательные, но иногда и на нейтральные [6] .Методы анализа тональности можно в широком смысле разделить на символические и субсимвольные: первые включают использование лексиконов [7] , онтологий [8] и семантических сетей [9] для кодирования полярности, связанной со словами. и многословные выражения; последние состоят из контролируемых [10] , полууправляемых [11] и неконтролируемых [12] методов машинного обучения, которые выполняют классификацию тональности на основе частот совместной встречаемости слов.Также существует несколько гибридных подходов [13, 14] , которые используют совокупность символических и субсимвольных методов для обнаружения полярности.
В то время как в большей части литературы проблема рассматривается в независимом от языка подходе, китайский анализ тональности фактически требует решения языковых проблем из-за его уникальной природы, включая сегментацию слов [15] , композиционный анализ [16, 17, 18, 19, 20] . Китайский язык отличается от других языков двумя основными характеристиками.Во-первых, это пиктограмма , , язык, [21], , что означает, что символы (называемые Hanzi) сами по себе несут значения. Несколько символов могут образовывать новый единый символ посредством геометрической композиции. Иероглифическая природа китайской письменности отличается от многих индоевропейских языков, таких как английский или немецкий. Поэтому он вдохновил множество работ на изучение компонентов подслов (таких как китайский иероглиф и китайские радикалы) с помощью текстового подхода [19, 22, 16, 17, 18, 20] .Другое направление исследований моделирует композиционность с использованием визуального присутствия символов [23, 24] посредством извлечения визуальных характеристик из растровых изображений китайских иероглифов для дальнейшего улучшения вложения китайских текстовых слов.
Вторая характеристика китайского языка заключается в том, что это язык глубокой фонематической орфографии в соответствии с гипотезой орфографической глубины [25, 26] . Другими словами, трудно поддерживать распознавание слов с использованием языковой фонологии.Каждый символ современного китайского языка может быть фонетически преобразован в романизированную форму, называемую пиньинь, состоящую из начального (необязательного), конечного и тона. В частности, в качестве тонального языка один единственный слог в современном китайском языке может произноситься пятью разными тонами, то есть 4 основными тонами и 1 нейтральным тоном (показано далее в Таблице V). Мы утверждаем, что эта конкретная форма китайского языка предоставляет семантические подсказки, дополняющие его текстовую форму, как показано в Таблице I. Несмотря на ее важную роль в китайском языке, насколько нам известно, она еще не исследовалась в существующих работах для НЛП. задачи китайского языка.
В этой работе мы утверждаем, что второй фактор китайского языка может играть жизненно важную роль в обработке китайского естественного языка, особенно в анализе тональности. В частности, чтобы учесть глубокую фонематическую орфографию и интонационное разнообразие китайского языка, мы предлагаем два шага для изучения китайской фонетической информации.
ТАБЛИЦА I: Примеры интонаций, изменяющих значение и настроение.
Во-первых, мы придумываем два типа фонетических признаков. Первый тип извлекал звуковые характеристики из реальных аудиоклипов.Второй тип изучил вложения токенов пиньинь из преобразованного корпуса пиньинь. Для каждого типа материала мы предоставляем одну версию с интонацией и одну версию без интонации.
После создания таблицы поиска функций между каждым китайским пиньинь и его характеристикой / внедрением, мы достигаем второго шага, который заключается в разработке сети DISA, которая работает с последовательностью пиньинь и автоматически определяет правильную интонацию для каждого пиньинь. Этот шаг имеет решающее значение для устранения неоднозначности значений и даже настроения китайских иероглифов.В частности, вдохновленные [27] , мы используем сеть усиления в качестве основной структуры для нашей сети DISA. Акторная сеть — это типичная нейронная политическая сеть, действие которой заключается в выборе одной из пяти интонаций для каждого пиньинь. Сеть критиков — это модель последовательности LSTM, которая изучает представление последовательности предложений пиньинь. Сеть политик обновляется отложенным вознаграждением при построении представления последовательности, в то время как сеть критиков обновляется потерями кросс-энтропии класса тональности.
Вдохновленные недавним успехом мультимодального обучения, мы также объединяем текстовые и визуальные функции с фонетическими. Насколько нам известно, мы первыми рассмотрели глубинную фонематическую орфографическую характеристику и интонационные вариации в мультимодальной структуре для задачи анализа настроений в китайском языке. Результаты экспериментов показывают, что предлагаемая мультимодальная структура превосходит современный метод анализа настроений в Китае со статистически значимым отрывом.Таким образом, мы делаем три основных вклада в этот документ:
Мы дополняем представление китайских иероглифов дополнительными фонетическими подсказками.
Мы представляем структуру, основанную на обучении с подкреплением, DISA, которая совместно устраняет неоднозначность интонаций китайских иероглифов и определяет классы полярности настроений в предложении.
Мы демонстрируем эффективность нашей структуры на нескольких тестовых наборах данных.
Остальная часть статьи организована следующим образом: сначала мы представляем краткий обзор функций встраивания, анализа тональности и китайской фонетики; Затем мы представляем нашу модель и предоставляем технические детали; Затем мы описываем экспериментальные результаты и представляем аналитические обсуждения; наконец, мы завершаем работу и предлагаем дальнейшую работу.
II Связанные работы
Начнем с краткого обзора методов встраивания текста. Затем мы анализируем существующие китайские представления, которые включали как текстовые вложения, так и вложения с визуальной поддержкой.Далее мы кратко рассмотрим анализ настроений и китайскую фонетику.
Ii-a Общее вложение
Одноразовое представление — это метод начального числового представления слова в НЛП. Однако обычно это приводит к проблеме большой размерности и разреженности. Для решения этой проблемы предлагается распределенное представление (или встраивание слов) [28] . Встраивание слов — это представление, которое отображает слова в малоразмерные векторы действительных чисел с помощью нейронных сетей.Ключевая идея основана на гипотезе распределения, чтобы смоделировать, как представлять контекстные слова и отношения между контекстными словами и целевым словом.
В 2013 г. Миколов и др. [29] представила как модель непрерывного мешка слов (CBOW), так и модель скип-граммы. Первый поместил контекстные слова во входной слой и целевое слово в выходной слой, тогда как второй поменял местами вход и выход в CBOW. В 2014 году Pennington et al. [29] создал вложения «GloVe».В отличие от предыдущего, который изучал вложения путем минимизации потерь прогнозирования, GloVe изучил вложения с помощью методов уменьшения размерности на матрице счетчиков совместной встречаемости.
Ii-B Китайское представительство
Китайский текст отличается от английского текста двумя ключевыми аспектами: он не имеет словарных сегментов и имеет характерную композицию из-за своей пиктограммной природы. Основываясь на первом аспекте, перед текстовым представлением всегда используются инструменты сегментации слов, такие как ICTCLAS [30] , THULAC [31] , Jieba и так далее.Основываясь на последнем аспекте, несколько работ были сосредоточены на использовании компонентов вложенных слов (таких как символы и радикалы) для улучшения встраивания слов. [22] предложил разложение китайских слов на символы и представил модель встраивания слов с расширенными символами (CWE). [16, 17] разложил китайские иероглифы на радикалы и разработал радикально улучшенное встраивание китайских иероглифов. В [18] чистые радикальные вложения были обучены категоризации короткого текста, сегментации китайских слов и ранжированию в веб-поиске. [19] расширяет чистое радикальное вложение, вводя китайские вложения слов с множественной гранулярностью.
Мультимодальное представление в последние несколько лет стало растущей областью исследований. [24] и [23] исследовали интеграцию визуальных функций в текстовые вложения слов. Извлеченные визуальные элементы оказались эффективными при моделировании композиционности китайских иероглифов.
Анализ тональности Ii-C и китайская фонетика
Анализ настроений вызвал растущий интерес как в научном сообществе, что привело к множеству захватывающих открытых проблем, так и в деловом мире благодаря замечательным преимуществам, которые можно получить от финансового [32] и политического [33] прогнозирование, профилирование пользователей [34] и обнаружение сообщества [35] , приложения для производства и цепочки поставок [36] , понимание человеческого общения [37] и диалоговые системы [38] и т. д.В последние несколько лет активно изучались различные направления, от уровня документа [39, 40] , до уровня предложения [41, 42] и до уровня аспекта [43, 44] . Большинство методов были направлены на разработку эффективных моделей для широкого спектра языков. Лишь ограниченное количество работ посвящено изучению языковых характеристик [17, 23, 45] . Среди них почти нет литературы, пытающейся использовать фонетическую информацию для китайского представления.Мы, однако, считаем, что фонетическая информация на китайском языке может иметь большое значение для представления и анализа тональности китайского языка, благодаря, но не ограничиваясь следующими данными.
Шу и Андерсон провели исследование китайской фонетической осведомленности в [46] . В исследовании приняли участие 113 китайских учеников 2, 4 и 6 классов, обучающихся в начальной школе рабочего класса в Пекине, Китай. Их задачей было представить произношение 60 семантических фонетических составных символов.Результаты показали, что дети 2-го класса лучше способны воспроизводить произношение обычных символов, чем неправильные символы или символы со связанной фонетикой.
Сильное влияние знакомства на произношение подчеркивает неизбежный факт о китайской системе письма: система не предлагает звуковые подсказки, которые были бы столь же надежными или последовательными, как у многих других систем письма, таких как английский [47] . Более того, Сяо и Шиллкок утверждали, что семантико-фонетическое соединение (или фонетическое соединение) составляет около 81% из 7000 часто используемых китайских иероглифов [48] .Эти соединения сильно повлияли бы на семантику, если бы мы смогли найти подход для эффективного представления их фонетической информации.
С этой целью ни одна из предыдущих работ не включала информацию о произношении в китайское представление. Мы считаем, что из-за глубокого фонематического орфографии китайское произношение может поднять репрезентации на более высокий уровень. Таким образом, мы предлагаем изучить фонетические особенности и представить сеть DISA для автоматического преобразования китайского иероглифа в его пиньинь с правильной интонацией.
Модель III
В этом разделе мы сначала представляем, как были извлечены функции из текстовых и визуальных модальностей. Затем мы углубимся в детали различных типов фонетических функций. Затем мы представляем сеть DISA, которая разбирает китайские иероглифы на их произношение с помощью тонов. Наконец, мы продемонстрируем, как мы объединяем функции из трех модальностей для анализа настроений.
Iii-a Текстовое вложение
Как и в самой последней литературе, векторы встраивания текстовых слов рассматривались как фундаментальное представление текстов [29, 28, 49] .Впервые представил Bengio et al. [28] , векторы внедрения слов низкой размерности изучили распределенное представление для слов. По сравнению с традиционными представлениями слов n-грамм, они в значительной степени уменьшили проблему разреженности данных и обеспечили более удобный доступ к нейронным сетям. В 2013 году Миколов и соавт. [29] представил инструментарий Word2Vec, который заполнил приложение векторов встраивания слов из-за быстрого времени обучения. В наборе инструментов были предложены два вектора слов на основе прогнозирования: CBOW и Skip-gram.Они либо предсказывали целевое слово из контекста, либо наоборот. Pennington et al. [49] разработал «GloVe» в 2014 году, в котором использовался механизм на основе подсчета для встраивания векторов слов. Следуя соглашению, мы использовали вложения символов «GloVe» [49] 128-размерного размера для представления текста.
Стоит отметить, что мы устанавливаем основной токен китайского текста как символ вместо слова по двум причинам. Во-первых, персонаж разработан таким образом, чтобы соответствовать звуковой функции.Аудио особенности могут быть извлечены только на уровне символа, поскольку китайское произношение есть на каждом символе. В китайском языке основная фонетическая единица, которая семантически самодостаточна, находится на уровне символа. Однако в английском языке основная фонетическая единица находится на уровне слова (за исключением некоторых префиксных / суффиксных слогов). Во-вторых, обработка на уровне символов может избежать ошибок, вызванных сегментацией китайских слов. Хотя мы использовали встраивание символов GloVe как текстовое встраивание, экспериментальные сравнения были проведены как с CBOW [29] , так и с встраиванием Skip-gram.
Iii-B Визуальные возможности обучения
В отличие от латинского языка, китайская письменность возникла из пиктограмм. Впоследствии простые символы были объединены в сложные символы, чтобы выразить абстрактные значения. Например, геометрическая комбинация трех ‘木 (дерево)’ создает новый символ ‘森 (лес)’. Это явление порождает композиционную характеристику китайского текста. Вместо прямого моделирования текстовой композиционности с использованием вложенного слова [22, 19] или вложенного символа [17, 16, 20] элементов, мы выбираем визуальную модель.В частности, мы создали сверточный автокодировщик (convAE) для извлечения визуальных функций. Подробная информация о convAE приведена в Таблице II.
ТАБЛИЦА II: Конфигурация convAE для извлечения визуальных признаков.Следуя соглашениям в [50] и [23] , мы устанавливаем на входе модели битовую карту 60 на 60 для каждого из китайских символов, а на выходе модели — плотный вектор с размерностью 512. Модель была обучена с помощью оптимизатора Adagrad на ошибке восстановления между исходным растровым изображением и восстановленным растровым изображением.Убыток рассчитывается как:
L∑j = 1 (| xt − xr | + (xt − xr) 2) | (1) |
где L — количество отсчетов. xt — исходное входное растровое изображение, а xr — восстановленное выходное растровое изображение. Пример исходного и восстановленного растровых изображений показан на рисунке 1. После обучения визуальным особенностям мы получили справочную таблицу, в которой каждый китайский символ соответствует 512-мерному вектору признаков.
Рис. 1: Исходные входные растровые изображения (верхняя строка) и восстановленные выходные растровые изображения (нижняя строка).Iii-C изучение фонетических функций
Письменный китайский и разговорный китайский имеют несколько фундаментальных различий. Насколько нам известно, вся предыдущая литература, посвященная китайскому НЛП, игнорировала значение аудиоканала. Как предполагает когнитивная наука, человеческое общение зависит не только от визуального распознавания, но и от звуковой активации. Это побудило нас изучить взаимное влияние звукового канала (произношения) и текстового представления.
Популярные латинские и германские языки, такие как испанский, португальский, английский и т. Д.разделяют две замечательные характеристики. Во-первых, у них неглубокая фонематическая орфография. Другими словами, произношение слова во многом зависит от состава текста на таких языках. Можно почти сделать вывод о произношении слова по его текстовому написанию. С этой точки зрения текстовая информация может быть взаимозаменяемой с фонетической информацией.
Например, если бы было известно произношение английских слов «subject» и «marineland», нетрудно предположить произношение слова «submarine», потому что можно комбинировать произношение «sub» из «subject» и « морской »из« Маринленд ».Это означает, что фонетическая информация этих языков может не иметь дополнительной информационной энтропии, чем текстовая информация. Во-вторых, интонационная информация в этих языках ограничена и подразумевается. Вообще говоря, акцент, восходящая интонация и нисходящая интонация являются основными вариациями в этих языках. Хотя они оказали большое влияние на полярность настроений во время общения, нет очевидного ключа к выводу такой информации только из текстов.
Однако китайский язык отличается от вышеупомянутых языков по нескольким ключевым аспектам.Во-первых, это язык глубокой фонематической орфографии. Трудно сделать вывод о произношении китайского слова / символа по его текстовому написанию. Например, символы «日» и «月» произносятся как «rì» и «yuè» соответственно. Комбинация этих двух символов образует еще один символ «», который произносится как «míng». Эта характеристика побуждает нас выяснить, как произношение китайского может повлиять на понимание естественного языка. Во-вторых, интонационная информация китайского языка богата и понятна.В дополнение к ударению, каждый китайский иероглиф имеет один тон (из пяти разных тонов), явно отмеченный диакритическими знаками. Эти интонации (тона) сильно влияют на семантику и тональность китайских иероглифов и слов. Примеры приведены в таблице I.
С этой целью мы обнаружили, что было нетривиальным исследовать, как китайское произношение может влиять на понимание естественного языка, особенно на анализ тональности. В частности, мы разработали два подхода к изучению фонетической информации, а именно: извлечение признаков из аудиосигнала и встраивание векторного обучения из текстового корпуса.Для любого из двух вышеупомянутых подходов у нас есть два варианта, а именно с интонациями (Ex04, PW) или без (Ex0, PO). Иллюстрация приведена в Таблице III. Подробная информация о каждом типе будет представлена в следующих разделах.
Текст | 假设 明天 放假。 | |
Английский | Предположим, завтра выходной. | |
Пиньинь | Jiǎ Shè Míng Tiān Fàng Jià | |
Ex0 | a (Jia) a (She) a (Ming) a (Tian) a (Fang) a (Jia) | |
Ex04 | a (Jiǎ) a (Shè) a (Míng) a (Tiān) a (Fàng) a (Jià) | |
PO | v (Цзя) v (She) v (Ming) v (Tian) v (Fang) v (Jia) | |
PW | v (Jia3) v (She4) v (Ming2) v (Tian1) v (Fang4) v (Jia4) |
Iii-C1 Функция извлечена из аудиоклипов (Ex0, Ex04)
Разговорная система современного китайского языка называется «Ханью пиньинь», сокращенно «пиньинь». Это официальная система латинизации для мандарина в материковом Китае [51] . Система включает четыре диакритических знака, обозначающих четыре разных тона плюс один нейтральный тон. Каждому из китайских иероглифов соответствует один пиньинь. Этот пиньинь имеет пять вариаций тонов (мы рассматриваем нейтральный тон как один особый тон).Статистика китайского иероглифа и пиньинь приведена в Таблице IV. Это показывает, что количество часто используемых символов больше, чем количество пиньинов с тонами или без них. Это говорит о том, что некоторые китайские иероглифы имеют один и тот же пиньинь, и, кроме того, подразумевает, что однозначная размерность уменьшится, если пиньинь использовался для представления текста.
Чтобы извлечь фонетические особенности для каждого тона каждого пиньинь, мы собрали аудиоклип, в котором записано женское произношение этого пиньинь (с тоном) из ресурса по изучению языка.Каждый аудиоклип длится около одной секунды со стандартным произношением одного пиньинь с тоном. Качество этих клипов было подтверждено двумя носителями языка. Затем мы использовали openSMILE [52] для извлечения фонетических характеристик из каждого полученного аудиоклипа в пиньинь. Аудио функции извлекаются с частотой кадров 30 Гц и скользящим окном 20 мс. Они состоят из всего 39 дескрипторов низкого уровня (LLD) и их статистики, например, MFCC, среднего квадратичного корня и т. Д.
ТАБЛИЦА IV: Статистика китайских иероглифов и «Ханью Пиньинь»После получения характеристик для каждого клипа в стиле пиньинь мы получили размерную матрицу m × 39 для каждого клипа, где m зависит от длины клипа, а 39 — это количество функций.Чтобы отрегулировать представление функции для каждого клипа, мы провели декомпозицию по сингулярным значениям (SVD) для матриц, чтобы уменьшить их до 39-мерных векторов, где мы извлекли вектор с сингулярными значениями. В конце концов, высокоразмерные матрицы признаков каждого клипа пиньинь были преобразованы в плотный вектор признаков из 39 измерений. Соответственно строится таблица поиска между пиньин и вектором звуковых характеристик.
В частности, мы подготовили два набора извлеченных фонетических признаков.Первый тип имеет тон, который мы получили в результате вышеупомянутой обработки. Мы обозначаем его как Ex04, где «Ex» обозначает извлеченные признаки, а «04» обозначает наличие одного тона от 0 до 4 (мы представляем нейтральный тон как 0, а с первого по четвертый тоны как от 1 до 4 соответственно). Второй тип удалил вариации тонов, в которых мы берем среднее арифметическое пяти характеристик из пяти тонов каждого пиньинь. Обозначим его как Ex0, где «0» означает отсутствие тона. Во втором типе функции пиньины с разными тонами будут иметь одинаковые фонетические характеристики, даже если они могут означать разные значения.
Рис. 2: Структура модели DISA для выбора тона. Cm означает m-й китайский иероглиф в предложении. Pm обозначает пиньинь для символа m без тонов. Pmn представляет пиньинь для m-го символа с его n-м тоном. Fmn — это вектор признаков / встраивания для Pmn.Iii-C2 Изученная функция из корпуса пиньинь (Po, Pw)
Вместо того, чтобы собирать аудиоклипы для каждого пиньинь и извлекать звуковые функции, мы напрямую представляем китайские иероглифы с помощью токенов пиньинь, как показано в Таблице III.В частности, мы конвертируем каждый китайский иероглиф в текстовом корпусе в пиньинь. Первоначальный корпус, который был представлен последовательностью китайских иероглифов, был преобразован в фонетический корпус, который был представлен последовательностью токенов пиньинь.
В фонетическом корпусе контекстная семантика все еще сохранялась, как и в текстовом корпусе. Это достигается с помощью онлайн-парсера, который анализирует китайские иероглифы на их пиньины. Следует отметить, что 3,49% из 3500 распространенных китайских иероглифов (около 122 символов) имеют несколько пиньинь, а именно «duo yin zi» (гетероним).Хотя парсер утверждал, что поддерживает гетероним, мы взяли наиболее статистически возможное предсказание пиньинь для каждого гетеронима.
Мы специально не устраняли неоднозначность различных гетеронимов, поскольку это не главное предположение, которое мы пытаемся аргументировать в этой статье. Тем не менее, это может быть направление, над которым стоит работать в будущем. DISA обеспечивает два режима преобразования символов в пиньинь: один с тоном, а другой без тона.
В режиме без тона китайские иероглифы будут преобразованы только в пиньинь без тона.Примерами являются токены, показанные в строке PO в Таблице III, где PO означает пиньинь без тонов. После этого мы обучаем 128-мерные векторы встраивания токенов пиньинь, используя обычные вложения символов «GloVe» [49] . Соответствующим образом создается таблица поиска между пиньинь без интонации (PO) и вектором внедрения. Пиньины, которые имеют одинаковое произношение, но разные интонации, будут иметь один и тот же вектор встраивания перчаток, такой как Jiǎ и Jià в Таблице III.
Для режима с тональным сигналом китайские иероглифы будут преобразованы в пиньинь плюс число, указывающее на тон.Примеры — жетоны, показанные в строке PW в Таблице III, где PW обозначает пиньинь с тонами. Мы используем цифры от 1 до 4 для обозначения четырех диакритических знаков и цифру 0 для обозначения нейтрального тона. Точно так же были обучены 128-мерные векторы внедрения пиньин «GloVe».
Итак, у нас есть четыре типа фонетических характеристик, а именно Ex04, PW, E0 и PO. ПО отличается от PW удалением интонаций. Два из них (Ex04, PW) отличаются от других интонацией. Ожидается, что возникнет один вопрос: как узнать правильную интонацию пиньинь, учитывая их текстовые символы.Хотя онлайн-анализатор может дать свое статистическое предположение, производительность и надежность не могут быть оценены и гарантированы. Чтобы решить эту проблему, мы разрабатываем сеть парсеров с моделью обучения с подкреплением, чтобы узнать правильную интонацию каждого пиньинь. Подробности будут представлены в следующем разделе.
III-D Диса
Iii-D1 Обзор
Эта сеть DISA принимает на входе предложение, состоящее из китайских иероглифов. Сначала он преобразует каждый символ в соответствующий ему пиньинь (без тонов) с помощью операции поиска.Затем последовательность пиньинь будет передана сети актеров и критиков. Для каждого пиньинь (временного шага) сеть политик будет случайным образом выбирать одно из пяти действий, где каждое действие обозначает тон. Затем функция / встраивание этого конкретного пиньина с тоном извлекается из модуля поиска функций.
На этапе исследования действие будет выбрано случайным образом. На этапах эксплуатации и прогнозирования действие будет наиболее вероятным с учетом политики. Затем эта функция / последовательность внедрения будет передана в сеть LSTM.Скрытые состояния из LSTM будут передаваться обратно в сеть политик для управления выбором действий. Окончательное скрытое состояние сети LSTM будет передано классификатору softmax для получения распределения классов тональности предложения. Вероятность регистрации метки наземной достоверности будет рассматриваться как отложенное вознаграждение для настройки сети политики. Наконец, перекрестная энтропия будет вычислена относительно полученного распределения классов тональности для настройки сети критиков. Графическое описание показано на рисунке 2, а подробности приведены ниже.
Состояние: для среды мы использовали LSTM для моделирования функции ценности (подробно описано позже). Входными данными для этого LSTM является последовательность функции / внедрения, полученная из модуля поиска (подробно описанная позже), а именно x1, x2, … xt, …, xL, где xt — это характеристика для t-го пиньина в предложении. . Математические представления ячейки LSTM следующие:
футов | = σ (Wf [xt, ht − 1] + bf) | (2) | ||
Это | = σ (WI [xt, ht − 1] + bI) | |||
˜Ct | = tanh (WC [xt, ht − 1] + bC) | |||
Ct | = ft ∗ Ct − 1 + It ∗ ˜Ct | |||
от | = σ (Wo [xt, ht − 1] + bo) | |||
ht | = ot ∗ tanh (Ct) |
где ft, It и ot — вентиль забывания, входной вентиль и выходной вентиль, соответственно.Wf, WI, Wo, bf, bI и bo — матрица весов и скаляр смещения для каждого логического элемента. Ct — это состояние ячейки, а ht — вывод скрытого состояния.
Состояние окружающей среды определяется как:
St = [xt⊕ht − 1⊕Ct − 1] | (3) |
, где ⊕ — это конкатенация (то же самое ниже). Как показано в Формуле 3, состояние определяется текущим вводом функции, последним скрытым выводом LSTM и последней памятью ячеек LSTM.
Действие: В нашей среде есть пять действий, представляющих пять разных тонов.Пример приведен в Таблице V. Если было выбрано другое действие, то будет активирована соответствующая интонация. Затем будут выбраны соответствующие фонетические признаки, как описано в Разделе III-D3. Политика действий реализовывалась с помощью типичной нейронной сети прямого распространения. В частности, для политики π (at∣St) в момент времени t,
π (at∣St) = tanh (W⋅St + b) | (4) |
, где W и b — матрица весов и скаляр смещения.at — действие в момент времени t. Во время изучения тренировок действие будет случайным образом выбрано из пяти вышеупомянутых. При эксплуатации обучения и тестирования будет выбрано действие с максимальной вероятностью.
ТАБЛИЦА V: Действия в сети DISA и их значения.Награда: Награда вычисляется к концу каждого предложения, когда траектория состояния / действия доходит до терминала (отложенное вознаграждение). После модуля поиска функций / внедрения последовательность функций передается в сеть критиков LSTM.Распределение тональности предложения по классам рассчитывается следующим образом:
дистр = σ (Wsfmx⋅hL + bsfmx) | (5) |
, где Wsfmx и bsfmx — матрица весов и скаляр смещения из слоя softmax. hL — это последний вывод скрытого состояния из сети критиков LSTM. distr1 ∗ X — вероятностное распределение классов тональности предложения. X — номер тональности. Награда (R) определяется как:
R = журнал (P (заземление)) | (6) |
, где P (основание отослано) обозначает вероятность метки истинности предложения с учетом распределения в уравнении.5.
Iii-D2 Актер: сеть политик
Как показано в разделе «Действие» выше, сеть политик случайным образом угадывает действия на этапе исследования при обучении. Он будет обновлен, когда ввод предложения будет полностью пройден. Учитывая вознаграждение, полученное из уравнения. 6, мы использовали метод градиентного спуска для оптимизации сети политики [53] . Другими словами, мы хотим максимизировать:
Дж (θ) | = Eπ [R (S1, a1, S2, a2, …, SL, aL)] | (7) | ||
= L∑1p (S1) ∏tπθ (at∣St) p (St + 1∣St, at) RL | ||||
= L∑1∏tπθ (при∣St) RL |
Используя отношение правдоподобия (или трюк с REINFORCE [54] ) для оценки градиента политики, градиент можно преобразовать в:
∇θJ (θ) = L∑t = 1RL∇θlogπθ (at∣St) | (8) |
Iii-D3 Функция / поиск встраивания
Напомним, что мы выбрали действия из сети акторов, где каждое действие обозначает тон для этого пиньина, функция этого модуля поиска функции / внедрения состоит в том, чтобы извлекать правильные характеристики этого конкретного пиньина с помощью тона.До создания сети политик мы собрали фонетические характеристики из пяти разных тонов каждого пиньинь и упорядочили их от функции нейтрального тона до характеристики четвертого тона. Нейтральный тон для четвертого тона можно получить индивидуально по индексу ID от 0 до 4.
Когда действие выбрано из сети акторов, например, действие 4 было выбрано для пиньинь P1, этот модуль поиска найдет четвертый фонетический признак (индекс ID 4) этого пиньина, а именно F14, и передаст его в сеть критиков LSTM. как вход xt в уравнении.2.
Iii-D4 Critic: модель приговора и расчет убытков
Представленная в Штате ранее, сеть критиков была, по сути, моделью кодирования предложений с помощью LSTM. Мы использовали метод градиентного спуска, чтобы обновить сеть критиков с потерями кросс-энтропии, определенными как:
L = −∑∀sentP (заземление∣ отправлено) log (P (предварительно отправлено)) | (9) |
, где P (заземление ∣ отправлено) и P (присутствует) — истинное значение и предсказанная вероятность в уравнении.5 соответственно.
Iii-E Слияние модальностей
В контексте китайского языка текстовые вложения применялись в различных задачах и доказали свою эффективность при кодировании семантики или тональности [22, 17, 16, 18, 19] . В последнее время визуальные функции продвинули производительность текстового встраивания дальше с помощью мультимодального слияния [23, 24] . Это достигается за счет эффективного моделирования композиционности китайских иероглифов визуальными особенностями.В этой работе мы предполагаем, что использование фонетических функций наряду с текстовыми и визуальными может улучшить производительность. Таким образом, мы ввели следующий метод слияния, который подходит для нашей сети DISA, как показано на рисунке 2.
Каждый китайский символ представлен комбинацией трех сегментов. Каждый сегмент представляет одну модальность, см. Ниже:
char = [embT⊕embP⊕embV] (10) где char — символьное представление.embT, embP, embV — это вложения из текста, фонемы и видения соответственно.
Существуют и другие сложные методы слияния, доступные в литературе [55] , однако мы не использовали их в нашей статье по трем причинам. (1) Слияние через конкатенацию — один из проверенных эффективных методов [56, 57, 24] , и (2) он имеет дополнительное преимущество простоты, что позволяет акцентировать (вклады) системы в самих функциях. . (3) Разработанный сплав должен соответствовать нашей структуре модели армирования.Методы слияния, такие как [23] и [55] , создают препятствия в реализации с моделью «субъект-критик». Таким образом, мы использовали представленный выше метод слияния, пример таблицы поиска слияния / внедрения показан на рис. 3.
IV Эксперименты и результаты
В этом разделе мы начнем с знакомства с экспериментальной установкой. Эксперименты проводились в шесть этапов. Во-первых, мы сравниваем одномодальные характеристики. Во-вторых, мы экспериментируем с возможным слиянием модальностей.В-третьих, мы сравниваем эффективность междоменной проверки нашего метода с базовыми показателями. Затем мы проводим тесты на абляцию, чтобы проверить вклад фонетических характеристик. Точнее, мы также визуализируем различные фонетические функции / вложения, чтобы понять, как они улучшают производительность.
IV-A Экспериментальная установка
IV-A1 Наборы данных и функции / вложения
Наборы данных. Мы оцениваем наш метод на пяти наборах данных: Weibo, It168, Chn2000, Review-4 и Review-5.Первые три набора данных состоят из обзоров, извлеченных из микроблогов и веб-сайтов обзоров. Последние два набора данных содержат обзоры из [58] , где Review-4 содержит обзоры из доменов компьютеров и камер, а Review-5 содержит обзоры из доменов автомобилей и мобильных телефонов. Наборы экспериментальных данных показаны в Таблице VI.
Возможности / вложения: Для текстовых встраиваний мы обращаемся к предварительно обученной таблице встраивания символов, обученной с помощью Glove в Разделе III-A. Для фонетических экспериментов мы используем предварительно созданный инструмент, называемый онлайн-кодами в наборах данных, для преобразования текста в пиньинь без интонаций (как мы обсуждали в разделе III-C2, это преобразование достигает точности 97%.). Функции Ex0 и Ex04 были извлечены из аудиофайлов и сохранены, как в Разделе III-C1. Вложения PO и PW также были предварительно обучены на том же корпусе текстов для обучения встраиванию текста. В корпусе собраны новости 8 миллионов китайских слов, что равно 38 миллионам китайских иероглифов. Для визуальных функций мы обращаемся к таблице поиска для преобразования символов в визуальные особенности, как в Разделе III-B.
Для экспериментов по мультимодальности характеристики каждой индивидуальной модальности были объединены в таблицу поиска.Примеры показаны на рис. 3.
ТАБЛИЦА VI: Статистика экспериментальных наборов данныхIV-A2 Настройка и базовые параметры
Установка: мы используем TensorFlow и Keras для реализации нашей модели. Все модели используют оптимизатор Adam со скоростью обучения 0,001 и регуляризатор нормы L2 0,01. Процент отсева — 0,5. Каждая мини-партия содержит 50 образцов. Мы разбиваем каждый набор данных на наборы для обучения, тестирования и разработки в соотношении 6: 2: 2. Мы сообщаем результат набора для тестирования, соответствующий набор для разработки которого работает лучше всего после 30 эпох.Указанные выше параметры задавались с помощью поиска по сетке по данным разработки.
Процедура обучения нашей сети DISA следующая. Во-первых, мы пропускаем сеть политик и напрямую обучаем сеть критиков LSTM с целью обучения как уравнение. 9. Во-вторых, мы фиксируем параметры сети критиков LSTM и обучаем сеть политик с целью обучения как Ур. 8. Наконец, мы совместно обучаем все модули до сходимости. Для случаев, когда не задействованы фонетические функции / встраивание, например, чисто текстовые или визуальные функции, обучается и тестируется только LSTM.Перчатка была выбрана в качестве текстового вложения в нашу модель из-за ее характеристик в Таблице VII.
вариантов DISA: Ниже мы представляем варианты нашей сети DISA. Они отличаются особенностями текстового представления.
DISA (P): сеть DISA, в которой используется только фонетическая функция, которая представляет собой конкатенацию Ex04 и PW.
DISA (T + P): сеть DISA, которая использует объединение текстового вложения (перчатка) и фонетической функции (Ex04 + PW).
DISA (P + V): сеть DISA, в которой используется сочетание фонетической функции (Ex04 + PW) и визуальной функции.
DISA (T + P + V): сеть DISA, которая использует конкатенацию встраивания текста (перчатка), фонетической функции (Ex04 + PW) и визуальной функции.
Исходные данные: Предлагаемый нами метод основан на вводе / внедрении китайских иероглифов. В связанных работах по встраиванию китайского текста, все они направлены на улучшение встраивания китайских слов, например, CWE [22] , MGE [19] . Те, кто использовал визуальные особенности [23, 24] , также стремились к уровню слов.Однако они не могут служить справедливой базой для предлагаемой нами модели, поскольку наша модель изучает встраивание китайских иероглифов. Есть две основные причины для обучения на уровне персонажа. Во-первых, система произношения пиньинь рассчитана на уровень персонажа. Система пиньинь не имеет соответствующего произношения китайским словам. Во-вторых, уровень символов обходит операцию сегментации китайских слов, которая может вызвать ошибки. И наоборот, использование произношения на уровне символов для моделирования произношения на уровне слов вызовет проблемы моделирования последовательности.Например, китайское слово ‘你好’ состоит из двух символов: ‘你’ и ‘好’. Для текстового встраивания слово можно рассматривать как единое целое, обучая вектор встраивания слова. Однако для фонетического вложения мы не можем рассматривать слово как единое целое с точки зрения произношения. Правильное произношение слова — это временная последовательность произношения символов сначала «», а затем «». Если мы работаем на уровне слова, мы должны придумать представление о произношении этого слова, например, среднее значение фонетических характеристик символа и т. Д.Чтобы провести честное сравнение, мы сравним методы уровня персонажа ниже:
Glove: Алгоритм обучения встраиванию без учителя, основанный на совпадении (подсчете). [49] .
CBOW: модель непрерывного мешка слов, которая помещает контекстные слова во входной слой и целевое слово в выходной слой [29] .
Пропускная грамма: противоположность модели CBOW, которая предсказывает контексты с учетом целевого слова [29] .
Visual: на основе [23] и [50] , сверточный автокодировщик (convAE) построен для извлечения композиционности китайских иероглифов через визуальный канал.
charCBOW: компонентно-расширенное встраивание символов, построенное на основе метода CBOW с помощью [17] . Он углубился в радикальные компоненты китайских иероглифов и обогатил представление символов радикальным компонентом.
charSkipGram: вариант со скип-граммом charCBOW.
Hsentic: Он предложил радикальные иерархические вложения для анализа настроений в Китае. Представления персонажей были специально настроены для анализа тональности [20] .
IV-B Эксперименты по унимодальности
Для встраивания текста мы сравнили с современными методами встраивания, включая GloVe, skip-gram, CBOW, charCBOW, charSkipGram и Hsentic.Как показано в Таблице VII, текстовые вложения (GloVe) обеспечивают лучшую производительность среди всех трех модальностей в четырех наборах данных. Это связано с тем, что они успешно закодировали семантику и зависимость между символами. Мы также обнаружили, что методы charCBOW и charSkipGram работают довольно близко к исходным методам CBOW и Skip-gram. Они работают немного, но не всегда лучше своих базовых показателей. Мы предполагаем, что это могло быть вызвано относительно небольшим размером нашего учебного корпуса по сравнению с исходным учебным корпусом китайского Wikipedia Dump.Ожидается, что с увеличением размера корпуса все методы встраивания будут иметь более высокую производительность. Тем не менее, несомненно, что корпус, который мы использовали, по-прежнему представляет собой хорошую платформу для сравнения всех методов.
Мы также заметили, что визуальная функция демонстрирует худшую производительность среди трех модальностей, что находится в пределах наших ожиданий. Как продемонстрировано в [23] , чисто визуальные функции недостаточно репрезентативны для получения сопоставимой производительности с текстовым встраиванием.И последнее, но не менее важное: наши методы с фонетическими функциями работают лучше, чем визуальные. Хотя визуальные элементы фиксируют композиционную информацию китайских иероглифов, они не могут различить разные значения иероглифов, которые имеют одинаковое письмо, но разные тона. Эти тона могут в значительной степени изменить тональность китайских слов и еще больше повлиять на тональность предложения.
Для фонетического представления были протестированы три типа функций, а именно EX04, PW и P (а именно EX04 + PW).Последний — это объединение двух предыдущих. Наше первое наблюдение состоит в том, что сами по себе фонетические особенности вряд ли могут конкурировать с текстовыми вложениями. Хотя они превзошли текстовые вложения в наборе данных It168, они постоянно отставали от текстовых встраиваний. Это все еще находится в пределах наших ожиданий, как предположил Ценг в [59] : «Фонология и фонетика сами по себе недостаточны для предсказания фактического результата предложения».
Если мы обратимся к Таблице IV, то обнаружим, что в среднем от 2 до 3 символов имеют один и тот же пиньинь с тоном.Это означает, что чистое фонетическое представление может стереть 1 из 2 или 3 (33% -50%) семантики из текста. Это неизбежно уменьшит возможность правильно классифицировать настроения.
Как мы видим, каждая модальность имеет свою собственную способность кодировать семантику, ожидается, что она будет использовать дополнительную информацию из нескольких модальностей для задачи анализа тональности. Результаты показаны в следующем разделе.
IV-C Эксперименты по слиянию модальностей
В этом наборе экспериментов мы оцениваем слияние всех возможных комбинаций модальностей.После обширных экспериментальных испытаний мы резюмируем, что конкатенация вложений Ex04 и PW (обозначенная как P) показала лучшие результаты среди всех комбинаций фонетических признаков. Таким образом, мы используем его как фонетический признак в слиянии модальностей. Результаты, показанные в Таблице VIII, показывают, что наилучшая производительность достигается за счет объединения текстовых и фонетических функций.
ТАБЛИЦА VIII: Точность классификации мультимодальности. (T и V представляют текстовый и визуальный соответственно. + Означает операцию слияния. P — конкатенированный фонетический признак, извлеченный из аудио (Ex04) и пиньинь с интонацией (PW).)Мы замечаем, что фонетические функции, объединенные с текстовыми или визуальными функциями, последовательно улучшают производительность как текстовых, так и визуальных унимодальных классификаторов. Это подтверждает нашу гипотезу о том, что фонетические особенности являются важным фактором в представлении семантики, что приводит к повышению эффективности анализа тональности китайского языка. Значение p 0,007 в парном t-тесте между наличием и отсутствием фонетических признаков свидетельствует о том, что наиболее эффективное улучшение интеграции фонетических признаков является статистически значимым.Интеграция нескольких модальностей может использовать преимущества информации из разных модальностей. Однако мы замечаем, что в большинстве случаев трехмодальные модели уступают бимодальным. Одним из недостатков использования большего количества модальностей является увеличение количества параметров. Мы предполагаем, что больший набор обучаемых параметров приводит к плохой обобщаемости, когда обучающие наборы в наших экспериментах состоят только из экземпляров менее 4000.
Кроме того, избыточность информации становится более серьезной при объединении функций в различных модальностях.Другими словами, использование дополнительных модальностей может иметь предельный эффект. Мы проиллюстрируем это на примерах. Как упоминалось выше, китайский иероглиф состоит из символов (или радикалов). Некоторые символы действуют как морфемы, а некоторые — как фонемы. Например, символ ‘疯’ состоит из двух символов: ‘疒’ и ‘’. В произношении ‘疯’ (feng1) преобладает символ ‘风’ (feng1), который аналогичен фонетическим характеристикам. Между тем, «» вносит наибольший вклад в визуальный образ «», визуальная особенность «» также может каким-то образом кодировать информацию, передаваемую «».
После того, как мы сравним T с T + P и T + V, увеличение производительности, вызванное P, на 1,40% выше, чем в среднем за V. Очевидно, можно сделать вывод, что фонетические признаки лучше кодируют семантику, чем визуальные признаки. Сочетание фонетических и текстовых вложений обеспечивает наилучшую производительность во всех случаях. Это указывает на то, что информация, закодированная в фонетическом признаке, дополняет информацию встраивания текста.
ТАБЛИЦА IX: Междоменная оценка. Наборы данных в первом столбце — это обучающие наборы.Наборы данных в первой строке — это наборы для тестирования. Во втором столбце представлены различные исходные данные и предлагаемый нами метод.IV-D Междоменная оценка
В этом разделе мы исследуем, как наша модель работает в разных областях и наборах данных, чтобы проверить возможность обобщения предлагаемого нами метода. В частности, для нашей модели мы сначала предварительно обучаем сеть критиков LSTM на обучающем наборе. Затем мы фиксируем параметры сети критиков и обучаем сеть политик на том же обучающем наборе.Затем мы совместно обучаем сеть критиков LSTM и сеть политик в течение 30 эпох. Для других базовых показателей сеть LSTM обучается с использованием того же обучающего набора. К концу каждой эпохи тестируется набор для разработки этого обучающего набора данных и других четырех наборов данных. Фиксируются результаты эпохи. В конце сообщается результат тестирования эпохи с лучшим результатом разработки. Окончательные результаты современных методов показаны в таблице IX.
Результаты показывают, что все методы снижают свою производительность по сравнению с экспериментами с одним набором данных из-за внутреннего разнообразия разных наборов данных.Несмотря на это, наш метод по-прежнему работает лучше, чем другие базовые уровни, в среднем на 6,50% по точности. Помимо абсолютной производительности, мы также вычисляем среднюю потерю производительности для каждого метода в разных наборах данных между случаем одного набора данных и случаем перекрестного набора данных. Это показывает, что у нашего метода наименьшее падение производительности — 14,25%. Падение производительности для методов Hsentic, charCBOW и charSkipGram составляет 16,09%, 15,69%, 17,16% соответственно. Мы думаем, что это может быть связано с тем, что доля общих фонетических маркеров среди наборов данных больше, чем доля общих текстовых символов.Таким образом, фонетические признаки будут лучше передаваться, чем текстовые. На рис. 4 показано соотношение общих фонетических токенов, а также общих текстовых токенов между каждой парой наборов данных. Результат на рисунке согласуется с нашим первоначальным анализом.
Рис. 4. Доля токенов в тестовых наборах, которые также появляются в обучающих наборах. Строки представляют собой обучающие наборы (T обозначает текстовый токен, а P обозначает фонетический токен). Столбцы являются тестовыми наборами.Тесты на абляцию IV-E
Мы проводим тесты на абляцию в два этапа: проверка фонетических характеристик и интеграция фонетических характеристик. Первый шаг подтверждает вклад фонетических функций. На втором этапе исследуется, какая конкретная комбинация фонетических функций работает лучше всего.
IV-E1 Проверка фонетической функции
До сих пор мы исследовали эффективность нашей модели в целом, сравнивая ее с различными базовыми линиями. В этом разделе мы разбиваем предлагаемые методы на структуру обучения с подкреплением и набор функций. Прежде всего, мы хотели бы проверить, является ли прирост производительности в основном результатом обучения с подкреплением. С этой целью мы заменяем фонетические признаки случайными признаками. В частности, мы генерируем случайные векторы с действительным знаком как случайный фонетический признак для каждого символа.Каждое измерение вектора случайных фонетических признаков представляет собой число с плавающей запятой от -1 до 1, выбранное из распределения Гаусса. Затем мы использовали этот случайный вектор признаков для представления каждого китайского символа и получили результаты в таблице X.
При сравнении заученного фонетического признака и случайного фонетического признака мы можем заметить, что заученный признак превосходит случайный признак с показателем не менее 13% во всех наборах данных. Этот результат указывает на то, что улучшение успеваемости обусловлено вкладом изученных фонетических характеристик, а не обучением классификаторов.Причиной является сама фонетическая характеристика, и подобная производительность не может быть достигнута простым введением случайных функций.
Мы наносим результаты на рис. 5 слева, чтобы усилить разницу. Более того, мы обнаружили, что независимо от того, извлечены ли они из аудиоклипов или извлечены из корпуса пиньинь, фонетические особенности, содержащие интонацию (Ex04 и PW), работают лучше, чем те, которые не содержат интонации (EX0 и PO), во всех наших экспериментах.
Это доказывает наш первоначальный аргумент о том, что интонация играет важную роль в представлении китайских настроений.Тем не менее, мы также обнаруживаем, что исполнение различных выученных фонетических функций непостоянно. PW преобладает в трех наборах данных, а Ex04 — в двух других наборах данных. Поскольку две лучшие фонетические характеристики либо извлекаются из аудиоклипов, либо изучаются из корпуса пиньинь, ожидается, что они будут использовать преимущества обеих сторон. Таким образом, мы предлагаем тест на абляцию фонетического признака в различных комбинациях.
ТАБЛИЦА X: Сравнение производительности заученной и случайно сгенерированной фонетической функции.ТАБЛИЦА XI: Сравнение характеристик между различными комбинациями фонетических характеристик(a) Фонетическое вложение Ex04 | (б) Фонетическое вложение PW | (c) Фонетическое вложение Ex04 + PW (P) | (d) Фонетическое вложение T + P |
IV-E2 Интеграция фонетических функций
Мы объединяем извлеченные фонетические особенности и изученные фонетические особенности, чтобы сформировать четыре вариации.Результаты показаны в Таблице XI и нанесены на рис. 5 справа.
Как и ожидалось, комбинация Ex04 и PW преобладает в четырех наборах данных и работает близко к лучшим в оставшемся наборе данных. В частности, когда мы сравниваем Ex04 + PW с Ex04, наблюдается среднее улучшение на 1,43% по наборам данных. Мы полагаем, что улучшение было связано с семантической информацией, предоставленной функцией PW, поскольку она была обучена на корпусе пиньинь. Контекстное отношение было разработано для кодирования во вложениях.Путем объединения встраиваемых функций с извлеченными функциями комбинированная функция также будет кодировать определенную семантику, которую мы покажем в следующем разделе. Соответственно, если мы сравним Ex04 + PW с PW, то прирост производительности составил в среднем 0,80%.
Это можно объяснить тем, что Ex04 содержит извлеченную информацию, которая может быть передана только в произношении. Как мы уже говорили в начале, глубокая фонематическая орфография позволяет китайскому произношению кодировать значения, которые не были представлены в тексте.Английский текст, напротив, изначально создавался для имитации произношения [47] . Из-за неоднородности текстового и фонетического представления китайского языка разумно раскрыть магию китайской фонетики. Таким образом, мы показали, что и интонационные вариации, и глубокая фонематическая орфография способствовали решению задачи анализа настроений в китайском языке.
IV-F Визуализация
В этом разделе мы визуализируем четыре типа фонетических вложений.Это Ex04, PW, Ex04 + PW (P) и T + P.
Как показано на рис. 5 (а), пиньины, которые имеют похожее произношение (гласные), близки друг к другу в пространстве вложения. Это наблюдение соответствует нашей экспериментальной цели, заключающейся в том, что функция Ex04 будет кодировать фонетическую информацию (например, сходство) между разными произношениями. Во-вторых, как видно на рис. 5 (b), мы визуализируем вложения PW. Поскольку он был изучен в фонетическом корпусе, ожидается, что определенная семантика будет закодирована. На самом деле мы действительно находим смысловую близость в визуализации.Квадраты — это некоторые примеры, которые мы заметили. Например, «Niu2» и «Nai3» вместе из-за «Niu2 Nai3 (молоко)». «Dian4» и «Nao3» вместе из-за «Dian4 Nao3 (компьютер)». «Цзянь3» и «Ча2» вместе из-за «Цзянь3 Ча2 (осмотр)». Затем мы визуализируем комбинированное встраивание Ex04 + PW, которое также является основным фонетическим признаком, который мы используем в нашей модели на рис. 5 (c). Неудивительно, что мы наблюдаем, что эта функция сочетает в себе характеристики как из Ex04, так и из PW, потому что это встраивание кластеров не только фонетическое сходство, но и семантическое сходство.Наконец, мы визуализируем слитное вложение T + P на рис. 5 (d). В дополнение к характеристикам, отображаемым в Ex04 + PW (P), объединенный T + P дополняется китайскими текстовыми символами. Например, 沐 Mu4 и 浴 Yu4 остались вместе из-за семантики (ванна).桓 Huan2 и 寰 Huan2 остались вместе из-за фонетики. Можно сделать вывод, что слитные вложения захватывают определенную фонетическую информацию из фонетических признаков и семантическую информацию из текстовых встраиваний. Это показывает нам, почему фонетически обогащенное текстовое представление может повысить эффективность анализа тональности по сравнению с чистым текстовым представлением.
V Заключение
Современная система произношения китайского языка (пиньинь) обеспечивает новый взгляд на китайский язык в дополнение к системе письма. Ожидается, что благодаря своей глубокой фонематической орфографии и интонационным вариациям он внесет новый вклад в статистическое представление китайского языка, особенно в задаче анализа настроений.
Насколько нам известно, мы первые представили подход к изучению фонетической информации из пиньинь (как из аудиоклипов, так и из корпуса токенов пиньинь) и спроектировали сеть для устранения неоднозначности интонаций.Используя изученную фонетическую информацию, мы интегрируем ее с текстовыми и визуальными функциями для создания новых китайских представлений. Эксперименты с пятью наборами данных продемонстрировали положительный вклад фонетической информации в анализ настроений китайцев.
Несмотря на то, что наш метод исследует только китайский язык, он предполагает больший потенциал для языков, которые также имеют характерную глубинную фонематическую орфографию, таких как арабский и иврит. В будущем мы планируем расширить работу в следующих направлениях: во-первых, мы хотели бы изучить более совершенные методы слияния, позволяющие комбинировать различные модальности; во-вторых, мы хотели бы изучить фонетическую информацию на уровне слов.
Аналоговый фонетико-слоговой словарь
% PDF-1.5 % 976 0 объект > / PageLayout / TwoPageRight / Pages 946 0 R / Type / Catalog / ViewerPreferences >>> эндобдж 973 0 объект > поток 2014-01-27T09: 13: 52-05: 002012-06-04T23: 54: 41Z2014-01-27T09: 13: 52-05: 00Оцифровано Интернет-архивом / pdf
Глава 1 Фонетика и фонология
3.2 Фонологические и орфографические w
5.5 Референт [Референт объект
Существительные post и pole являются более мотивированными (и, следовательно,
(c) морфологические варианты: Brother
eeds, e.грамм. Эльзасский, бульдог, колли
12.3.1 Цветовые обозначения. Сравнение
Наличие отсутствия термина
Наиболее частые случаи передачи
Ссылка Aitchinson, J, 1981. Lang
Lyons, J. 1995. Linguistic Semantic
стилистический) уровень, нижний уровень
общие характеристики в (15b .).
(28) Если вы не уберете это, я буду использовать
нашу внутреннюю грамматику, но для начала Международная сцена 2.1 Введение
Эти правила структуры фраз могут быть
Сам Хомский и его последователи
искать «определенную максимальную проекцию
».(38) NP1 V NP2 Составляющая V c-
функциональная структура mot
грамматика (LFG), или die так называемые примитивные понятия Hea
, отношения между отдельными глаголами
или с маленькими глаголами
Ключевой вопрос заключается в том, что oť ори
3.6.1 Базовый синтаксис и морфемы
Базовая структура такого
(li) Контекстный фактор позволяет f
Описание (FGD, см. Раздел 3 или
TFA могут быть систематически описаны морфемикой
. Таким образом, в die TR или (82
Форма и семантическая интерпретация ma
mind Эта тенденция, которая признает d
Mathesius, V.1961. Obsahový rozbo
Svoboda, A. 1989. Kapitoly z funkč
менеджмент и текущий процесс
соответственно; различия в разговоре
(i) Предпосылки (ii) Логическое im
Как часто вы бываете в Англии? (»
Перформативы, с другой стороны,
, аналогичные тем, в которых получают
(39) Сколько времени ? а.Пять по si
, как в [b. Максимально увеличьте выгоду, чтобы o
3.1 Deixis Deixis — это техническая информация
Ссылки Akmajian, A. et al. 1993
Ориентир речевой огибающей для кодирования слога в верхней височной извилине человека
ВВЕДЕНИЕ
Самым основным представлением речевого сигнала является акустическая форма волны (рис. 1A). Он четко определяется волнообразной последовательностью пиков и спадов в профиле интенсивности с течением времени.Эти модуляции интенсивности речи улавливаются огибающей низкочастотной амплитуды речи и имеют решающее значение для разборчивости речи ( 1 — 4 ). Хорошо известно, что нейронная активность в слуховых областях отражает эти колебания в речевой оболочке ( 5 ), но нейронные вычисления, лежащие в основе этого представления, активно обсуждаются.
Рис. 1 Ответы STG на огибающую амплитуды речи отражают кодирование дискретных событий.( A ) Акустическая форма волны из примера предложения, его огибающая амплитуды (черный) и скорость полувеличенного изменения амплитуды (фиолетовый). Стрелками отмечены локальные пики огибающей (peakEnv) и скорость изменения огибающей (пиковая скорость) соответственно. ( B ) Частота появления слоговых границ, циклов конверта, пиков в конверте и пиков скорости изменения конверта в непрерывной речи во всех предложениях в наборе стимулов. Все события происходят в среднем каждые 200 мс, что соответствует частоте 5 Гц.( C ) Средний отклик HGA на предложение в (A) для электрода E1 (желтый). Прогнозируемый ответ, основанный на представлении огибающей с задержкой по времени (синий), сильно коррелирует с нейронным откликом для этого электрода E1 и примерного предложения ( R 2 = 0,58). ( D ) Схема модели временного рецептивного поля (TRF). Нейронный ответ моделируется как свертка линейного фильтра и временного ряда стимула в предыдущем временном окне. ( E ) Разница в нейронном ответе, объясненная представлением мгновенной огибающей амплитуды электродов верхней височной извилины (STG) на примере участников.Нейронная активность в кластере электродов в среднем STG следует за речевой оболочкой. n.s., не имеет значения. ( F ) Прогнозируемый нейронный ответ на примерное предложение, основанный на дискретных временных рядах событий peakEnv (вверху) и событий peakRate (внизу) в электроде E1. Обе модели дискретных событий превосходят модель непрерывной оболочки, показанную на (C). ( G ) Коробчатая диаграмма распределений R 2 для мгновенной огибающей, моделей peakEnv и peakRate и перемешанных нулевых распределений.Столбцы представляют собой квантили 0,25 и 0,75, соответственно, по электродам. Обе модели дискретных событий значительно лучше, чем модель непрерывной оболочки, но существенно не отличаются друг от друга, ** P <0,05. ( H ) Часть дисперсии, объясняемая моделями непрерывной огибающей (Env), пикового значения (pEnv) и пикового значения (pRate) в отдельных реагирующих на речь электродах, которые отслеживают огибающую. Каждая точка представляет один реагирующий на речь электрод.
Одна из преобладающих моделей состоит в том, что кора головного мозга содержит аналоговое представление о покинутых колебаниях огибающей амплитуды, основанное на хорошо задокументированной нейрофизиологической корреляции между корковой активностью и огибающей амплитуды речи ( 6 — 8 ) .В качестве альтернативы было высказано предположение, что кора головного мозга обнаруживает дискретные акустические ориентиры. Наиболее заметными предполагаемыми ориентирами являются пики в огибающей ( 9 , 10 ) и быстрое увеличение амплитуды (также называемое краями слухового начала) ( 11 — 13 ). Таким образом, фундаментальный вопрос заключается в том, является ли кортикальное представление речевой оболочки аналоговым или дискретным; и если дискретный, то какой ориентир представлен.
Непонятно зачем нужна огибающая амплитуды для разборчивости.Одного его недостаточно для понимания ( 14 ), и он не содержит спектральных сигналов от фонетических единиц согласных и гласных. Поскольку модуляция огибающей коррелирует со скоростью слога, общая интерпретация заключается в том, что конверт лежит в основе обнаружения границ слога в непрерывной речи. Однако прямых доказательств нейронного извлечения слоговых границ из конверта не хватает. Понимание того, какие функции в конверте закодированы и как они соотносятся с лингвистической информацией, поможет нам лучше понять, какие аспекты речевого сигнала наиболее важны для понимания.
Проблема в понимании нейронного кодирования речевого конверта состоит в том, что изменения амплитуды сильно коррелируют с одновременными изменениями фонетического содержания. Одна из основных причин заключается в том, что гласные обладают большей акустической энергией (звучностью), чем согласные. Следовательно, трудно установить, является ли кодирование специфичным только для амплитудных модуляций или для одновременного спектрального содержания, связанного с фонетическими переходами.
Наша цель состояла в том, чтобы определить критические особенности оболочки, которые закодированы в непервичной слуховой коре в верхней височной извилине человека (STG), которая играет важную роль в фонологической обработке речи.STG человека является вероятным локусом коркового представления широкополосной огибающей из-за его сложной спектральной избирательности ( 15 ), в отличие от узкой настройки частоты в первичной слуховой коре ( 16 , 17 ). Чтобы решить эту проблему, мы использовали прямые внутричерепные записи с высокой плотностью записи с кортикальной поверхности [электрокортикография (ЭКоГ)], чье высокое временное и пространственное разрешение позволило нам различать альтернативные модели. Высокое пространственное разрешение ЭКоГ позволило нам локализовать специфическую оболочку, кодирующую нейронные популяции на STG, и отличить их от нейронных популяций, кодирующих другие временные особенности, такие как начала или акустико-фонетические особенности ( 18 ).Высокое временное и пространственное разрешение ЭКоГ особенно полезно для изучения онлайн-обработки речи. Сигналы, записанные с помощью неинвазивных методов, таких как магнитоэнцефалография / электроэнцефалография (М / ЭЭГ), вероятно, отражают сочетание нейронных ответов на различные входные функции из-за пространственной близости их корковых представлений (например, огибающей, начала и спектральной фонетической структуры) . Определение того, как нейронно кодирует речевую оболочку, может переопределить нейролингвистическое понимание того, как мы воспринимаем временную структуру речи.
Во-первых, мы спросили, кодируют ли нейронные популяции STG мгновенные значения огибающей или обнаруживают дискретный ориентир ( 5 ). Результаты двух экспериментов, один с непрерывной речью с нормальной скоростью, а другой с замедленной речью, показали, что ответы STG кодируют огибающую амплитуды через вызванные ответы на акустические границы начала. Затем мы проанализировали лингвистическую структуру речи вокруг акустического начала и обнаружили, что они совпадают с гласными, таким образом представляя временную структуру речи на слоговом уровне.Кроме того, мы спросили, отличается ли кодирование огибающей амплитуды от обработки сложных спектральных паттернов, которые определяют согласные и гласные и кодируются в STG ( 18 , 19 ). Наконец, чтобы однозначно установить, кодируется ли огибающая амплитуды независимо от спектральных изменений, мы выделили нейронные ответы на амплитудные модуляции в дополнительном эксперименте с амплитудно-модулированными неречевыми тонами, которые предоставили сходящиеся доказательства кодирования пиковой скорости в среднем STG.
РЕЗУЛЬТАТЫ
Непрерывная речь: дискретные события извлекаются из речевой оболочки в двустороннем STG
Мы спросили, представляют ли нейронные популяции в STG человека мгновенные значения огибающей амплитуды или они обнаруживают дискретные во времени акустические ориентиры в конверте речи и закодируйте их возникновение и величину. Мы называем мгновенное представление таким, которое отражает амплитуду речевого сигнала в каждый момент времени.Мы сравнили это с двумя независимыми моделями кодирования выдающихся временных ориентиров: пиков в речевой огибающей (пиковое Env; рис. 1А, черные стрелки) и акустических границ начала, определенных как пики в первой производной огибающей (пиковая скорость; рис. 1А). , фиолетовые стрелки). На рис. 1A показано время появления каждого из этих ориентиров в предложении-образце, при этом пиковая скорость предшествует ориентирам peakEnv внутри каждого цикла огибающей (между двумя последовательными впадинами огибающей). Оба ориентира появляются в каждом цикле конверта (т.e., огибающая между двумя последовательными впадинами), так что начало цикла огибающей, события peakRate и peakEnv одинаково часто встречаются в речи (рис. 1B). Также обратите внимание, что все три события происходят так же часто, как отдельные слоги, что является предпосылкой для того, чтобы одно из этих событий служило маркером слогов.
Мы использовали записи ЭКоГ с высокой плотностью в боковой височной доле 11 участников (четыре левых полушария; сведения о пациентах см. В таблице S1), которые проходили клинический мониторинг трудноизлечимой эпилепсии и добровольно участвовали в исследовании.Участники пассивно слушали 499 предложений из акустико-фонетического корпуса TIMIT ( 20 ) (см. Пример предложения на рис. 1A). Мы извлекли аналитическую амплитуду нейронных ответов в высоком гамма-диапазоне (HGA; от 70 до 150 Гц), который тесно связан с локальным возбуждением нейронов и может отслеживать нейронную активность с высокой скоростью естественной речи ( 21 ).
Чтобы сравнить три модели кодирования конверта, мы сначала проверили, насколько хорошо нейронные реакции могут быть предсказаны по каждой модели.Для модели мгновенной огибающей мы использовали стандартный подход взаимной корреляции нейронной активности и речевой огибающей, чтобы определить оптимальное запаздывание, при котором нейронный ответ больше всего напоминает речевую огибающую. Чтобы смоделировать нейронные данные как серию вызванных ответов на события peakEnv или peakRate, мы использовали множественную регрессию с задержкой по времени [также известную как оценка временного рецептивного поля (TRF); Рис. 1D] ( 22 ). Эта модель оценивает зависящие от времени линейные фильтры, которые описывают нейронные реакции на отдельные предсказательные события.Все модели были обучены на 80% данных, а затем протестированы на оставшихся 20%, которые были задержаны при обучении, повторены пять раз для полной перекрестной проверки. Сравнение моделей проводилось на основе проведенного набора тестов R 2 значений. Для сравнения между моделями мы исключили начало предложения, потому что оно вызывает сильные переходные реакции в заднем STG после периодов молчания, которые обычно встречаются в начале предложения или фразы, но не учитывают дисперсию, связанную с продолжающейся огибающей на протяжении всего высказывания ( 18 ).
В репрезентативном электроде E1 HGA хорошо коррелировал с огибающей амплитуды речи [по предложениям тестового набора: R 2 среднее = 0,19, скорректированный коэффициент ложного обнаружения (FDR) P <0,001, R 2 макс. = 0,59, средняя задержка = 60 мс; Рис. 1C], но точность прогнозов была значительно выше для знаковых моделей (модель peakEnv: R 2 среднее значение = 0,63, с поправкой на FDR P <0.001, R 2 макс. = 0,89; Модель peakRate: R 2 среднее значение = 0,61, с поправкой на FDR P <0,001, R 2 max = 0,85; Рис. 1F). Этот рисунок сохранялся на всех реагирующих на речь STG-электродах (см. Рис. 1E для сетки электродов типичного пациента). А именно, HGA в 80% реагирующих на речь электродов коррелировал с речевой огибающей ( n = 220 электродов с перестановкой с поправкой на FDR P <0.05, от 6 до 42 на пациента, средняя оптимальная задержка: +86 мс, SD = 70 мс, R 2 среднее = 0,17, R 2 макс = 0,59; см. рис. S1A, например, следы от всех реагирующих на речь электродов). Однако среди этих электродов характерные модели превзошли модель мгновенной огибающей (модель peakEnv: R 2 среднее значение = 0,22, R 2 max = 0,65; модель peakRate: R 2 означает = 0.22, R 2 макс = 0,68; знаковые ранговые тесты для сравнения с моделью непрерывной огибающей между электродами, P <0,05), тогда как обе модели ориентиров одинаково хорошо предсказывали нейронные данные (знаковый ранговый тест, P > 0,5; рис. 1G). Примечательно, что на уровне одного электрода модели с разреженными ориентирами значительно превосходили модель огибающей (рис. 1H). Эти результаты демонстрируют, что нейронные ответы STG на речевую огибающую в первую очередь отражают дискретные ориентиры пикового значения пика или скорости, а не мгновенные значения огибающей.
Замедленная речь: выборочное кодирование ориентира peakRate
Затем мы хотели понять, какой из двух ориентиров управлял нейронными ответами на речевую огибающую в STG. Однако при естественной скорости речи события peakEnv и peakRate происходят в среднем в пределах 60 мс друг от друга (рис. 2B), поэтому подход модели кодирования, использованный выше, не может устранить неоднозначность между ними. Чтобы решить эту проблему, мы создали образцы медленной речи с более длинными циклами огибающей (рис.2, A и C) и, таким образом, также с более длинными временными окнами между событиями peakRate и peakEnv (рис.2Б). Эти предложения все еще были полностью разборчивыми ( 23 ) (см. Дополнительные материалы, где приведены примеры предложений и методов для технических деталей по замедлению речи) и имели тот же спектральный состав, что и исходные образцы речи (рис. 2E). Например, для речи, замедленной до 1 / 4 нормальной скорости, среднее время между последовательными событиями peakRate и peakEnv составляло 230 мс, что достаточно для нейронного ответа, вызванного функцией peakRate, чтобы вернуться к исходному уровню до появления ориентира peakEnv.Четыре участника прослушали набор из четырех предложений, которые были замедлены до 1 / 2 , 1 / 3 и 1 / 4 исходной скорости речи (рис. 2A). Мы предсказали, что в контексте замедленных предложений вызванные ответы будут более явно связаны с одной из особенностей конверта (рис. 2F).
Рис. 2 Нейронные реакции на замедленную речь демонстрируют избирательное кодирование событий peakRate.( A ) Вверху: Пример спектрограммы предложения при замедленной скорости речи 1 / 2 и 1 / 4 .Внизу: пример предложений peakEnv и peakRate для обеих скоростей речи. ( B ) Распределение задержки между событиями peakRate и последующими событиями peakEnv по всем предложениям задач с замедленной речью и в полном наборе стимулов TIMIT. Замедление увеличивает разницу во времени, и события становятся более диссоциированными во времени. ( C ) Распределение длительностей цикла огибающей по скорости речи, по всем предложениям с замедленной речевой задачей и в полном наборе стимулов TIMIT. Замедление предложения делает циклы конверта более изменчивыми, повышая различимость.( D ) Ответ HGA (оранжевый) на примерное предложение и нейронные ответы, предсказанные с помощью разреженных моделей peakEnv (черный) и peakRate (фиолетовый). Нейронные отклики предшествуют прогнозируемым ответам модели peakEnv, но точно соответствуют прогнозируемым ответам модели peakRate. ( E ) Средний спектральный состав аналогичен для стимулов с разной скоростью речи и для полного набора стимулов TIMIT. ( F ) Прогнозируемые нейронные ответы для отслеживания событий peakEnv (черный) и событий peakRate (фиолетовый) для речи с обычным темпом (вверху) и для медленной речи (внизу).На уровне 1 модели неотличимы. На уровне 1 / 4 модели предсказывают различное время вызванных ответов. ( G ) Сравнение результатов теста R 2 значений для моделей peakRate и peakEnv по скорости речи во всех реагирующих на речь электродах STG. Поскольку скорость речи замедляется, модель peakRate лучше объясняет нейронные реакции, чем модель peakEnv. Каждая точка представляет собой один реагирующий на речь электрод. ( H ) Средняя разница (SEM) в R 2 между моделями peakEnv и peakRate.Модель peakRate значительно превосходит модель peakEnv с коэффициентами 1 / 3 и 1 / 4 . ( I ) Среднее значение HGA после сопоставления с событиями peakEnv (слева) и peakRate (справа). Серая область обозначает окно пиков отклика для всех скоростей речи относительно возникновения события. При согласовании с событиями peakEnv время пика ответа становится раньше для более медленной речи. При согласовании с событиями peakRate время пика ответа остается постоянным для всех скоростей речи.( J ) Среднее значение (шкала ошибок, SEM на электродах) пиковая задержка HGA по скорости речи и выравниванию. Замедление речи приводит к сокращению задержки ответа по сравнению только с событиями peakEnv, так что оно происходит перед событиями peakEnv при самой низкой скорости речи.
На рис. 2D показаны нейронные отклики на одно предложение с разной скоростью речи для примера электрода, а также прогнозируемые отклики на основе моделей peakEnv и peakRate. Нейронные ответы на этом электроде имели одинаковое количество пиков для разных скоростей речи, что соответствовало одиночным циклам огибающей.При скорости 1, / 2 предсказания обеих моделей были почти идентичны, тогда как при скорости 1 / 4 отчетливо прослеживалось отставание между предсказаниями. В частности, предсказанные ответы, основанные на модели peakEnv, отставали как от прогнозов модели peakRate, так и от нейронного ответа.
Для всех реагирующих на речь электродов ( n = 55, от 5 до 20 на участника), мы обнаружили, что обе модели одинаково хорошо работали при исходной скорости речи и 1, / 2 .Однако с дополнительным замедлением модель peakRate становилась все лучше, чем модель peakEnv [линейный эффект скорости речи: b скорость = 0,03, SE = 0,007, t (218) = 3,9, P = 10 -4 ; Рис. 2, G и H]. Мы также исследовали средние вызванные ответы, связанные с событиями peakEnv и peakRate при разных скоростях речи. Мы предсказали, что ответы должны быть надежно привязаны по времени к предпочтительному знаковому событию при любой скорости речи. Средние отклики на электродах, выровненные по событиям peakEnv (рис.2J, слева) выявил нейронный пик, который смещался назад с замедлением речи. Важно отметить, что когда речь замедлялась в 3 или 4 раза, нейронные пики с высокой гамма-амплитудой происходили одновременно или даже до событий пикового значения энтропии [тест против 0: скорость 3: b = 0, P = 1; скорость 4: b = -0,02, SE = 0,01, t (39) = 2,02, P = 0,05], что дает явные доказательства против кодирования ориентира peakEnv. Напротив, при согласовании с пиковым показателем нейронные ответы достигают пика с одинаковой задержкой при всех скоростях речи (рис.2J, справа), как показано на фиг. 2K [эффект взаимодействия между скоростью речи и выравниванием: F (1, 424) = 16,6, P <10 -4 ; влияние скорости речи на согласование с пиковымEnv: F (1, 209) = 20,13, P <10 −10 ; основное влияние скорости речи на согласование с peakRate: F (1, 215) = 1,6, P = 0,2]. Три дальнейших анализа подтвердили этот результат. Во-первых, сравнение модели, включающей бинарные предикторы peakRate, и модели, включающей величину peakRate, показало, что включение величины peakRate увеличило модель R 2 до 10% (рис.S1B). Во-вторых, сравнение нейронных откликов, сопоставленных с peakRate, по сравнению с peakEnv в естественной речи, подтвердило, что пиковая скорость выше модели peakEnv (рис. S2). В-третьих, сравнение между моделью peakRate и минимальной огибающей (minEnv) показало, что события peakRate предсказывают нейронные данные лучше, чем события minEnv (рис. S3). Более того, изменение задержки между акустическим и нейронным пиками также опровергает модель непрерывной огибающей, поскольку эта модель предполагает постоянную задержку между акустическим стимулом и соответствующими точками нейронного ответа.Примечательно, что тот факт, что нейронная реакция произошла в одно и то же время относительно начала стимула при всех скоростях речи (во время события peakRate), опровергает возможность качественно различной обработки естественных и замедленных речевых стимулов, особенно усиленной обработки сверху вниз. замедленной речи. Вместе данные медленной речи показывают, что нейронные ответы STG на огибающую амплитуды речи кодируют дискретные события в нарастающем наклоне огибающей, а именно максимальную скорость изменения амплитуды, отвергая альтернативные модели мгновенного представления огибающей и кодирования пиковой скорости.
Анализ речи показывает, что peakRate указывает на фонологическую структуру слогов.
Определив peakRate как свойство огибающей, закодированной в STG, мы стремились понять, как peakRate как акустически определенный временной ориентир соотносится с лингвистически определенной слоговой структурой речи. Слоги считаются временными строительными блоками слов, которые несут в себе модели скорости, просодии и ударения речи ( 24 ).
На рис. 3A показана первая строка сонета XVIII Шекспира (Shakespeare, 1609) с аннотациями лексического ударения, слоговых границ и лингвистически определенной внутренней структуры слогов: начала и рифмы (состоящей из ядра и кода) ( 25 ).Слоговое начало — это согласная или группа согласных, которая предшествует ядру слогового гласного, а рифма включает ядро гласного и любые последующие согласные звуки (код). Универсальной особенностью слогов является то, что амплитуда (звучность) речи достигает максимума локально на слоговых ядрах (рис. 3B), даже если ядро является согласным звуком, как в некоторых языках ( 26 ). Таким образом, мы предположили, что события peakRate будут отмечать переход между началом слога и его рифмой. Обратите внимание, что термин «начало слога» здесь отличается от использования нами ранее описанных акустических начал, которые относятся к началу предложений или фраз после долгого молчания.
Рис. 3 События пиковой скорости указывают на переход от слоговых начальных согласных к гласным ядрам.( A ) Форма волны примера предложения с лексическим ударением, границами слогов, началом гласных и событиями peakRate. События peakRate совпадают с началом гласных, но не со слоговыми границами. Середина: Схема силлабической структуры в предложении-примере с выделением ударных и безударных слогов. ( B ) Схема профиля конверта для одного слога и лингвистическая структура слога.Пики интенсивности на силлабическом ядре относительно начала и кода. ( C и D ) Средняя спектрограмма речи, согласованная с событиями peakRate (C) и peakEnv (D). Вверху: средняя спектрограмма речи, привязанная к дискретному событию. События peakRate происходят во время максимального изменения энергии в частотных диапазонах, тогда как события peakEnv происходят во время максимальной интенсивности в частотных диапазонах. Внизу: Распределение латентности границ слога и начала гласного (ядра слога) относительно возникновения дискретного события.Начало ядра больше совпадает с событиями peakRate, чем с границами слогов. Для peakEnv оба распределения шире, чем для выравнивания peakRate. ( E ) Разница в относительном времени начала слога и гласного и временных ориентиров. Меньшая дисперсия указывает на то, что пиковая скорость является более надежным сигналом для начала гласных, чем пиковое энв, ** P <0,05. ( F ) Совместное появление пиковой скорости и гласных для ударных и безударных слогов отдельно в наборе стимулов TIMIT.PeakRate — чувствительный сигнал для переходов C-V, особенно для ударных слогов. ( G ) Распределение значений peakRate в ударных и безударных слогах. Выше значения peakRate 0,05 вероятность ударения слога составляет 90%.
Чтобы проверить это, мы проанализировали речевой сигнал вокруг событий peakRate в нашем наборе стимулов. В примере на рис. 3A слог / сумма / в слове «лето» имеет задержку между границей слога и событием peakRate, чтобы приспособиться к согласному с фрикативным началом / s /, в то время как событие пикового уровня совпадает с началом гласного. .Во всех предложениях интенсивность звука быстро увеличивалась в событиях peakRate (рис. 3C, вверху), что было связано с событиями peakRate, происходящими почти одновременно с лингвистически определенным переходом от начала слога к ядру слога (латентность между пикомRate и началом ядра гласного: медиана = 0 мс, среднее значение = 11 мс, стандартное отклонение = 50 мс; рис. 3B, внизу). Это соотношение было очень надежным, так как более 90% начала гласных находились в пределах 40 мс от события peakRate. Напротив, задержка между событиями peakRate и границами слогов была значительно больше и вариабельна (среднее значение = 90 мс, SD = 60 мс, t = -64, P <0.001; Рис. 3C).
Для сравнения, события peakEnv отмечают среднюю точку слоговых ядер, на которые указывают события peakRate, поскольку они происходят после событий peakRate и в пределах гласных (рис. 3D). Однако PeakEnv значительно менее точно определяет переход согласный-гласный (CV), чем peakRate (задержка между переходом peakEnv и CV: среднее значение = 72, SD = 55 мс; сравнение с бутстрапом peakRate P <0,05 для разницы в средних значениях). и дисперсии; рис. 3E). Таким образом, события PeakEnv информируют силлабическую структуру предложения, отмечая слоговые ядра, но не информативны в отношении внутренней структуры начала-рифмы слогов.
Помимо использования в качестве надежного временного ориентира для слогов, мы также обнаружили, что величина событий peakRate важна для различения безударных и ударных слогов. Лексическое ударение несет лексическую информацию на многих языках, включая английский (т. Е. Различая разные значения слов, например, in ínsight и incíte), поддерживает сегментацию непрерывной речи в словах ( 27 , 28 ) и является основой поэтический метр.Несмотря на частое сокращение слогов в непрерывной естественной речи, события пикового ритма отмечают более 70% ядер с ударением в целом и 89% ядер ударных слогов (рис. 3F и см. Рис. S4 для анализа немаркированных ядер ударных слогов). Величина peakRate была больше для ударных слогов, чем для безударных (чувствительность: d ′ = 1.06; рис. 3G). Таким образом, события PeakRate предоставляют необходимую информацию для извлечения времени прохождения слоговых единиц из непрерывной речи, критического перехода от начала к рифме в слоге и наличия силлабического ударения.В то время как многие теории постулируют роль оболочки для слоговой сегментации, т. Е. Обнаружения границ слогов, наши результаты предоставляют нейрофизиологические доказательства альтернативы тому, что peakRate является ориентиром для появления ядра слогового гласного, важность которого для когнитивной репрезентации Слоговая структура речи ( 29 , 30 ) и для обнаружения наиболее информативных частей речевого сигнала показана поведенчески ( 31 ).Примечательно, что связь между пиковым показателем частоты и началом ядра также сохраняется на двух других языках, испанском и мандаринском китайском (рис. S5).
Непрерывная речь: топографическая организация кодирования временных признаков в STG
Предыдущее исследование описывало кодирование предложения и фразы, начинающейся из тишины в задней STG, и кодирование спектрально-временных паттернов, соответствующих фонетическим признакам, в частности формантным гласным, в текущей речи в средний СТГ ( 18 , 19 ).Таким образом, мы стремились понять, как кодирование peakRate вписывается в эту глобальную организацию, и убедиться, что peakRate кодируется в дополнение к фонетическим функциям и началу в STG. С этой целью мы аппроксимируем нейронные данные с помощью расширенной модели регрессии с задержкой по времени, которая включала предикторы начала бинарных предложений, предикторы фонетических признаков согласных (взрывные, фрикативные, носовые, дорсальные, корональные и губные) и форманты гласных (F1, F2 , F3 и F4), в дополнение к peakRate (рис. 4A). Мы обнаружили, что 80% электродов достоверно реагировали, по крайней мере, на два признака, и что пиковая скорость наиболее часто кодировалась сама по себе (21 электрод) или совместно с началом предложения (73 электрода) или формант гласных (70 электродов; рис.4Б).
Рис. 4 Независимое и совместное кодирование пиковой скорости и других характеристик речи.( A ) Линейные веса из модели кодирования с фонетическими характеристиками и событиями peakRate для четырех образцов электродов. Различные электроды показывают кодировку различных функций вместе с пиковой скоростью. ( B ) Количество электродов с различными комбинациями двух важных характеристик с наибольшими линейными весами на электродах STG. Предикторы формант гласных (синий) и предикторы согласных (оранжевый) объединены для визуализации.Onset и peakRate не заполнены по диагонали, поскольку содержат только один предиктор. Кодирование пиковой скорости происходит одновременно с различными фонетическими функциями [например, от E2 до E4 в (A)], но также может происходить изолированно [E5 в (A)]. ( C ) Анатомическое распределение электродов с первичным кодированием начала, пиковой частоты, гласных или согласных по всем электродам правого полушария. Начальное кодирование сгруппировано в заднем STG, а кодирование peakRate преобладает в среднем STG. Правый полушарие.( D ) Распределение модельных бета-значений для peakRate в левом и правом полушарии. ( E ) Слева: корреляция между положением электрода вдоль STG и пиковым коэффициентом бета. Справа: корреляция между положениями электродов вдоль STG и началом бета. Начальные бета-значения являются наибольшими в заднем STG, а бета-значения peakRate являются наибольшими в среднем STG.
Анатомически кодирование peakRate было наиболее заметно в среднем STG в обоих полушариях (слева: r = 0,18, P <0.05 и справа: r = 0,26, P <10 –5 ; Рис.4, В и Д). Этот паттерн отличался от анатомического распределения начальных ответов, которые были наиболее сильными в задней STG (слева: r = -0,29, P = 0,001; справа: r = -0,37, P <10 — 10 ; рис. 4, C и E), что соответствует нашей предыдущей работе ( 18 ).
Мы не обнаружили разницы между левым и правым полушариями, кодирующими peakRate, что предполагает двустороннее кодирование этого признака (рис.4D). Однако, поскольку ни у одного из наших пациентов не было двустороннего охвата, могут существовать более тонкие различия во временной обработке между полушариями. Вместе эти результаты показывают, что кодирование временных характеристик охватывает карту от начала в заднем STG до пикового значения в среднем STG, тогда как спектральные структуры, которые соответствуют фонетическому содержанию, кодируются во всем STG ( 19 ).
Амплитудно-модулированные тона: одна только динамика нарастания амплитуды управляет нейронными откликами на пиковую частоту
Временные и спектральные изменения естественной речи по своей сути коррелированы.В результате одна потенциальная проблема заключается в том, что кодирование пиковой скорости фактически отражает спектральные изменения, которые происходят при переходе C-V в слогах ( 3 , 32 ). Поэтому мы спросили, отражают ли ответы STG на peakRate динамику нарастания амплитуды в отсутствие одновременных спектральных вариаций. С этой целью мы разработали набор неречевых амплитудно-модулированных гармонических тональных стимулов для подмножества из восьми участников.
Амплитудно-модулированные тональные стимулы содержали линейные изменения амплитуды, возрастающие от тишины (состояние перехода от тишины) или от «пьедестала» при базовой амплитуде на 12 дБ ниже пиковой амплитуды нарастания (состояние перехода от основания), как показано Инжир.5А. Эти два состояния были разработаны так, чтобы в целом походить на рост амплитуды в начале речи и во время продолжающегося высказывания, соответственно, но без каких-либо спектральных модуляций (например, переходов между гласными и формантными переходами) и вариаций пиковой амплитуды (например, разницы амплитуд между безударными и ударными гласными), коррелируют с ростом амплитуды речи. Длительность нарастания и пиковая амплитуда поддерживались постоянными для всех стимулов, тогда как время нарастания варьировалось параметрически (от 10 до 15 значений от 10 до 740 мс; см. Таблицу S1 для всех значений времени нарастания) как в условиях тишины, так и в условиях пьедестала.У стимулов были дополнительные восходящие и нисходящие наклоны, вместе обеспечивающие одинаковую продолжительность стимула. Чтобы упростить анализ в условиях тишины и пьедестала, мы описываем эти стимулы в терминах скорости изменения амплитуды [(пиковая амплитуда — базовая амплитуда) / времени нарастания, то есть крутизны нарастания амплитуды; Рис. 5B]. Поскольку амплитуда возрастала линейно, максимальная скорость изменения амплитуды (пиковая скорость) происходила в начале нарастания и была постоянной на протяжении всего подъема.
Инжир.5 STG-кодирование амплитудных модуляций в неречевых тонах в начальных и текущих звуках.( A ) Тональные стимулы, использованные в неречевом эксперименте. Скорость нарастания амплитуды регулируется параметрически, но максимальная амплитуда и общая длительность тона согласовываются. ( B ) Связь между временем нарастания нарастания и пиковым значением, определенная как для речевых стимулов. Значение peakRate было достигнуто сразу после начала линейного изменения, поскольку амплитуда линейно возрастала. ( C ) Распределение эффекта по всем электродам.Восемнадцать процентов всех электродов показали значительный эффект взаимодействия между типом линейного изменения и peakRate, в дополнение к 72%, показавшим основной эффект типа линейного изменения и 36%, показавшим основной эффект peakRate. ( D ) Реакция HGA на тональные сигналы с тремя выбранными значениями времени нарастания в условиях перехода от тишины (RfS; слева) и от опоры (RfP; справа) в примере электрода E6, ** P <0,05 . ( E ) HGA от начала до пика в электроде E6 как функция от пикового значения пика, отдельно для условий перехода от тишины и перехода от опоры.E6 кодирует скорость изменения амплитуды в условиях перехода из состояния тишины, но не в условиях перехода из состояния опоры. ( F ) То же, что (C), например, электрод E7, ** P <0,05. ( G ) То же, что (D), например, электрод E7. E7 кодирует скорость изменения амплитуды при условии перехода от опоры, но не при условии перехода от тишины. ( H ) Сетка височной доли от примера пациента, с примерами электродов E6 и E7, отмеченных красным. Цветовые коды электродов для относительной величины эффекта peakRate на пиковом HGA в условиях тона.На HGA пурпурных электродов больше влияла пиковая скорость в состоянии подъема от подставки, а на HGA зеленых электродов коррелировали со значениями пикового значения в условиях нарастания из-за тишины больше, чем в условиях наклона от подставки. Размер электрода отражает максимальное значение HGA от начала до пика во всех условиях. ( I ) Наклоны peakRate влияют на пиковое значение HGA, отдельно для каждого условия нарастания. В цветных электродах взаимодействие условия нарастания × пиковая скорость было значительным. Два различных набора электродов кодируют скорость изменения амплитуды только при одном из двух условий.( J ) Линейные веса из модели множественной регрессии, которая предсказала линейные веса начала и пикового значения в речевой модели из наклонов пиковогоРита в модели тона по электродам. Представление амплитудных модуляций в начале и в продолжающихся звуках разделяется в речи и в неречевых тонах. Кодирование пиковой скорости для нарастания огибающей из тишины отделено от кодирования пиковой скорости в текущих звуках, в речи и в неречевых тональных стимулах.
Анализы были сосредоточены на тех же электродах, которые были включены в анализ речевой задачи ( n = 226 электродов на восемь пациентов, от 11 до 41 электрода на пациента).Из этих электродов 95% показали вызванные ответы на тональные стимулы [FDR-скорректированный для множественных сравнений P <0,05 для по крайней мере одного из эффектов в условиях линейного изменения × дисперсионный анализ времени нарастания (ANOVA) анализ пиковых амплитуд]. Разные скорости изменения были связаны с различиями в ответах HG, которые стереотипно начинались сразу после начала линейного изменения и достигли пика примерно через 120 мс. В частности, для стимулов с промежуточной и медленной скоростью изменения пик нейронной реакции HGA предшествовал пику амплитуды стимула (рис.S6A). Этот результат дополнительно подтверждает peakRate, а не peakEnv, как акустическое событие, которое управляет нейронными ответами ( 33 ). Более того, нейронные реакции на тоны, которые нарастают от пьедестала, возвращаются к исходному уровню между стимулом и началом нарастания сигнала, несмотря на неизменный уровень амплитуды тона (знаковый ранговый тест между HGA от 0 до 200 мс после начала стимула и HGA от 300 до 500 мс после начало стимула, P <10 −10 ). Это обеспечивает дополнительное прямое свидетельство кодирования подъемов амплитуды, а не непрерывной огибающей или пиков амплитуды на STG.
Кроме того, в контрольном эксперименте мы проверили, будут ли нейронные отклики отличаться, если скорость изменения амплитуды будет варьироваться по возрастанию наклона огибающей. Нейронные ответы на линейно возрастающие рампы не отличались от ответов на стимулы с нелинейной динамикой нарастания амплитуды, для которых скорость изменения амплитуды была максимальной в начале нарастания, а затем замедлялась на протяжении нарастающего наклона огибающей ( n = 2 пациента) . Нейронные ответы на оба стимула были качественно идентичны и определялись значениями peakRate (см. Рис.S7).
Амплитудно-модулированные тона: отчетливое кодирование начала и амплитудной модуляции в тональных стимулах
Затем мы хотели проверить, как скорость нарастания амплитуды изменит величину нейронных ответов и будут ли нейронные ответы различаться между предыдущими контекстами, то есть начинается ли наклон с тишины (начало аналоговой речи) или с пьедестала (как в продолжающейся речи). Мы сосредоточили следующий анализ на влиянии динамики роста амплитуды на величину от начала до пика ответов HGA, определяемую как разность между HGA во время начала линейного изменения и на пике HG.Мы проверили, как пиковое значение HGA зависит от состояния нарастания (нарастание от пьедестала против наклона от тишины) и значений peakRate, подбирая общую линейную модель с предикторами состояния тона, peakRate и их линейным взаимодействием, отдельно для каждого электрода.
Тональные стимулы вызывали устойчивые ответы в электродах, расположенных в задней и средней STG (см. Рис. 5G, например, электродную сетку), с более сильными ответами на скачки, начиная с тишины (среднее значение b = 0,3212 из 243 электродов с P <0.05; точный биномиальный тест против вероятности наблюдения эффекта на 5% электродов, P <10 −4 ; Рис. 5C). Более того, на подмножестве электродов STG пик HGA модулировался с помощью параметра peakRate с более выраженными нейронными ответами на быстрорастущие линейные изменения (среднее значение b = 0,2 на 90 из 243 электродов с P <0,05; точный биномиальный тест против уровня вероятности наблюдения влияние на 5% электродов, P <10 -4 ; Рис. 5C). Подобно нашим результатам в речи, некоторые электроды кодировали пиковую скорость только при одном из двух условий линейного изменения, что приводило к значительному эффекту взаимодействия на 45 электродов (18% каналов; точный биномиальный тест против уровня вероятности наблюдения эффекта на 5% электродов. , P <10 -4 ).
Электроды E6 (фиг. 5D) и E7 (фиг. 5F) иллюстрируют два образца реакции, которые управляют этим эффектом взаимодействия, с эффектом отрицательного взаимодействия в E6 и положительным эффектом взаимодействия в E7. Амплитуда вызванных откликов в электроде E6 уменьшалась с увеличением peakRate в состоянии перехода от тишины ( b = 0,3, P <0,05), но не зависела от peakRate в состоянии перехода от пьедестала [ b = 0,08, P > 0,05; Рис. 5, C (справа) и E для пика HGA при всех условиях времени нарастания; линейное взаимодействие условий линейного нарастания × пиковая скорость: b = -0.29, P <0,05]. Электрод E7 показал противоположную картину, с уменьшением HGA для более низких значений peakRate в условиях наклона от пьедестала ( b = 0,32, P <0,05; рис. 5F, справа), но никакого влияния peakRate под условие перехода из-за тишины [ b = 0,04, P > 0,05; Рис. 5, F (слева) и G для пика HGA при всех условиях времени нарастания; линейное взаимодействие условий линейного нарастания × пиковая скорость: b = 0,21, P <0.05]. В целом, нейронная активность на электродах с эффектом отрицательного взаимодействия ( n = 27; зеленый на рис. 5J) кодировала peakRate в состоянии перехода от тишины, но не в состоянии перехода от пьедестала, тогда как электроды с положительным Эффект взаимодействия ( n = 18; фиолетовый на фиг. 5J) закодировал peakRate только при условии перехода от пьедестала (кодирование начала и пика было одинаково независимым в речевых данных; см. фиг. S8).
Эти результаты демонстрируют, что нейронные популяции на STG-кодирующей амплитуде возрастают независимо от других сопутствующих сигналов в речи.Путем параметрического изменения peakRate отдельно от других параметров амплитуды эти данные убедительно подтверждают идею о том, что представление STG огибающих амплитуды отражает кодирование дискретных слуховых краев, отмеченных временными точками быстрых изменений амплитуды. Эти данные также выявили заметную двойную диссоциацию между контекстным кодированием peakRate в звуках, происходящих в тишине, и кодированием peakRate в амплитудных модуляциях текущих звуков, что указывает на то, что выделенные нейронные популяции отслеживают наступления после молчания, например.g., начала предложений и фраз и внутрисложные переходы.
Сравнение кодирования начальной и пиковой скорости в непрерывной речи и тонах с амплитудной модуляцией
Кодирование скорости изменения амплитуды аналогично для речевых и неречевых тонов . В конечном итоге мы проверили, отражает ли кодирование событий peakRate неречевыми тонами те же основные вычисления, что и обнаружение событий peakRate в речи. Мы рассудили, что если нейронная популяция, кодирующая амплитуду, увеличивается как в тонах, так и в речевых стимулах, то нейронные реакции на электродах, которые предпочтительно кодируют динамику нарастания амплитуды, возрастают для нарастания амплитуды, которое начинается в тишине (например.g., фиг. 5, D и E) также будет реагировать на начало предложения в речи (на что указывают высокие значения бета для предиктора начала в модели кодирования речи). И наоборот, мы ожидали, что электроды, которые кодируют динамику нарастания амплитуды для нарастания в текущих тонах (состояние нарастания от пьедестала; например, рис. 5, F и G), также будут кодировать события peakRate в предложениях [на что указывают высокие значения бета для peakRate в речевой модели TRF]. Чтобы проверить это, мы оценили, можно ли предсказать бета-значения речевой модели для начала и пикового значения бета-значений пикового значения одних и тех же электродов в условиях перехода от тишины и перехода от пьедестала.Две отдельные линейные множественные регрессии были подобраны для прогнозирования бета-значений речевой модели на основе значений бета-версии peakRate в задаче на тон (рис. 5K).
Мы обнаружили, что реакции на начало предложения в речи в значительной степени предсказывались путем кодирования пиковой скорости в линейных изменениях тона, начиная с тишины ( b = 0,64, SD = 0,11, P <10 −7 ), но не отслеживанием пиковой скорости изменения тона в текущих тонах ( b = 0,06, SD = 0,14, P = 0.7), и эта разница была значимой (тест перестановки равенства оценок регрессии, P = 0,003). Аналогичным образом, кодирование событий peakRate после начала предложения в речи не было связано с кодированием роста амплитуды тона из тишины ( b = 0,02, SD = 0,06, P = 0,7), но оно было значительно предсказано кодированием роста амплитуды. динамика в текущих тонах ( b = 0,16, SD = 0,07, P = 0,02). Важно отметить, что это различие также было значительным (тест перестановки равенства оценок регрессии, P = 0.02). Этот анализ показывает устойчивое перекрытие между нейронными вычислениями, лежащими в основе отслеживания начала звука и динамикой амплитудной модуляции речи и тонов. Более того, это подтверждает функциональную и анатомическую диссоциацию между отслеживанием амплитудных модуляций в двух различных динамических диапазонах — в начале и в продолжающихся звуках.
ОБСУЖДЕНИЕ
Наши результаты демонстрируют, что определенная область слуховой речевой коры человека, средний STG, обнаруживает особую особенность огибающей: акустический начальный край (peakRate).Он не обрабатывает линейно мгновенную модуляцию текущей речевой огибающей или других событий, таких как пики, спады или смещения амплитуды. Таким образом, средний STG представляет речевую огибающую как серию дискретных во времени событий, а величина коркового ответа отражает скорость подъема огибающей. Обнаружение края выступает как гибкий вычислительный механизм для кодирования структуры непрерывной речи по скоростям речи ( 34 , 35 ), обеспечивая основу для временной организации речевого потока и дискретизируя его на серию событий на основе амплитуды. .
Согласно широко распространенному мнению в речевой нейробиологии, конверт позволяет анализировать речь на фрагменты, определяемые слоговыми границами ( 36 ). Однако окончательные доказательства нейронного кодирования границ слогов, которые более точно соответствуют впадинам в амплитудной огибающей ( 37 ), были неуловимы ( 2 , 38 ). Вместо этого peakRate обеспечивает временную структуру для организации речевого сигнала вокруг внутрисложного перехода между началом и ядром в каждом слоге и, в отличие от слоговых границ, передает важную фонологически значимую информацию, такую как время перехода между началом и рифмой, скорость речи. и схемы силлабического ударения ( 27 , 28 ).
Наши результаты согласуются с основанными на ориентирах теориями распознавания речи ( 39 , 40 ), которые постулируют, что ориентиры на основе амплитуды являются необходимым уровнем анализа речи. Это подтверждается поведенческой психофизикой: например, введение только быстрого нарастания амплитуды до гармонических тонов, подобных гласным, может вызвать восприятие последовательности согласных и гласных ( 41 , 42 ), а повышение амплитуды критично для правильное восприятие временного порядка фонетических последовательностей ( 43 ).
Модель ориентира peakRate связывает относительно простое свойство слухового кодирования (обнаружение края) с лингвистическими свойствами слога. В фонологии относительная интенсивность соседних фонем (называемая звучностью) в слоге следует универсальной структуре. Звук всегда достигает пика на слоговом ядре, так что peakRate отмечает начало ядра. В английском языке это эквивалентно обозначению начала гласных. Однако в языках с согласными в слоговом ядре [e.g., Czech, Tashlhiyt Berber ( 26 )], peakRate по-прежнему будет отмечать ядро, потому что эти согласные звуки ядра являются наиболее звучными. То есть этот слоговый ориентир основан на амплитуде, а не на спектральных характеристиках гласного или согласного.
Переход начала-рифмы возникает из этого STG-представления конверта как основного аспекта слоговой структуры. Это хорошо согласуется с поведенческими данными. Например, в то время как слушатели часто расходятся во мнениях относительно расположения слоговых границ, они легко соглашаются с количеством слогов в высказывании и их ударением ( 44 ).Более того, существуют убедительные поведенческие свидетельства перцептивной специфичности начала и рифмы в слоге во многих языках (подавляющее большинство человеческих языков придерживается различия в начале-рифме в слогах. Однако даже для языков с другой структурой, например , языки мора, такие как японский, где начало и гласная образуют единицу, события peakRate могут вносить свой вклад, отмечая время мора, а величина peakRate может сообщать о количестве мор в слоге), а также обнаружение ориентир на этом переходе может подтвердить это.Например, путаница в речи часто возникает в одной и той же позиции слога (например, начала заменяются другими началами), сходство между словами легче распознается, если оно происходит по различению начала рифмы ( 45 ), и способность к различие между началом и рифмой является предиктором успешного освоения чтения ( 46 ).
Огибающая амплитуды является важной характеристикой звуков, а динамика огибающей амплитуды кодируется по всей слуховой системе различных моделей животных ( 47 ).Единичные записи вдоль слухового пути до вторичной слуховой коры показали, что время появления одиночных нервных спайков и частота их возбуждения отражают динамику подъемов оболочки ( 48 — 50 ). Кодирование огибающей в STG человека, возможно, происходит из представлений огибающей амплитуды на более низких ступенях слуховой системы. Таким образом, это, вероятно, не уникальное свойство обработки речи, а скорее универсальная акустическая особенность, имеющая прямую связь с лингвистической структурой речи.
Обнаружение краев также является центральным принципом обработки изображений. Предыдущая работа продемонстрировала, что аналогичные вычислительные принципы, а именно отслеживание первой и второй производных интенсивности сигнала, могут учитывать перцепционные и физиологические аспекты обнаружения краев при слухе и зрении ( 51 ). Кроме того, наши результаты повышают вероятность того, что отдельные нейронные популяции могут быть предназначены для обнаружения акустических границ в разных динамических диапазонах, таких как начала и изменения в стимуле.
Мы недавно сообщили, что весь задний STG кодирует начало речи из тишины. Здесь мы воспроизводим этот результат, а также показываем, что кодирование еще одной амплитудной реплики в текущей речи, пиковая скорость, локализовано в средней области STG, где оно вызывает вызванные ответы на более чем половине участков электродов, реагирующих на речь. Локальные нейронные популяции в каждой зоне могут быть настроены на определенные фонетические особенности ( 19 ). Таким образом, наши результаты создают корковую карту для основанного на ориентирах временного анализа речи в STG человека, которая закладывает основу для восприятия временной динамики речи, включая образцы стресса в повседневной речи, а также поэтический размер и рифму.
МЕТОДЫ
Участники
Двенадцати пациентам (две женщины) были имплантированы 256-канальные, субдуральные сетки ЭКоГ с расстоянием между электродами 4 мм в рамках лечения трудноизлечимой эпилепсии. Электродные сетки располагались над перисильвиевой областью одного из полушарий пациента (пять сеток левого и шесть правых полушарий). Размещение сетки определялось клиническими соображениями. Положение электродов было извлечено из постимплантационных компьютерных томографических снимков, зарегистрировано на структурной магнитно-резонансной томографии пациентов и наложено на трехмерные реконструкции кортикальных поверхностей пациентов с использованием специально написанного конвейера визуализации ( 52 ).У всех участников был нормальный слух и леводоминантная языковая функция. Десять участников были носителями английского языка. Двое участников были носителями испанского языка, но не знали английского. Поскольку мы не увидели разницы между их результатами и данными носителей английского языка, их данные были включены во все анализы. Исследование было одобрено Комитетом по исследованиям человека Калифорнийского университета в Сан-Франциско. Все участники дали информированное письменное согласие перед экспериментальным тестированием.Все пациенты участвовали в речевом эксперименте, подгруппа из четырех пациентов участвовала в эксперименте с медленной речью, а подгруппа из восьми пациентов участвовала в эксперименте с амплитудно-модулированным тоном (таблица S1).
Стимулы и процедура
Все стимулы подавались с комфортной внешней громкостью (~ 70 дБ) через динамики со свободным полем (Logitech), расположенные примерно в 80 см перед головой пациента, с использованием специально написанного MATLAB R2016b (MathWorks, www. .mathworks.com) скрипты.Речевые стимулы отбирались с частотой 16000 Гц, а тональные стимулы — с частотой 48000 Гц для представления в эксперименте. Участников просили внимательно слушать стимулы и могли держать глаза открытыми или закрытыми во время предъявления стимула.
Непрерывная речь (TIMIT)
Участники пассивно слушали выборку из 499 английских предложений из корпуса TIMIT ( 20 ), на которых говорили разные мужчины и женщины с разными североамериканскими акцентами.Данные в этой задаче были записаны в пяти блоках продолжительностью примерно 4 минуты каждый. Четыре блока содержали отдельные предложения, представленные только один раз во всех четырех блоках, а один блок содержал 10 повторений по 10 предложений. Этот последний блок использовался для проверки моделей TRF (см. Ниже). Предложения были длиной от 0,9 до 2,4 с и представлялись с интервалом между пробами в 400 мс. Акустический анализ корпусов испанского ( 53 ) и китайского ( 54 ), показанных на рис. S5 использовал те же методы извлечения амплитуды, что и для корпуса TIMIT.
Замедленная речь
Набор стимулов для замедленной речи состоял из четырех предложений, выбранных из блока повторения набора стимулов TIMIT, представленных с четырьмя разными скоростями речи: исходный, 1 / 2 , 1 / 3 , и 1 / 4 . Участники слушали стимулы блоками по 5 минут, которые содержали по три повторения каждого стимула с интервалом между пробами 800 мс. Каждый участник прослушал от трех до пяти блоков замедленной речи, что привело к повторению от 9 до 15 стимулов на каждого участника.Замедленные речевые стимулы были созданы с использованием алгоритма PSOLA (Pitch Synchronous Overlap and Add), реализованного в программном обеспечении Praat ( 55 ), который замедляет временную структуру речевого сигнала, сохраняя при этом его спектральную структуру постоянной ( 56 ). ).
Амплитудно-модулированные тона
В этом эксперименте с неречевым тоном участники пассивно слушали гармонические тоны, которые содержали нарастание амплитуды, начиная либо с тишины (условие перехода от тишины), либо от четко слышимой базовой амплитуды (состояние нарастания от опоры ; Рисунок.4А). Общая длительность нарастания амплитуды составила 750 мс. В условиях нарастания от пьедестала нарастанию предшествовали 500 мс, за которыми следовали 250 мс тонального сигнала с базовой амплитудой (на 12 дБ ниже пиковой амплитуды). Пиковая амплитуда наклона была одинаковой для разных условий. Амплитуда нарастания линейно увеличивалась от базовой линии / тишины, а затем сразу же снижалась до базовой линии / тишины на оставшуюся часть времени линейного нарастания. Время нарастания рампы принимало от 10 до 15 различных значений от 10 до 740 мс в зависимости от пациента (полный набор: 10, 30, 60, 100, 140, 180, 270, 360, 480, 570, 610, 650, 690, 720, и 740).В условиях перехода от тишины стимулы представляли собой гармонические тона с основной частотой 300 Гц и пятью гармониками (900, 1500, 2100, 2700 и 3300 Гц). В условиях перехода от пьедестала половина стимулов имела такую же спектральную структуру, что и фон нарастания из тишины, а половина стимулов представляла собой чистые тона с частотой 1500 или 2700 Гц. С-взвешенная амплитуда была выровнена между гармониками. Поскольку нейронные реакции на линейный импульс не различались между гармоническими и чистыми стимулами, мы сообщаем обо всех анализах, объединенных по этим стимулам.Пациенты пассивно слушали 10 повторений каждого стимула. Порядок стимулов был псевдослучайным, и весь эксперимент был разбит на пять равных блоков примерно по 5 минут каждый.
Для сравнения между условиями мы преобразовали время нарастания рампы в скорость нарастания амплитуды, рассчитанную как Скорость изменения (1 с) = Ppeak-Pbaserise time (1), где P пик и P base являются звуковыми давление на пике кривой и на исходном уровне соответственно. Из-за линейной динамики нарастания скорость нарастания амплитуды достигла максимума в начале линейного нарастания и оставалась постоянной на протяжении всего подъема линейного нарастания, так что пиковая скорость была равна скорости нарастания амплитуды.
Анализ данных
Все анализы проводились в MATLAB R2016b (MathWorks, www.mathworks.com) с использованием стандартных наборов инструментов и написанных на заказ скриптов.
Сбор и предварительная обработка нейронных данных
Мы записали сигналы ЭКоГ с помощью многоканального усилителя PZ2, который был подключен к цифровой системе сбора сигналов RZ2 [Tucker-Davis Technologies (TDT), Алачуа, Флорида, США], с частотой дискретизации 3052 Гц. Звуковой стимул отделялся от выхода компьютера презентации и записывался в схеме TDT, синхронизированной по времени с сигналом ECoG.Кроме того, звуковой сигнал был записан с помощью микрофона и также был введен в RZ2. Ссылка на данные в усилителе была онлайн. Никаких дополнительных ссылок на данные не применялось.
Автономная предварительная обработка данных включала (в этом порядке) понижающую дискретизацию до 400 Гц, режекторную фильтрацию линейного шума на 60, 120 и 180 Гц, исключение плохих каналов и исключение плохих временных интервалов. Плохие каналы при визуальном осмотре определялись как каналы с чрезмерным шумом. Плохие временные точки определялись как временные точки с шумовой активностью, которая обычно возникала из-за артефактов движения, межприступных всплесков или нефизиологического шума.Из оставшихся электродов и временных точек мы извлекли аналитическую амплитуду в диапазоне высоких гамма-частот (от 70 до 150 Гц, HGA) с помощью восьми полосовых фильтров [гауссовские фильтры, логарифмически увеличивающие центральные частоты (от 70 до 150 Гц) с полулогарифмическим увеличение пропускной способности] с преобразованием Гильберта. Амплитуда высокого гамма-излучения была рассчитана как первый главный компонент сигнала в каждом электроде во всех восьми диапазонах высокого гамма-излучения с использованием анализа основных компонентов. Наконец, HGA была понижена частота дискретизации до 100 Гц и z -оценка относительно среднего значения и стандартного отклонения данных в каждом экспериментальном блоке.Все дальнейшие анализы основывались на полученных временных рядах.
Первоначальный выбор электрода
Анализы включали электроды, расположенные в верхних слуховых и речевых корках STG, которые показали устойчивые вызванные ответы на речевые стимулы, определенные как электроды, для которых модель линейного спектрально-временного кодирования ( 22 ) объяснила более 5 % дисперсии в наборе тестовых данных (см. ниже процедуру подгонки модели, которая была идентична процедуре подбора TRF).Анализы содержали 384 электрода, от 11 до 56 у отдельных пациентов.
Эксперимент с непрерывной речью (TIMIT)
Извлечение акустических характеристик . Мы извлекли широкую амплитудную огибающую речевых стимулов, используя метод удельной громкости, введенный Шотолой ( 57 ), который качественно идентичен другим широко используемым методам извлечения амплитуды ( 58 , 59 ). Этот метод извлекает аналитическую огибающую речевого сигнала, отфильтрованного в критических полосах на основе шкалы Барка ( 60 ), путем прямоугольного выпрямления сигнала в каждом банке фильтров, усреднения по всем полосам и полосовой фильтрации от 1 до 10 Гц ( Инжир.6). Затем мы вычислили производную полученных контуров громкости как меру скорости изменения огибающей амплитуды. Наконец, мы извлекли разреженные временные ряды локальных пиков в огибающей амплитуды (peakEnv) и ее производной (peakRate). Эта процедура привела к набору функций для каждого цикла огибающей амплитуды (определяемой как огибающая между двумя соседними локальными впадинами; рис. 1А, вставка): амплитуды пикового значения и пика скорости, их задержки относительно предыдущего впадения огибающей и общая продолжительность цикла.Обратите внимание, что мы не применяли пороговые значения для определения впадин или пиков; тем не менее, мы сохранили величину огибающей и ее производной на локальных пиках для всей подгонки модели, так что модели естественным образом взвешивали большие пики больше, чем маленькие пики. Мы также сравнили этот метод извлечения огибающей с широкополосной огибающей речевого сигнала, прошедшей фильтр нижних частот с частотой 10 Гц, что дало те же качественные результаты на протяжении всей статьи.
Рис. 6 Схема метода извлечения конверта.Общий подход к подгонке и сравнению моделей . Все модели прошли пятикратную перекрестную проверку: модели соответствовали 80% данных и оценивались на оставшихся 20% набора данных в виде корреляций предсказанных и фактических реакций мозга Пирсона. Затем корреляции были возведены в квадрат, чтобы получить R 2 , меру доли дисперсии в сигнале, объясняемой моделью. Сравнение моделей проводилось на перекрестно проверенных значениях R 2 , усредненных по всем пятикратным значениям, которые были рассчитаны отдельно для средних нейронных ответов (через 10 повторений) для каждого предложения тестового набора.Использование перекрестной проверки и тестирования моделей на удерживаемом наборе позволяет сравнивать модели между моделями разной сложности, например, между моделями с непрерывной огибающей и разреженными моделями peakRate ( 22 ). Формальные сравнения между значениями R 2 на электродах проводились с использованием критерия суммы рангов Вилкоксона и порога значимости 0,05. Чтобы проверить значимость каждой модели для одиночных электродов, модели были переоборудованы 1000 раз на перетасованных данных, в результате чего были получены нулевые распределения на основе перестановок модели R 2 .
Представление огибающей мгновенной амплитуды . Чтобы проверить, содержат ли нейронные данные представление мгновенных значений огибающей амплитуды, мы вычислили максимум взаимной корреляции между огибающими амплитуды речи и HGA, ограниченный положительными задержками (т. Е. Отставание нейронных данных от огибающей речи). Оптимальная задержка была определена на обучающем наборе данных, а соответствие модели затем оценивалось на независимом тестовом наборе (см. Выше).
Модель множественной регрессии с временной задержкой (TRF) .Чтобы определить, на какие особенности электродов акустических стимулов реагировали, мы сопоставили нейронные данные с моделями линейного временного рецептивного поля (TRF) с различными наборами речевых характеристик в качестве предикторов. Для этих моделей нейронный ответ в каждый момент времени [HGA ( t )] был смоделирован как взвешенная линейная комбинация характеристик ( f ) акустического стимула ( X ) в окне 600 мс перед этим. момент времени, в результате чего получается набор коэффициентов модели, b 1…, d (Рис.1C) для каждой функции f , с d = 60 для частоты дискретизации 100 Гц и включения функций из окна 600 мс. K = 1d∑ f = 1Fb (k, f) X (f, t − k) = HGA (t) (2)
Модели оценивались отдельно для каждого электрода с использованием линейной гребневой регрессии на обучающем наборе из 80% речевых данных. Параметр регуляризации оценивался с использованием 10-этапной процедуры начальной загрузки на обучающем наборе данных для каждого электрода отдельно. Затем было выбрано окончательное значение как среднее оптимальных значений по всем электродам для каждого пациента.
Для всех моделей предикторы и зависимые переменные были масштабированы от -1 до 1 перед входом в модель. Такой подход гарантировал, что все оценочные бета-значения не имеют масштабирования и их можно напрямую сравнивать между предсказателями, причем бета-величина является показателем вклада предсказателя в производительность модели.
Модель восприимчивого поля . Чтобы оценить степень перекрытия между отслеживанием огибающей амплитуды и кодированием фонетических признаков в электродах STG, мы также использовали модель множественной регрессии с временной задержкой, которая включала медианные значения первых четырех формант для всех гласных, а также место и манеру артикуляции согласных, кроме того. к предикторам начала и пика.Фонетические признаки и предикторы формант были приурочены к началу соответствующих фонем в речевом сигнале. Сравнение значений бета для различных предикторов было основано на максимальных значениях бета по временным точкам. Фонетические особенности этой модели были извлечены из синхронизированных по времени фонетических транскрипций корпуса TIMIT и стандартных фонетических описаний фонем американского английского. Форманты гласных экстраполировались с помощью свободно доступного пакета программ Praat ( 55 ).
Чтобы оценить значимость предикторов в моделях кодирования TRF, мы использовали процедуру начальной загрузки.Модель обновлялась 1000 раз на случайно выбранном подмножестве данных. Это было использовано для оценки распределений параметров модели. Значимость одного признака в модели была определена как минимум 10 последовательных значимых бета-значений для этого признака ( P <0,05 с поправкой Бонферрони для множественных сравнений между электродами).
Тест пространственного распределения . Пространственная организация электродов, кодирующих начала, пиковую частоту и фонетические особенности на STG, была протестирована путем корреляции значений бета ( b ) для каждого признака с расположением электродов вдоль передне-задней оси ( p ) проекция расположения электродов одного пациента на шаблоне MNI (Монреальский неврологический институт).Положительные корреляции указывают на более сильное кодирование в большем количестве передних STG, тогда как отрицательные корреляции указывают на более сильное кодирование в более задних STG.
Эксперимент с замедленной речью
TRF модели . Мы протестировали модели множественной регрессии с временной задержкой, которые были подогнаны к обучающим данным TIMIT, на данных из четырех условий скорости речи. Обратите внимание, что все четыре предложения, представленные в этой задаче, были частью набора тестов TIMIT, и, таким образом, функции, созданные для предложений TIMIT, были повторно использованы в этой задаче с соответствующей корректировкой задержек.Мы использовали качество подгонки моделей и сравнение моделей на каждой скорости речи в качестве индикатора того, сохранил ли STG представление мгновенной огибающей амплитуды или знаковых событий. Мы использовали линейную регрессию по электродам, чтобы проверить, изменяется ли разница между моделями peakEnv и peakRate в зависимости от скорости речи.
Выравнивание по акустическим ориентирам . Нейронные данные HGA были сегментированы вокруг появления ориентира peakEnv и peakRate (400 мс до и 600 мс после каждого ориентира) и усреднены в пределах каждого условия скорости.В анализ были включены все знаковые события ( n = 21), за исключением начала предложения. Мы извлекли задержку пиков HG относительно обоих ориентиров для каждого электрода. Поскольку оценки задержки очень чувствительны к шуму при низких отношениях сигнал / низкий, мы включили электроды только из верхнего квантиля амплитуд отклика в peakRate или peakRate, как оценивается в моделях TRF (от 5 до 20 на участника, всего 41). Влияние скорости речи и ориентира на пиковые задержки HGA оценивали с помощью двухстороннего дисперсионного анализа с повторными измерениями с коэффициентом скорости речи и ориентиром.
Эксперимент с амплитудно-модулированным тоном
Сбор и предварительная обработка данных . Сбор и предварительная обработка данных выполнялись так же, как и для речевых данных. Тем не менее, оценка z для задания на тон выполнялась отдельно для каждого испытания на основе среднего значения HG и дисперсии в течение 500 мс перед началом действия стимула. Ответы были усреднены по повторениям одного и того же условия нарастания и комбинации времени нарастания перед дальнейшим анализом.
Реагирование на тональные стимулы и выбор электродов .Поскольку нас интересовало, как речевые электроды реагируют на неречевые амплитудно-модулированные тона, был проведен анализ всех электродов, которые были включены в речевую задачу. Мы количественно оценили реакцию на начало линейного изменения как разность амплитуд от минимума до пика между HGA в окне 50 мс вокруг начала линейного изменения и максимальным HGA в окне 750 мс после начала линейного изменения.
Общая линейная модель амплитуд отклика . Мы проанализировали влияние типа нарастания (нарастание от тишины по сравнению с нарастанием от фона) на размах амплитуды отклика для каждого электрода отдельно, используя общую линейную модель с предикторами типа линейного изменения, временем нарастания логарифмического нарастания и их линейным взаимодействием. с порогом значимости, установленным на P <0.05 (без исправлений).
Благодарности: Мы благодарим К. Джонсона, К. Шрейнера, С. Нагараджана, С. Гринберга, А. Бреска, Л. Гамильтона, Дж. Даунера, П. Халлетта, М. Леонарда, Б. Мэлоуна и С. Танг за полезные комментарии и отзывы. Мы также благодарим Л. Гамильтона и Э. Эдвардса за предоставленный код для анализа данных TIMIT и других членов Chang Lab за помощь в сборе данных. Финансирование: Эта работа была поддержана грантами NIH (R01-DC012379 для E.F.C.) и Немецкого исследовательского совета (OG 105/1 до Y.О.). E.F.C. является исследователем Робертсона из Нью-Йоркского фонда стволовых клеток. Это исследование также было поддержано Нью-Йоркским фондом стволовых клеток, Медицинским институтом Говарда Хьюза, Фондом Макнайта, Фондом Шерла и Кея Курчи и Фондом Уильяма К.