Морфемный разбор слова Первый — Школьные Знания.com
СРОЧНО ПОМОГИТЕ! 1) Что случилось с природой? 2) Всё вокруг ожило, словно кто-то её раскрасни. 3)Потрудилась Художница-Весна! 4) У этой художницы есть … свои краски, которые онаподарила природе.5) Своим любимым зелёным она раскрасила растущую травку. 6) Таким же цветомпокрыла лес.7) Голубым она раскрасила небо, а белым — те далёкие облака. 8) Будто по голубомуозеру плывут белые лебеди — облака.9) Но впереди у Весны ещё столько работы. 10) Разные краски понадобятся ей, чтобысоздать прекрасный орнамент.1. Выписать местоимения и определить их разряды.2. Сделать синтаксический разбор последнего предложения,3. В четвёртом предложении определить части речи.
Выпишите предложение в котором нужно поставить тире.Напишите на каком основании вы сделали свой выбор 1.Повесть «Муму» трагичная и трогательная 2. Про … тотип барыги в повести «Муму» мать И.С.Тургенева 3. Произведение писателя интересны и современны 4. Творчество И.С.Тургенева волнует читателей до сих пор Помогите пожалуйста
ПОМОГИТЕ ПОЖАЛУЙСТА С СОЧИНЕНИЕМ!!!!!! ОЧЕНЬ НУЖНО!!!»Как мы с Гарри Потером победили Лорда Волдеморта»ПОМОГИТЕ ПОЖАЛУЙСТА! ДО СДАЧИ СОЧИНЕНИЯ ОСТАЛОС … Ь 20 МИНУТ.сочинение неменее страницы
Все произведение бауржана момуш улы
помогите пж, даю 14 б. очень срочно
срочно нужен ответ мне и не на до халтурит
По данным схемам смоделируйте и запишите слож-ноподчинённые предложения с придаточными определи-тельными. Выделите грамматические основы, объяснитерас … становку знаков препинания.Сущ. С которымСущ. ГдеСущ. КудаСущ. Которому
358. Прочитайте, найдите в тексте предложения, которые связаны с помощью указатель-ных местоимений. Спишите. Укажите падеж и число указательных местои … мений. Какое ме-стоимение не изменяется?В иных озёрах вода напоминает блестящуютушь. Трудно, не видя, представить себе этот на-сыщенный, густой цвет.Такой цвет особенно хорош осенью, когдана чёрную воду слетают жёлтые и красные лис-тья берёз и осин. Они устилают воду так густо,что чёлн шуршит по листве и оставляет за собойблестящую чёрную дорогу. Но этот цвет хорошилетом, когда белые лилии лежат на воде, как нанеобыкновенном стекле.К. Паустовский(срочно нужноооо)
Написать сообщение о погоде с наречиями. 5-6 предложений
морфологический разбор слов трактор,ракета и разбор по составу слов самолёт и бронепоезд. помоги пожалуйста
Этапы морфемного анализа — Русский язык без проблем
вернуться на главную, на стр. “Морфемика в таблицах“, “Морфемный разбор”
ЭТАПЫ МОРФЕМНОГО АНАЛИЗА
- Определение части речи
-изменяемая (есть окончание): Выражение лица было (каково?) грустн-о. Краткое прилагательное
-неизменяемая (нет окончания): Он смотрел (как?) грустно. Наречие
- Выделение основы изменяемого слова и окончания (просклонять проспрягать): грустный грустн/ый – грустн/ого; основа: грустн-; смотреть смотр/ю – смотр/ишь;
III. Установление морфемного состава слова (восстановить словообразовательную цепочку): снимать морфемы одну за одной – пис/а/тель/ниц(а)←пис/а/тель←пис/а(ть)при/влек/а/тельн(ый)←при/влек/а(ть)
Определение типа аффиксов (какая морфема добавлена последней?), если суффикс, суффиксальный способ, если приставка — префиксальный
- Выявление корневой морфемы (подобрать родственные слова), возможны чередования не путать: люб/овь – любл/ю; для сравнения: любл/ю – люб/и/л (л – формообраз. суф.)
- Подбор одноструктурного слова (подобрать словоформу той же части речи, по строению и типу морфем): при/влек/а/тельн(ый), про/ниц/а/тельн(ый)
Схема полного разбора слова по составу (с письменным или устным доказательством)
1. Выполнить графический разбор слова
2. Выписать окончание, указать грамматическое значение окончания. Указать (если есть) суффиксы, образующие форму слова.
4. Составить словообразовательную цепочку (для слов с несвязанными корнями) или подобрать одноструктурные слова (для слов со связанными корнями). Одноструктурными называют слово (соответствующее данному, хотя материальное выражение морфем может быть иным.
5. Записать корень, подобрать однокоренные слова, указать возможные чередования в корнях гласных и согласных звуков: .
5. Выписать суффиксы и приставки.
Необходимо отметить словообразующие и формообразующие (словоизменительные) аффиксы, у последних указать образуемую с их помощью форму.
Остались вопросы — задай в обсуждениях https://vk.com/board41801109
Усвоил тему — поделись с друзьями.
Тест на тему Схема морфемного разбора
Тест на тему Морфемный разбор
Тест на тему Морфемный разбор
Тесты на тему Морфемика
вернуться на главную, на стр. “Морфемика в таблицах“, “Морфемный разбор”
Автоматический морфемный разбор русских слов на основе решающих деревьев с применением бустинга Текст научной статьи по специальности «Языкознание и литературоведение»
Автоматический морфемный разбор русских слов на основе решающих деревьев с применением бустинга
Сапин А.С., МГУ имени М.В. Ломоносова, факультет ВМК alesapin@gmail. com
Аннотация
В статье представлена модель на базе машинного обучения для решения задачи морфемного разбора слов русского языка. Проводится обзор и экспериментальное сравнение с существующими решениями, при этом используются два словаря морфемного разбора русского языка отличающиеся по морфемному составу. Результаты экспериментов показывают, что представленная модель деревьев решений с применением бустинга превосходит другие модели для одного из рассматриваемых словарей, а для второго показывает сравнимое качество.
1 Введение
В задачах автоматической обработки текстов важнейшей составляющей является способ представления текста. Как правило, текст рассматривается как упорядоченный или неупорядоченный набор слов (лемм) или словоформ. Сами слова, в простейшем случае, могут быть представлены как бинарные вектора в пространстве слов, где размерностью вектора является количество всех слов в исследуемом тексте. Однако, такой подход является неэффективным из-за большой размерности пространства и вычислительной сложности. Для снижения размерности и более эффективного представления слов используются методы на базе машинного обучения.
Наиболее хорошо зарекомендовали себя методы на основе идей дистрибутивной семантики, такие как GloVe [Pennington, Socher, Manning, 2014] и Word2Vec [Mikolov, 2013]. Ещё одним методом получения векторных представлений слов является FastText [Joulin, 2016], который при обучении использует n-граммы букв текста, что дает улучшение качества в различных задачах компьютерной лингвистики. Возможным развитием этого метода является переход от использования n-грамм (не имеющих семантики) к морфемам (морфам), из которых состоит слово и которые являются минимальной смысловой единицей языка. Мы, как и в работах [Arefyev, Gratsianova, Popov, 2018; Sorokin, Kravtsova, 2018] предполагаем, что для морфологически богатых языков, каковым является русский,
использование информации о морфемном составе слова может улучшить качество векторов слов, получаемых на основе дистрибутивных методов. Однако для обучения на базе этих методов необходима большая коллекция текстов, слова которой разбиты на морфы. Подобной коллекции нет пока ни для одного естественного языка. Для русского языка, например, есть лишь небольшие словари со словами разбитыми на морфы, что делает актуальной задачу автоматического морфемного разбора слов. Задачу получения морфемного разбора слова можно рассматривать как задачу классификации последовательностей букв. Её можно разделить на частную и более общую:
• Морфемная сегментация — разбиение слова на составляющие его морфы: ВМЕН-Я-ТЬ.
• Морфемная сегментация с классификацией — определение морфемного класса (типа) каждого сегмента (приставка, корень, суффикс и т.д.), что подразумевает нахождение границ между морфами: ВМЕН:корень/Я:суффикс/ТЬ:окончание
Для каждой из этих задач были предложены решения. Одно из первых решений задачи морфемной сегментации представлено в системе Morfessor [Creutz, Lagus, 2005]. Оно основано на машинном обучении без учителя с возможностью частичного использования уже размеченных данных, что обусловлено отсутствием больших словарей морфемного разбора для исследуемых языков.
Другая модель, показывающая лучшее качество решения задачи морфемной сегментации для русского языка, построена с использованием нейронных сетей типа encoder-decoder. Её описание содержится в статье [Arefyev, Gratsianova, Popov, 2018]. Также для русского языка было предложено решение на базе модели машинного обучения CRF, в рамках проекта CrossMorphy [Bolshakova, Sapin, 2017]. Обученная CRF-модель, при сегментации выделяет целиком группы морфем, например в слове ЗВАННЫЙ суффиксы АН и Н будут выделены вместе: ЗВ:корень/АНН:суф-фиксы/ЫЙ:окончание. Качество этой модели не уступает двум предыдущим реализациям.
В недавней работе [Sorokin, Kravtsova, 2018] была предложена более сложная модель на базе сверточных нейронных сетей, которая показала значительно лучшее качество решения задачи классификации с сегментацией.
В данной статье представлена новая модель морфемной сегментации с классификацией для слов русского языка, которая построена методом машинного обучения деревьев решений с градиентным бустингом (GBDT) [Dorogush, Ershov, Gulin, 2018]. Этот метод является более простым и интерпретируемым в сравнении с нейросетевыми методами, однако достаточно мощным для решения задач компьютерной лингвистики. В задачах классификации последовательностей важным является учёт влияния предыдущих и последующих элементов обучающей выборки на класс текущего элемента. Метод градиентного бустинга не работает с последовательностями, поэтому для учёта этого влияния в предложенной нами модели используется окно небольшого размера в предположении, что между буквами слова нет долгосрочных зависимостей.
Для обучения предложенной модели были использованы два словаря морфемного разбора русского языка, существенно различающихся по морфемному разбору слов, т.к. во многих случаях деление на морфы, например выделение суффиксов, выполняется неоднозначно. Первый словарь взят из проекта Крос-сЛексика [Большаков, 2013], который содержит около 23000 слов, второй словарь — это электронная версия словаря Тихонова [Тихонов, 2002], которая содержит около 90000 слов. Модель была обучена и протестирована на обоих словарях.
Тестирование показало, что в задаче сегментации наша модель достигает лучшего качества, чем известные решения, но в задаче сегментации с классификацией она лучше только для модели, обученной на словаре КроссЛек-сики, проигрывая модели на сверточных нейронных сетях, обученной на словаре Тихонова [Sorokin, Kravtsova, 2018].
2 Методы морфемной сегментации и классификации
Задача морфемной сегментации исследовалась достаточно давно. Первый метод её решения был представлен З. Харрисом в [Harris, 1970]. Его метод базируется на простой идее подсчета количества различных букв в словах текстового словаря, идущих после различных
начальных частей слова и перед конечными частями слова. На Рисунке 1 приведен пример такого подсчета: в верхней строке находятся количества различных букв в словах словаря, идущих после начальных частей слова интересный, в нижней находятся количества перед конечными частями. Разбиение слова на морфемы происходит с помощью нахождения пиков (локальных максимумов) в каждом из рядов. В том месте, где обнаружен пик, и находится граница морфем слова. В рассмотренном примере такой пик выделяется между буквами ‘с’ и ‘н’, что является корректной границей между морфемами. Также пик находится между буквам ‘р’ и ‘е’, что не является действительной границей между морфемами. Данный метод был протестирован на небольшом словаре английского языка объёмом около 1000 слов и показал точность определения границ морфем около 61%.
23 19 6 4 13 1 3 2 1 интерес н ы й 2 1 1 4 10 16 27 13 8
Рис. 1. Встречаемость различных букв после начальных и до конечных частей слова
Более известное решение задачи морфемной сегментации было реализовано в системе Morfessor [Creutz, Lagus, 2005]. Сегментация базируется на обучении с частичным привлечением учителя. На основании принципа минимальной длины описания (MDL) находится наилучшее морфемное разбиение для слов из заданного корпуса текстов на естественном языке. Так как данный метод допускает использование размеченных данных, сегментация может уточняться уже после обучения. Авторы обучали и тестировали свою модель для английского и финского языка. Наилучшие результаты были показаны при обучении на неразмеченном корпусе в 200000 слов и дополнительном словаре с 10000 размеченными словами. Для финского языка лучшее значение F-меры по границам морфем составило 67.0% , а для турецкого — 70.7%.
В последнее время для задачи сегментации слов русского языка предложены и более сложные модели. В работе [Arefyev, Gratsianova, Popov, 2018] используется нейросетевая модель encoder-decoder, изначально созданная для задачи машинного перевода текстов. Данная модель превзошла результаты Morfessor, обученного для русского
языка на корпусе lib.rus.ec [lib.rus.ec, 2018], на несколько процентов по точности.
Задача морфемной сегментации с классификацией исследовалась реже. Первые результаты для русского языка представлены в морфологическом процессоре CrossMorphy
[Bolshakova, Sapin, 2017], одна из функций которого — морфемный разбор слов путем классификации букв слов по основным типам морфов (приставка, корень, суффикс, окончание). По сути модель производит сегментацию с классификацией, но проводимая классификация достаточно груба, а сегментация не полная. Это, например, не позволяет увидеть границ между подряд идущими суффиксами и отличить постфикс ся/сь от окончания. Для классификации был использован метод обучения с учителем CRF [Lafferty, McCallum, Pereira, 2001]. Особенностью построения CRF-модели является использование в качестве признаков морфологических характеристик классифицируемых слов, а также статистических данных, получаемых методом Харриса. Модель была обучена и протестирована на двух словарях -словаре
КроссЛексики и словаре wikitionary [ru.wiktionary.org, 2016], состоящем в основном из данных словаря Тихонова. Наилучшая аккуратность (точность) классификации была показана на словаре КроссЛексики и составила 79.5%.
Модель более детальной морфемной сегментации с классификацией была предложена в [Sorokin, Kravtsova, 2018] и реализована на базе сверточных нейронных сетей (CNN). Модель протестирована и обучена на данных словаря Тихонова [Тихонов, 2002]. Для учета данных о последовательностях букв используется окно величиной 5 букв. Также применяется интересный метод сохранения информации о существующих морфемах словаря, называемый мемоизацией. Для каждой буквы особым образом кодируется информация о вхождении этой буквы в одну из морфем обучающей выборки и о том, находится ли эта буква на границе этой морфемы. Авторы пробовали добавлять LSTM-слои в сеть, однако это не дало улучшения качества модели. Наилучший результат модели составил 88.62% полностью верно разобранных слов.
3 Модель на базе деревьев с градиентным бустингом
В задаче морфемной сегментации с классификацией требуется не только определение класса каждой буквы, но и различение границ между морфемами. В русском языке проблема различения границ между подряд идущими морфемами особо сложна для суффиксов. Остальные виды морфем одного типа, в подавляющем большинстве случаев, не могут идти друг за другом. Выделяют 4 основных вида морфем — приставка (P-PREF), корень (R-ROOT), суффикс (S-SUFF) и окончание (E-END). При построении нашей модели сегментации с классификацией, также как и в модели [Sorokin, Kravtsova, 2018], мы вводим 3 дополнительных класса: соединительная гласная (L-LINK), дефис (H-HYPH) и постфикс (PF-POSTFIX). Для выделения границ суффиксов также добавлен класс B-SUFF(BS), обозначающий начало суффикса. Таким образом, модель классифицирует буквы слова на 8 классов, ниже показан пример классификации букв слова учитель:
у ч и т е л ь
B-ROOT ROOT B-SUFF B-SUFF SUFF SUFF SUFF
Для решения задачи классификации использовалась модель деревьев решений с градиентным бустингом [Friedman, 2002]. Используемые признаки делились на две категории: признаки, относящиеся к каждой отдельной букве, и признаки, относящиеся к слову.
Основным признаком была сама буква, представленная в формате one-hot encoding. Дополнительно использовались позиция буквы в слове, её гласность и частота встречаемости в словах словаря. Для отслеживания зависимостей между буквами применялось окно из соседних букв размером в 10 (5 слева и 5 справа). Также в качестве признаков использовалась статистика по методу Харриса, показывающая количество различных букв в словаре после префикса, заканчивающегося текущей буквой, и перед суффиксом, начинающимся с текущей буквы.
Дополнительно к буквенным признакам были добавлены: длина слова и данные морфологического анализа, полученные морфологическим анализатором CrossMorphy [Bolshakova, Sapin, 2017]: учитывались часть речи, падеж, число, род, время и длина основы (из-за отсутствия информации о контексте сегментируемых слов для определения морфоло-
гических тегов в случае омонимии использовался простой статистический метод снятия морфологической омонимии, реализованный в CrossMorphy).
Например, буква Р из слова НЕВЕРОЯТНЫЙ будет иметь следующие значения признаков:
o Буква — ‘Р’ o гласность — ‘нет’ o частота встречаемости — 0.4746 o буквар-5] — <null> (отсутствует) o буквар-4] — Н o буквар-3] — Е o буквар-2] — В o буквар-1] — Е o буквар+1] — О o буквар+2] — Я o буквар+3] — Т o буквар+4] — Н o буквар+5] — Ы1
o статистика Харриса для начальной части слова ‘НЕВЕР’ — 7 o статистика Харриса для конечной части РОЯТНЫ1Й’ — 1 o часть речи — ADJF (полное прилагательное) o падеж — accs (винительный) o род — masc (мужской) o число — sing (единственное) o время — <null> (отсутствует) o число букв в слове — 11 o длина основы слова — 9
Таким образом на вход модели подавалось 22 признака.
4 Эксперименты с моделью 4.1 Реализация модели
Для реализации модели была выбрана библиотека Catboost [Dorogush, Ershov, Gulin, 2018] для языка python, поскольку она показала лучшие результаты в сравнительном тестировании с другими библиотеками градиентного бустинга и не склонна к переобучению. Также в библиотечной реализации градиентного бустинга не требуется вручную кодировать в one-hot encoding категориальные признаки (такие как значения букв, части речи и т.п.), и в ней не требуется особым образом работать с числовыми признаками, что харак-
терно для других реализаций методов градиентного бустинга. Библиотека предоставляет возможность обучения как на CPU, так и на GPU.
Для обучения и тестирования использовались данные из двух словарей морфемного разбора русского языка — словаря Тихонова объемом 96046 слов и словаря системы Крос-сЛексика объемом 23426 слова. Использование двух различных словарей обусловлено неоднозначностью правил морфемного разбора в русском языке, из-за чего словари составлены со значительными отличиями в трактовке суффиксов. Особенностью словаря Тихонова является то, что в нём содержится большое количество устаревших или узкоспециализированных слов, которые достаточно редко встречаются в текстах, например остре-квиться, розвязь, окулировать. Словарь из проекта КроссЛексика содержит слова современного лексикона, однако разбор некоторых заимствованных слов значительно отличается от классического »школьного» разбора. Например, слова дедукция, индукция и абдукция имеют общий корень дукц, а де-, ин- и аб- соответственно выступают приставками. Стоит отметить, что в словаре проекта КроссЛексика отсутствуют многокоренные слова, а также слова с дефисом. Данные для обучения и тестирования делились в отношении 80:20, и обучающие выборки составили 76836 и 18740 слов соответственно.
4.2 Результаты экспериментов
В Таблице 1 приведены результаты экспериментов — в зависимости от словаря, использованного для обучения, глубины деревьев и типа вычислителя. Эксперименты проводились на двух различных системах: с CPU (Intel Xeon E5-2660v4, 256 GB RAM) и системе с графическим вычислителем (NVIDIA Tesla V100, 16 GB), однако модель, обученная на GPU показывала стабильно худшее качество. Дополнительно были проведены эксперименты с размером окна букв и количеством итераций, однако лучшие значения были достигнуты на окне размером 5 букв с каждой стороны и количеством итераций 10000 для словаря Тихонова и 5000 для словаря Крос-сЛексики, для оценки качества реализованной модели использовались 3 классических метрики — точность, полнота и F1-мера по границам морфем. Точность показывает отношение числа верно найденных границ морфем к об-
щему числу найденных границ. Полнота показывает отношение числа верно найденных границ к общему числу границ. Дополнительно вычислялась аккуратность классификации, которая показывает отношение количества правильно определенных классов букв ко всем
буквам. Точность по словам является интегральной метрикой и показывает отношение полностью корректно разобранных слов (и по границам и по классам букв) к количеству всех слов.
Табл. 1. Оценки построенной модели морфемного разбора
Словарь для обучения Глубина Вычислитель Точность Полнота Б1-мера Аккуратность Точность по словам
КроссЛексика 8 GPU 97.56 96.96 97.26 95.26 85.04
КроссЛексика 8 CPU 98.01 97.12 97.57 95.92 89.20
КроссЛексика 10 GPU 97.46 97.17 97.31 95.49 85.92
КроссЛексика 10 CPU 98.63 98.42 98.53 97.55 92.04
КроссЛексика 12 GPU 97.60 97.07 97.33 95.53 85.63
КроссЛексика 12 CPU 98.42 98.01 98.22 96.98 90.75
Сл. Тихонова 8 GPU 95.88 93.18 94.51 91.52 71.60
Сл. Тихонова 8 CPU 96.32 94.98 95.64 93.07 77.43
Сл. Тихонова 10 GPU 96.43 93.77 95.08 92.38 73.90
Сл.Тихонова 10 CPU 97.90 95.56 96.71 94.95 81.62
Сл.Тихонова 12 GPU 96.22 93.74 94.98 92.21 73.51
Сл.Тихонова 12 CPU 97.73 95.56 96.64 94.79 81.00
Из результатов видно, что морфемный разбор русского языка требует достаточно сложной модели. Качество постоянно улучшается в зависимости от глубины деревьев, однако на глубине 12 начинают проявляться эффекты переобучения, причем это не зависит от объема и сложности словаря, поэтому оптимальной глубиной модели является 10. Для обучения наилучшей модели на словаре КроссЛек-сики потребовалось около 5 часов на CPU и 2.5 минуты на GPU, а словаря Тихонова соответствующие результаты составили 23 часа и 4.3 минуты.
Так как модель деревьев решений является интерпретируемой, она позволяет увидеть вес признаков, который они вносят в результирующий ответ. Укажем важность признаков в процентах: o Буква — 10.89 o Гласность — 4.18 o Позиция в слове — 1.77
o o o o o o o o o o o o
o o o o o o
Частота встречаемости в словах — 4. + 5] — 1.67
Число Харриса для начальной части -4.19
Число Харриса для конечной части — 3.12
Часть речи — 2.44
Падеж — 1.92
Род — 1.27
Число — 0.93
Время — 0.52
о Число букв в слове — 1.01 о Длина основы слова — 1.13
Как мы видим, наибольший вес имеют сама классифицируемая буква, две следующих буквы и три предыдущих. Статистика Харриса также имела значительный вклад. Морфологические характеристики оказались менее важными, но в сумме имели вес 8.0%. В целом веса признаков оказывают достаточно ожидаемое влияние на результат.
Отметим, что до оценки качества к выходному результату модели дополнительно применялась процедура исправления некорректных последовательностей морфем на основе следующих очевидных правил: слово должно начинаться с приставки или корня, после приставки должен идти корень, после корня должен идти суффикс или окончание, после суффикса могут идти другой суффикс, кончание или постфикс.
Оказалось, что такой процедуре исправления подвергались около 230 слов из 4686 слов тестовой выборки словаря КроссЛексики и около 1000 из 19210 слов тестовой выборки для слова Тихонова, что составляет около 5%. Из такого сравнительно небольшого числа неправильных последовательностей классов морфем можно сделать вывод, что модель достаточно хорошо »понимает» принципы словообразования русского языка и основная часть ошибок приходится на неправильное определение границ морфем.
4.3 Анализ ошибок морфемного разбора
Анализ ошибок показал, что основное количество ошибок приходится на неверные определения границ между корнем и суффиксом, а также между суффиксами и окончаниями, например, для слова ПЕЧЕЧКА ПЕЧЕЧ.ко-рень/К:суффикс/А:окончание вместо правильного ПЕЧ:корень/ЕЧК:суффикс/А:окончание.
Значительную часть ошибок также составляют ошибки неверного определения префикса. Чаще всего, он неверно определялся в словах, где его нет, например ХО:пре-фикс/ЗЯИН:корень. Так как в русском языке количество приставок ограничено, данный вид ошибок может быть исправлен с помощью дополнительного правила корректирующего алгоритма.
Существенным недостатком исследуемой модели, который приводит к значительному проценту ошибок, является отсутствие классов для обозначения начал других морфем,
кроме суффиксов. Поэтому редкие слова (многокоренные слова без соединительных гласных и со многими приставками), содержащие такие последовательности морфем, заведомо не могут быть разобраны верно. Однако, экспериментально было выяснено, что увеличение числа классов модели ведёт к снижению качества морфемного разбора при обучении обоих словарях.
5 Сравнение с другими моделями
Исследуемая модель решает общую задачу морфемной сегментации с классификацией на основные классы морфем. Результаты её работы можно сравнить как с моделями, решающими такую же задачу, так и с моделями, выполняющими только сегментацию. Для моделей сегментации наибольший интерес представляет F1-мера по границам морфем, а для общей задачи сегментации с классификацией интегральная метрика точности по словам.
Эксперименты показали, что наша модель на основе деревьев с градиентным бустингом превосходит модель из проекта Morfessor, обученную на корпусе lib.rus.ec, а также нейронную encoder-decoder модель, представленную в [Arefyev, Gratsianova, Popov, 2018]. Несмотря на то, что метод CRF лучше подходит для анализа последовательностей, CRF-мо-дель проигрывает модели градиентного бу-стинга. Результаты сравнения приведены в таблице 2.
Табл. 2. Значение F-меры по границам морфем
Модель КроссЛек-сика Слов.Тихо-нова
Градиентный бустинг 98.53 95.08
CRF от CrossMorphy 94.74 92.46
Morfessor 84.42 86.91
Ecoder-decoder 91.34 89.19
В задаче сегментации c классификацией, при обучении на словаре КроссЛексики, наша модель превосходит в точности по словам модель на базе сверточных нейронных сетей (CNN) [Sorokin, Kravtsova, 2018], однако при обучении на словаре Тихонова проигрывает ей — результаты показаны в таблице 3.
Табл. 3. Оценки точности по словам
Модель КроссЛек-сика Слов.Тихо-нова
CNN 91.58 88.62
Градиентный бу-стинг 92.04 81.62
Вероятной причиной проигрыша на словаре Тихонова может быть большое число слов, содержащих несколько подряд идущих корней (1038) и приставок (1197), другой причиной может бы недостаточность данных словаря КроссЛексики.
6 Заключение
Была разработана и исследована модель морфемной сегментации с классификацией, которая показывает хорошее качество и превосходит существующие модели на одном из обучающих словарей. Результаты работы такой модели предположительно могут быть полезны для построения векторного представления слов на основе таких методов, как FastText [Joulin, 2016]. Использование морфемы в качестве значащей единицы могло бы значительно улучшить качество таких методов. Проверка этой гипотезы является следующим шагом исследований.
Список литературы
Большаков И.А. 2013. КроссЛексика — Универсум связей между русскими словами. Бизнес-информатика, No 3, 2013.
Тихонов А. Н. 2002. Морфемно-орфографический словарь. M.: Издательство ACT.
Arefyev N. V., Gratsianova T. Y., Popov K. P. 2018. Morphological Segmentation with Sequence to Sequence neural network. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue 2018».
Bolshakova E. I., Sapin A. S. 2018. A Morphological Processor for Russian with Extended Functionality. International Conference on Analysis of Images, Social Networks and Texts, 2017. LNCS, Springer.
Creutz M., Lagus K. 2005. Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0. Helsinki : Helsinki University of Technology.
Dorogush A. V., Ershov V., Gulin A. 2018. CatBoost: gradient boosting with categorical features support. arXiv preprint arXiv :1810.11363.
Friedman J. H. Stochastic gradient boosting. 2002. Computational Statistics & Data Analysis, Т. 38, №. 4.
Harris S. Zellig. 1970. Morpheme boundaries within words: Report on a computer test. Transformations and Discourse Analysis Papers, 73.
Joulin A. et al. Bag of tricks for efficient text classification. 2016. arXiv preprint arXiv:1607.01759.
Lafferty J., McCallum A., Pereira F. C. N. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence data.
Mikolov T. et al. 2013. Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems.
Pennington J., Socher R., Manning C. Glove: Global vectors for word representation. 2014. Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP).
Sorokin A., Kravtsova A. 2018. Deep Convolutional Networks for Supervised Morpheme Segmentation of Russian Language. Conference on Artificial Intelligence and Natural Language. CSIS, Springer.
lib.ru.sec [Электронный ресурс]. URL: http://lib.rus.ec (дата обращения 10.12.2018).
ru.wiktionary.org [Электронный ресурс]. URL: https://ru.wiktionary.org/ (дата обращения 15.03.2016).
Подготовка к ВПР «Задание 2 (1,2) Морфемный разбор слова и словообразовательный разбор»
№32 г. Улан-Удэ № №32 №32 г. Улан-Удэ
Подготовка к ВПР в 7 классе. Задание 2 (1,2)
Морфемный разбор слова и
словообразовательный разбор
Казарцева Ирина Владимировна МАОУ СОШ №32 г. Улан-Удэ
Количество баллов за задание 2 (1, 2) |
Баллы |
2.1.Выполнение морфемного разбора |
|
Разбор выполнен верно |
3 балла |
При разборе допущена одна ошибка |
2 балла |
При разборе допущено две ошибки |
1 балл |
При разборе допущено более двух ошибок |
0 баллов |
2.2.Выполнение словообразовательного разбора |
|
Разбор выполнен верно |
3 балла |
При разборе допущена одна ошибка |
2 балла |
При разборе допущено две ошибки |
1 балл |
При разборе допущено более двух ошибок |
0 баллов |
Максимальный балл |
6 баллов |
Повторим теорию!!!!
Морфемный разбор слова — разбор слова
по составу (выделяем значимые части слова:
окончание, основу слова, корень, приставку,
суффикс.
Памятка! Как нужно разбирать слово по составу… |
|
План морфемного разбора |
Разбор |
1. Определяю слово как часть речи |
Подстаканник — имя существ. |
2. Изменяю его (устно) и выделяю окончание |
Подстаканник Подстаканники |
3. Выделяю окончание, отделяю его от основы слова |
Подстаканник |
4. Нахожу корень: подбираю однокоренные слова |
Подстаканник, стакан, стаканный, стаканчик |
5. Обозначаю приставки и суффиксы, если они есть |
Подстаканник |
Подстаканник |
1. Определить слово как часть речи.
2. У изменяемого слова найти окончание и
определить его грамматическое значение.
3. Указать основу слова.
4. Выделить корень (подобрать однокоренные
слова).
5.Выделить приставки и суффиксы, если они
есть.
План морфемного разбора:
Образец морфемного разбора:
подстаканник быстрее
подземный
Словообразовательный разбор слова — показать
как и с помощью чего образовано данное слово
Слова в русском языке чаще всего образуются от других слов следующими способами |
|
1. Приставочный |
посветлеть от светлеть |
2.Суффиксальный |
прутик от прут |
3. Приставочно — суффиксальный |
пригородный от город |
4. Бессуффиксный |
переход от переходить |
5. Сложение (соединительные О и Е) |
пароход от пар и ход |
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
Поэтична наша русская природа, возросшая(2) где — нибудь на меже между ржаным и клеверным полем.
1. Возросшая
2. Возросшая возрасти (суффиксальный)
Образец заполнения ответа:
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
Издалека(2), то замирая, то усиливаясь, нёсся
навстречу многоголосый шум.
1. Издалека
2. Издалека
далекий
(приставочно — суффиксальный)
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
Сорока, чистившая(2) на ветке ольховника черный острый клюв, вдруг повернула голову набок, прислушалась, готовая сорваться и улететь.
1. Чистившая
2. Чистившая
(суффиксальный)
чистить
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
Закусив(2) удила, лошадь продолжала идти по лесной дороге, что вела в глубь леса.
1. Закусив
2. Закусив
закусить
(суффиксальный)
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
Солнце жгло по — летнему(2), воздух был
неподвижен и уныл.
1. По — летнему
2. По — летнему
(приставочно -суффиксальный)
летний
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
С потемневших ветвей срывались комья отсыревшего(2) снега и с шумом падали, пробивая ледяную лазурь сугробов.
1. Отсыревшего
2. Отсыревшего
(суффиксальный)
отсыреть
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
Ярко(2) сияло солнце, сверкала не просохшая
после дождя трава, заливаясь на разные
голоса, пели птицы.
1. Ярко
2. Ярко
(суффиксальный)
яркий
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
Самолеты противника, преследуемые нашим подоспевшим «ястребком», беспорядочно(2) отходят .
1. Беспорядочно
2. Беспорядочно
(суффиксальный)
беспорядочный
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
Остановилась, вдруг испугавшись чего — то, лицо дрогнуло, нахмурилось и тотчас(2) засияло доброй приветливой улыбкой.
1. Тотчас
2. Тотчас
(сложение)
тот + час
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
На чердаке он нашел сперва(2) стальной рыцарский хлам и книги, переплетённые в кожу.
1. Сперва
2. Сперва
(приставочно — суффиксальный)
первый
Выполните обозначенные цифрами в тексте языковые разборы: (2) — морфемный и словообразовательный разборы
−
Серёжа сразу понял, что ягоды хватит всем.
И сам наестся досыта(2) и принесёт домой.
1. Досыта
2. Досыта
(приставочно — суффиксальный)
сытый
Интернет — ресурсы
шаблон — автор Фокина Лидия Петровна
1 слайд — https://media.istockphoto.com/vectors/children-with-blackboard-back-to-school-vector-id576576472?k=6&m=576576472&s=612×612&w=0&h=pJOjT-p1nUhtiE8KDjgvd-4m9PO54AEKkgUXKQEHHpI= школьная доска, детские мордашки
3 слайд — https://ds05.infourok.ru/uploads/ex/1373/00056aa2-0cba3ba3/img1.jpg — морфемы
8 слайд — https://i03.fotocdn.net/s117/826a9f3aeea77e99/user_l/2656748125.jpg — музыка
9 слайд — https://avatars.mds.yandex.net/get-pdb/1602331/f6242b4c-073e-4546-9681-686819ab742b/s1200?webp=false
птичка
10 слайд — https://www.wikihow.com/images/6/6b/Choose-a-Bit-for-a-Horse-Step-6.jpg — лошадь
11 слайд — https://cdn1.zp.ru/job/attaches/2019/04/a3/39/a33924b5ab97066b5822b4417b21d067.png — солнце
12 слайд — https://avatars.mds.yandex.net/get-pdb/1926096/f38b3ce7-b425-47ef-b778-80e5a848270f/s1200?webp=false — ветка в снегу
13 слайд — https://static.tildacdn.com/tild3030-3337-4531-b661-313165393463/image_3.png — поляна
14 слайд — http://shkola3.3dn.ru/novosti2018/podvig_pokryshkina.jpg — воздушный бой
15 слайд — https://avatars.mds.yandex.net/get-zen_doc/1880383/pub_5db495ca0ce57b00ae95febe_5db49d9f8d5b5f00b16c98db/scale_1200 — улыбка
16 слайд — https://otvet.imgsmail.ru/download/185758371_19d7e221b8bbabc9710c81f09cf69413_800.jpg — чердак
17 слайд — https://s1.1zoom.ru/big7/55/Fruit_Strawberry_Many_382475.jpg — ягода
Технологическая карта урока «Морфемный и словообразовательный разбор слова»
(Много) парикмахерских
1) Морфемный разбор:
1. парикмахер-ск-их (имя существительное).
2. Окончание – -их. Оно выражает значения мн.ч., Р.п., ср.: парикмахерск-ая, парикмахерск-ой.
3. Основа формы – парикмахер-ск-.
4. Корень – парикмахер-. Однокоренные слова: парикмахер□, парикмахер-ш-а.
5. -ск- – суффикс. Это суффикс прилагательного, ср.: матрос-ск-ий, жен-ск-ий.
2) Словообразовательный разбор:
1. Начальная форма – парикмахерская.
2. Основа слова – парикмахерск-. Основа производная.
3–5. парикмахерск-ая (сущ.) ← парикмахерск-ий (прил.).
6. Слово образовано путём перехода из одной части речи в другую (из прилагательного – в существительное – субстантивация).
Жители
1) Морфемный разбор:
1. жи-тел-и (имя существительное).
2. Окончание – -и. Оно выражает значения мн.ч., И.п., ср.: житель□, жител-я.
3. Основа формы – жи-тел-.
4. Корень -жи-. Однокоренные слова: жи-ть, жи-л-ой.
5. -тель – суффикс. Это суффикс существительного, ср.: пис-а-тель□, вод-и-тель□.
2) Словообразовательный разбор:
1. Начальная форма – житель.
2. Основа слова – жи-тель. Основа производная.
3–4. жи-тель□ → жи-ть.
5. -тель – словообразовательный суффикс.
6. Суффиксальный способ.
Рождаются
1) Морфемный разбор:
1. рожд-а-ют-ся (глагол).
2. Окончание – -ют. Оно выражает значения 3-го л. мн.ч., ср.: рожд-а-ет-ся, рожд-а-ем-ся.
3. Основа формы – рожд-а-…-ся.
4. Корень – рожд-. Однокоренные слова: рожд-а-ть, рожд-ённ-ый.
5. -а- – суффикс. Это суффикс глагола, ср.: пис-а-ть, реш-а-ть.
-ся – постфикс возвратного глагола, ср.: мы-ть-ся, куп-а-ть-ся.
2) Словообразовательный разбор:
1. Начальная форма – рождаться.
2. Основа слова – рожд-а-…-ся. Основа производная.
3–4. рожда-ть-ся ← рожда-ть.
5. -ся – словообразовательный постфикс.
6. Постфиксальный способ.
Побриться
1) Морфемный разбор:
1. по-бри-ть-ся (глагол в неопределённой форме).
2. Окончание – -ть. Оно выражает значение неопределённой формы, ср.: по-бре-ет-ся, по-бре-ем-ся.
3. Основа формы – по-бри-…-ся.
4. Корень – бри-. Однокоренные слова: бри-тв-а, вы-бри-ть.
5. по- – приставка, ср.: по-сл-а-ть, по-сад-и-ть.
-ся – постфикс возвратного глагола, ср.: мы-ть-ся, куп-а-ть-ся.
2) Словообразовательный разбор:
1. Начальная форма – побриться.
2. Основа слова – по-бри-…-ся. Основа производная.
3–6. а) по-бри-ть-ся ← по-бри-ть; -ся – словообразовательный постфикс; постфиксальный способ.
б) по-бри-ть-ся ← бри-ть-ся; по- – словообразовательная приставка; префиксальный способ.
Освежить
1) Морфемный разбор:
1. о-свеж-и-ть (глагол в неопределённой форме).
2. Окончание – -ть. Оно выражает значение неопределённой формы, ср.: о-свеж-ит, о-свеж-им.
3. Основа формы – о-свеж-и-.
4. Корень – свеж-. Однокоренные слова: свеж-ий, свеж-о.
5. о- – приставка, ср.: о-бел-и-ть, о-светл-и-ть.
-и- – суффикс глагола, ср.: о-бел-и-ть, о-светл-и-ть.
2) Словообразовательный разбор:
1. Начальная форма – освежить.
2. Основа слова – о-свеж-и-. Основа производная.
3–4. о-свеж-и-ть ← свеж-ий.
5. о- – словообразовательная приставка; -и – словообразовательный суффикс.
6. Приставочно-суффиксальный способ.
Голову
1) Морфемный разбор:
1. голов-у (имя существительное).
2. Окончание – -у. Оно выражает значение ж.р., ед.ч., В.п., ср.: голов-а, голов-ой.
3. Основа формы – голов-.
4. Корень – голов-. Однокоренные слова: голов-н-ой, голов-аст-ый.
5. Приставок и суффиксов нет.
2) Словообразовательный разбор:
1. Начальная форма – голова.
2. Основа слова – голов-. Основа непроизводная (состоит из одного корня).
(В) уездном (городе)
1) Морфемный разбор:
1. уезд-н-ом (имя прилагательное).
2. Окончание – -ом. Оно выражает значения ед.ч., м.р., П.п. ср.: уезд-н-ый, уезд-н-ого.
3. Основа формы – уезд-н-.
4. Корень – уезд-. Однокоренные слова: уезд□, по-уезд-н-ый.
5. -н- – суффикс. Это суффикс прилагательного, ср.: волост-н-ой, подъ-езд-н-ый.
2) Словообразовательный разбор:
1. Начальная форма – уездный.
2. Основа слова – уезд-н-. Основа производная.
3–4. уезд-н-ый ← уезд□.
5. -н- – словообразовательный суффикс.
6. Суффиксальный способ.
(Жизнь)… (была) тишайшей
1) Морфемный разбор:
1. тиш-айш-ей (имя прилагательное).
2. Окончание – -ей. Оно выражает значение ед.ч., ж.р., Т.п., ср.: тиш-айш-ая, тиш-айш-ую.
3. Основа формы – тиш-айш-.
4. Корень – тиш-. Однокоренные слова: тих-о, тиш-ин-а.
5. -айш- – суффикс формы превосходной степени прилагательного, ср.: велик-ий – велич-айш-ый, свеж-ий – свеж-айш-ий.
2) Словообразовательный разбор:
1. Начальная форма (положительная степень прилагательного) – тихий.
2. Основа слова – тих-. Основа непроизводная (состоит из одного корня).
Влюблена
1) Морфемный разбор:
1. в-любл-ен-а (краткая форма причастия).
2. Окончание – -а. Оно выражает значение ед.ч., ж.р., ср.: в-любл-ён□, в-любл-ен-ы.
3. Основа формы – в-любл-ён-.
4. Корень – любл-. Однокоренные слова: люб-и-ть (чередование б/бл), люб-овь□.
5. в- – приставка, ср.: в-крапл-ённ-ый, в-плет-ённ-ый.
-ен – суффикс краткого страдательного причастия прошедшего времени глагола, ср.: в-нес-ен-а, в-плет-ен-а.
2) Словообразовательный разбор:
1. Начальная форма причастия – влюблённый.
2. Основа причастия – в-любл-ённ-. Основа производная.
3–4. в-любл-ённ-ый ← в-люб-и-ть.
5. -ённ – суффикс причастия.
6. Суффиксальный способ.
(В секретаршу) месткома
1) Морфемный разбор:
1. мест-ком-а (сложносокращенное слово, имя существительное).
2. Окончание – -а. Оно выражает значение м.р., ед.ч., Р.п., ср.: мест-ком□, мест-ком-ом.
3. Основа формы – мест-ком-.
4. Корни слова: 1) мест-; 2) ком(итет)- – в сокращённом виде. Однокоренные слова: мест-н-ый, мест-о; комитет□, комитет-ск-ий.
5. Приставок и суффиксов нет.
2) Словообразовательный разбор:
1. Начальная форма – местком.
2. Основа слова – мест-ком-. Основа производная.
3–4. мест-ком□ ← мест-(н)-ый ком(итет).
5–6. Сложение сокращённых до слогов основ – аббревиация.
ГДЗ по русскому языку 6 класс Рыбченкова учебник Решебник
Русский язык – это один из основных предметов в школьной системе образования. Любой грамотный человек должен обладать его знаниями на высоком уровне. Именно этот предмет все школьники сдают на экзаменах при поступлении в университет. Чтобы сдача ОГЭ и ЕГЭ прошла успешность, нужно уже в средних классах пользоваться онлайн-решебником для 6 класса, авторы которого Рыбченкова Л.М., Александрова О.М., Загоровская О.В. Пособие содержит в себе верные ответы на все упражнения из учебника издательства «Просвещение» 2016 года. Сборник является актуальным на сегодняшний день (2019 год). В своей работе его используют многие педагоги и репетиторы, чтобы создать уникальные авторские программы.
Только пятерки с решебником по русскому языку Рыбченковой
В 6 классе рабочая программа усложняется, большой упор происходит в изучении морфологии, синтаксиса, фонетики и культуры речи. Ребенок должен серьезно отнестись к изучению нового материала: записывать все примеры и исключения, запоминать все правила, учить словарные слова, знаки препинания. Несомненно, большую часть информации ученик получает непосредственно на уроке. Учитель старается как можно доступнее объяснить все новые темы, чтобы ребенку было легче заниматься самостоятельно. Чтобы выполнение «домашки» было более продуктивным, стоит пользоваться онлайн-сборником Рыбченковой, Александровой, Загоровской для шестиклассников.
Основные плюсы электронного ресурса для школьников:
- удобная таблица с верными ответами. Каждое решение имеет свой поисковый номер;
- интересные и полезные методические указания в виде бонуса;
- доступность материала с любого источника – планшета, компьютера, телефона. Главное, чтобы был включен Интернет;
- вариативные решения одного и того же упражнения на выбор.
Сайт работает круглосуточно, значит ответы можно списать в любое время дня. Но прежде чем просто переписывать «домашку», следует самому разобраться с заданными номерами. Ведь бездумная работа с готовым материалом не способствует повышению успеваемости. Сначала ребенок должен сам изучить все правила, постараться понять тему, а уже затем сверять его с решебником.
Какие темы рассматривает ГДЗ (авторы: Рыбченкова, Александрова, Загоровская) в 6 классе
Все родители хотят, чтобы именно их дети учились «на отлично» в школе и не испытывали трудностей. Для этого многие взрослые нанимают частных дорогостоящих репетиторов. К сожалению, далеко не у всех есть на это материальные средства. Поэтому отличной альтернативной станет пособие по русскому языку, содержащие следующие темы:
- морфемика, Словообразование, культура речи;
- лексикология, орфография;
- грамматика. Морфология, орфография.
Учебный комплекс будет полезен не только ученикам и их родителям, но и практикующим педагогам. С его помощью можно легко подготовиться к любой контрольной и проверочной работе, а также экзаменам.
Электронный текстовый корпус шумерских королевских надписей
Морфологический анализ ETCSRI
Содержание
I. Существительное словосочетание
1. Шаблон
2. Соответствия морфем
II. Конечный глагол
1. Шаблон
2. Соответствия морфем
III. Не конечный глагол
1. Шаблон
2. Соответствия морфем
Сокращения
- CF = форма цитирования
- df = форма по умолчанию (выделенная жирным шрифтом и курсивом)
- M1 = морфемное представление
- M2 = морфемическое представление сглаживания
- N = номинальное слот
- NV = слот нескончаемой глагольной формы
- p-tag = тег позиции
- V = словесный слот
I.Существительное словосочетание
1. Шаблон
N1 (слот словосочетания существительного 1) = Head
N2 = Модификатор
N3 = Обладатель (словосочетание существительное или притяжательная энклитика)
N4 = Множественный маркер или суффикс порядкового номера
N5 = Обозначение
N6 = Копула
N1 | N2 | N3 | N4 | N5 | N6 |
---|---|---|---|---|---|
e | ĝu | enee | ø | мужчин | |
zu | камак | e | утра | ||
ани | Кама | ra | Менден | ||
би | da | Менцен | |||
мне | ta | меш | |||
zunenee | še | Нанна | |||
Анени | ‘а | ||||
ак | |||||
джин | |||||
ne | |||||
eš |
2.Соответствия морфем
2-й условный паз
M1 | p-tag | м2 | описание |
---|---|---|---|
e | N2 | DEM | указательное местоимение |
3-й условный паз
M1 | p-tag | м2 | описание |
---|---|---|---|
ĝu | N3 | 1-SG-POSS | Притяжательная энклитика первого лица единственного числа |
zu | N3 | 2-SG-POSS | притяжательная энклитика единственного числа 2-го лица |
ани | N3 | 3-SG-H-POSS | Притяжательная энклитика человека в единственном числе третьего лица |
би | N3 | 3-SG-NH-POSS | Третье лицо единственного числа, нечеловеческая притяжательная энклитика |
би | N3 | DEM2 | указательное местоимение |
мне | N3 | 1-PL-POSS | 1-е лицо множественного числа притяжательной энклитики |
zunenee | N3 | 2-ПЛ-ПОСС | 2-е лицо множественного числа притяжательной энклитики |
Анени | N3 | 3-ПЛ-ПОСС | 3-е лицо множественного числа притяжательной энклитики |
Примечание 1: Двойные гласные заменяют долгую гласную
4-й условный паз
M1 | p-tag | м2 | описание |
---|---|---|---|
enee | N4 | PL | маркер множественного числа |
камак | N4 | ЗАКАЗ | суффикс порядкового номера |
Кама | N4 | ЗАКАЗ | более поздняя форма суффикса порядкового номера |
5-й номинальный разъем
M1 | p-tag | м2 | описание |
---|---|---|---|
ø | N5 | АБС | абсолютный маркер |
e | N5 | ERG | эргативный футляр-маркер (df) |
ra | N5 | DAT-H | человеческий дательный падеж-маркер (df) |
e | N5 | DAT-NH | дательный падеж-маркер, отличный от человека |
да | N5 | COM | Качественный футляр-маркер |
ta | N5 | ABL | абляционный футляр-маркер |
še | N5 | СРОК | терминатор-маркер |
‘а | N5 | L1 | локативный1 футляр-маркер (df) |
ra | N5 | L2-H | локативный2 случай-маркер человека |
‘а | N5 | L2-NH | не относящийся к человеку локативный2 случай-маркер |
ra | N5 | L3-H | местонахождение человека3 маркер случая |
e | N5 | L3-NH | не относящийся к человеку локативный3 случай-маркер |
ак | N5 | GEN | родительный падеж-маркер |
джин | N5 | EQU | Эквативный регистр-маркер |
ne | N5 | L4 | локативный4 футляр-маркер |
eš | N5 | ADV | суффикс наречия |
Примечание 1: L4 считается архаичным локативным падежом-маркером (возможно, соответствующим глагольному префиксу L1 / ni /), используемым только в таких формах, как nu2-a-zu-ne (ср.Кречера 1993)
Замечание 2: Относительно системы кейсов, используемой ETCSRI, см. Zólyomi 2007b и 2010.
Замечание 3: ADV на самом деле является производной морфемой.
Шестой номинальный разъем
M1 | p-tag | м2 | описание |
---|---|---|---|
мужчины | N6 | КС-1-СГ | форма первого лица единственного числа энклитической связки (df) |
мужчин | N6 | КС-2-СГ | форма энклитической связки второго лица единственного числа |
утра | N6 | COP-3-SG | форма энклитической связки третьего лица единственного числа |
Менден | N6 | КС-1-ПЛ | форма множественного числа первого лица энклитической связки |
Мензен | N6 | КС-2-ПЛ | форма множественного числа энклитической связки второго лица |
меш | N6 | КС-3-ПЛ | третье лицо множественного числа энклитической связки |
Нанна | N6 | ИСКЛЮЧАЯ | частица, относящаяся к исключению из отрицательного отчета |
Примечание 1: For / nanna / cf.Эдзард 2003: 158 и Винкер и Джонсон 2009: 361–362.
II. Конечный глагол
1. Шаблон
Слот 1 | модальный префикс ha-, отрицательный префикс nu-, префикс предшествования |
Слот 2 | Модальный префиксы, отличные от ha-, префиксы конечных маркеров |
Слот 3 | Префикс координатора |
Слот 4 | Вентиляционная (цислокативная) приставка |
Слот 5 | Средний префикс или 3nh местоименный префикс (с указанием человека, пола и номера первого в последовательности размерных префиксов) |
Слот 6 | Начальный прономинальный префикс (с указанием человека, пола и номера первого в последовательности размерных префиксов) x |
Слот 7 | Размерность I: префикс дательного падежа |
Слот 8 | Dimensional II: комитативный префикс |
Слот 9 | Dimensional III: аблативный или завершающий префикс |
Слот 10 | Размерный IV: префикс locative1, locative2 или locative3 |
Слот 11 | Конечный прономинальный префикс (относится к A или P, в зависимости от времени) |
Слот 12 | шток |
Слот 13 | маркер настоящего и будущего (непереходными глаголами) |
Слот 14 | местоименный суффикс (относящийся к A, S или P в зависимости от времени) |
Слот 15 | Подчиненный |
В1 | В2 | V3 | V4 | V5 | V6 | V7 | V8 | V9 | V10 | V11 | V12 | V13 | V14 | V15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ню | i | нга | м | ba | 1 | а | da | ta | ni | 1 | ШТОК | изд | и | ‘а |
га | а | му | б | г | ši | n | e | СТЭМ-ПФ | и | ø | ||||
u | и | e | i | n | STEM-PL | e | ||||||||
ШТОК | ii | nn | e | б | STEM-RDP | enden | ||||||||
STEM-PL | а.о. | мне | ø | н.э. | КОС | энзен | ||||||||
STEM-RDP | га | н.э. | eš | |||||||||||
нан | enee | |||||||||||||
бар | ||||||||||||||
nuš | ||||||||||||||
ši | ||||||||||||||
на |
Примечание 1: В повелительных глагольных формах STEM (-PL / RDP) занимает V1, а V12 пусто.
2. Соответствия морфем
1-й словесный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
ню | V1 | NEG | отрицательный префикс |
га | V1 | МОД1 | модальный префикс 1 |
u | V1 | ANT | префикс переднего |
CF | V1 | ШТОК | глагольная основа |
CF | V1 | STEM-PL | основа множественного числа |
CF | V1 | STEM-RDP | дублированная глагольная основа |
2-й словесный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
га | V1 | MOD2 | префикс modal2 |
нан | V1 | MOD3 | модальный префикс 3 |
бара | V1 | MOD4 | модальный префикс 4 |
nuš | V1 | MOD5 | модальный префикс 5 |
ši | V1 | MOD6 | модальный префикс 6 |
на | V1 | MOD7 | префикс modal7 |
i | В2 | FIN | конечный маркер |
ii | В2 | FIN-LI | удлиненный конечный маркер, сигнализирующий о синкопе гласной префикса L1 |
ii | В2 | FIN-L2 | удлиненный конечный маркер, сигнализирующий о синкопе гласной префикса L2 |
а | В2 | FIN | конечный маркер |
а.о. | В2 | FIN-L2 | удлиненный конечный маркер, сигнализирующий о синкопе гласной префикса L2 |
и | В2 | FIN | конечный маркер |
Примечание 1: компенсирующее удлинение конечного маркера происходит, когда префикс L2 в V10 (которому предшествует местоименный префикс в V5 или V6) или гласный префикс L1 становится синкопированным.В этих словесных формах удлинение FIN рассматривается и трактуется как маркер L2. (См. Jagersma 2006)
3-й вербальный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
нга | V3 | COOR | Префикс координатора |
4-я вербальная щель
M1 | p-tag | м2 | описание |
---|---|---|---|
м | V4 | ВЕН | вентивная (цислокативная) приставка |
му | V4 | ВЕН | вентивная (цислокативная) приставка |
5-й словесный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
ba | V5 | MID | средний префикс |
б | V5 | 3-NH | третье лицо единственного числа, не относящееся к человеку, начальный префикс местоимения |
6-я словесная щель
M1 | p-tag | м2 | описание |
---|---|---|---|
1 | V6 | 1-SG | первое лицо единственного числа начальный префикс местоимения (= IPP) |
r | V6 | 2-SG | второе лицо единственного числа IPP |
e | V6 | 2-SG | второе лицо единственного числа IPP |
nn | V6 | 3-SG-H | третье лицо единственное число человек IPP |
мне | V6 | 1-PL | от первого лица множественное число IPP |
другое | V6 | 3-PL | от третьего лица множественное число IPP |
7-я словесная щель
M1 | p-tag | м2 | описание |
---|---|---|---|
а | V7 | ДАТ | дательный префикс |
8-я словесная щель
M1 | p-tag | м2 | описание |
---|---|---|---|
da | V8 | COM | Комитативный префикс |
9-я словесная щель
M1 | p-tag | м2 | описание |
---|---|---|---|
ta | V9 | ABL | абляционный префикс |
ši | V9 | СРОК | терминативный префикс |
še | V9 | СРОК | терминативный префикс |
10 словесный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
ni | V10 | L1 | префикс locative1 |
ni | V10 | LOC-OB | префикс локатива, используемый как причинный маркер в акушерских текстах |
n | V10 | L1-SYN | синкопированный префикс locative1 |
i | V10 | L2 | префикс locative2 |
e | V10 | L2 | префикс locative2 |
ø | V10 | L2-SYN | синкопированный префикс locative2 |
i | V10 | L3 | локативный префикс 3 |
Примечание 1: Форма, подобная i₃-ib₂-ĝal₂, будет, таким образом, проанализирована как
M1: V1 = ii.V5 = b.V10 = ø.V12 = ĝal.V14 = ø
M2: V1 = FIN-L2.V5 = 3-NH.V10 = L2-SYN.V12 = STEM.V14 = 3-SG-S
11-я словесная щель
M1 | p-tag | м2 | описание |
---|---|---|---|
1 | V11 | 1-SG-A | Конечный префикс местоимения единственного числа первого лица (= FPP), созданный с помощью агента |
e | V11 | 2-SG-A | второе лицо в единственном числе FPP, созданное с агентом |
n | V11 | 3-SG-H-A | FPP человека от третьего лица, сконструированный с помощью агента (df) |
n | V11 | 3-SG-H-P | ГЛП человека от третьего лица, сконструированная с пациентом |
n | V11 | 3-SG-H-L3 | третье лицо единичное человеческое FPP, сконструированное с участником L3 |
n | V11 | 1-SG-A-OB | FPP от первого лица в единственном числе, построенная с агентом в текстах OB |
b | V11 | 3-SG-NH-A | третье лицо единичный нечеловеческий FPP, созданный с помощью агента |
b | V11 | 3-SG-NH-P | ГЛП третьего лица, не относящиеся к человеку, сконструированные с пациентом (df) |
b | V11 | 3-SG-NH-L3 | третье лицо единственное число нечеловеческое FPP, созданное с участником L3 |
nnee | V11 | 3-PL-H-P |
Замечание 1: Для конечных местоименных префиксов, конструируемых с участником L3 cf.Zólyomi 1999: 221, сноска 13 (с другой терминологией) и Jagersma 2006.
12-я словесная щель
M1 | p-tag | м2 | описание |
---|---|---|---|
CF | V12 | ШТОК | глагольная основа (df) |
CF | V12 | СТЭМ-ПФ | глагольная основа настоящего и будущего |
CF | V12 | STEM-PL | основа множественного числа глагола |
CF | V12 | STEM-RDP | дублированная глагольная основа |
CF | V12 | КОС | независимая связка |
Примечание 1: Их можно комбинировать, так, например, sub2 — это STEM-PF-PL , i.е. Основа множественного числа «настоящее-будущее» от идет до . Порядок квалификационных блесков должен соответствовать этой таблице (так что sub2 может быть только глоссирован, как и раньше, но не как STEM-PL-PF).
Замечание 2: В отличие от The Penn Parsed Corpus of Sumerian [http://psd.museum.upenn.edu/ppcs/MorphologyTable.html], ETCSRI не будет иметь специального шаблона со специальными ячейками для повелительных глагольных форм: в повелительных глагольных формах глагольная основа, как предполагается, занимает V1.
13-я словесная щель
M1 | p-tag | м2 | описание |
---|---|---|---|
изд | V13 | ПФ | маркер настоящего и будущего |
ru | V13 | PLEN | глагольный суффикс, обозначающий множественность S или P |
Примечание: PLEN засвидетельствован редко (ср.Кречера 1965 и 1987).
14-я словесная щель
M1 | p-tag | м2 | описание |
---|---|---|---|
и | V14 | 1-SG-A | суффикс агента в единственном числе от первого лица (df) |
ru | V14 | 1-SG-S | суффикс субъекта единственного числа от первого лица |
ru | V14 | 1-SG-P | суффикс пациента в единственном числе от первого лица |
ru | V14 | 2-SG-A | второе лицо единственного числа суффикс агента |
ru | V14 | 2-SG-S | суффикс субъекта единственного числа второго лица |
ru | V14 | 2-SG-P | второе лицо в единственном числе суффикс пациента |
ø | V14 | 3-SG-S | третье лицо единственное число человеческий или нечеловеческий суффикс субъекта |
ø | V14 | 3-SG-P | суффикс субъекта от третьего лица единственное число (df) |
e | V14 | 3-SG-A | третье лицо единственное число суффикс человека или агента, не являющегося человеком |
e | V14 | 3-SG-S-OB | суффикс субъекта от третьего лица единственного числа в акушерских текстах |
enden | V14 | 1-PL-A | суффикс агента от первого лица множественного числа |
enden | V14 | 1-PL-S | суффикс субъекта множественного числа от первого лица (df) |
enden | V14 | 1-PL | Суффикс множественного числа первого лица во множественном числе переходных претеритных глагольных форм |
enzen | V14 | 2-PL-A | второе лицо множественное число суффикс агента |
enzen | V14 | 2-PL-S | суффикс субъекта множественного числа второго лица (df) |
enzen | V14 | 2-PL | Суффикс множественного числа второго лица во множественном числе переходных претеритных глагольных форм |
eš | V14 | 3-PL-S | второе лицо множественное число подлежащее суффикс |
eš | V14 | 3-ПЛ-П | суффикс пациента множественного числа от второго лица (df) |
eš | V14 | 3-PL | Суффикс множественного числа от третьего лица во множественном числе переходные претеритные глагольные формы (df) |
enee | V14 | 3-PL-A | Суффикс агента множественного числа третьего лица в глагольных формах настоящего и будущего |
Замечание 1: В переходных формах претерита агенты множественного числа имеют перекрестную ссылку с перифрастной конструкцией, включающей использование двух аффиксов: V11 и форма множественного числа местоименного суффикса в V14, то есть FPP в V11 согласованы по полу и личности, в то время как суффикс в V14 согласовывается по количеству и личности с агентом.В этих формах суффикс в V14 будет отображаться как 1-PL, 2-PL или 3-PL, то есть без указания его синтаксической функции, например: …- 3-SG-H-A-stem-3-PL
15 словесный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
‘а | V15 | ПОД | подчиненный |
III.Не конечный глагол
1. Шаблон
NV11 | NV2 | NV3 | NV4 |
---|---|---|---|
ню | ШТОК | изд | ‘а |
СТЭМ-ПФ | |||
STEM-RDP |
Примечание 1: Не конечная глагольная форма может занимать либо N1, либо N2.В первом случае оно действует как существительное, а во втором — как модификатор. Так называемые прилагательные считаются нескончаемыми глагольными формами.
Замечание 2: Как и нефинитные глагольные формы, количественные числа могут использоваться как модификаторы, так и как существительные, таким образом, они будут вставлены в нефинитный глагольный шаблон.
2. Соответствия морфем
1-й не конечный вербальный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
ню | NV1 | NEG | отрицательный префикс |
2-й нефинитный вербальный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
CF | NV2 | ШТОК | глагольная основа |
CF | NV2 | СТЭМ-ПФ | глагольная основа настоящего и будущего |
CF | NV2 | STEM-PL | основа множественного числа глагола |
CF | NV2 | STEM-RDP | дублированная глагольная основа |
3-й нефинитный вербальный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
изд | NV3 | ПФ | маркер presen-future |
4-й нефинитный вербальный слот
M1 | p-tag | м2 | описание |
---|---|---|---|
‘а | NV4 | ПОД | подчиненный |
Примечание 1: Обычно у нас есть 3 + 1 фактических формы, которые должны быть сгенерированы: LAL, LAL-ed, LAL-a и LAL-ed-a.Четвертая форма маргинальности встречается только в так называемом «местоименном спряжении», например, STEM-ed-a-u-ne. (Аргументы Китмана [2008] в пользу другого анализа этих форм были сочтены неубедительными.)
Список литературы
Эдзард, Диц Отто (2003), Шумерская грамматика (Справочник по востоковедам, раздел I, 71). Лейден — Бостон: Брилл 2003.
Jagersma, Брэм (2006). «Конечные лица-приставки и пассив», N.A.B.У ., № 93.
Китман, Ян (2008), «Der auf / -e (d) / gebildete Stamm des sumerischen Verbums», Revue d’Assyriologie 102, 9–16.
Крехер, Иоахим (1965), «Zur sumerischen Grammatik», Zeitschrift für Assyriologie 57, 12–30.
Крехер, Иоахим (1987), ‘DU = ku₄ (-r) «eintreten,» hineinbringen’, Zeitschrift für Assyriologie 77, 7–21.
Кречер, Иоахим (1993), «Суффикс определения — / a /», Acta Sumerologica 15, 81–93.
Винкер, Рональд —J. Кейл Джонсон (2009), «Апелляционный процесс в судебном протоколе {di til-la} из Ура III Умма», AoF 36, 349–364.
Золёми, Габор (1999), «Инфиксная директива и наклонный объект в шумерском языке: отчет об истории их взаимоотношений», Orientalia NS 68 (1999), 215–253.
Zólyomi, Gábor (2007b), «Sumerisch», в Michael Streck, Hrsg., Schriften und Sprachen des Alten Orients . 3., überarb. Auflage.Дармштадт: Wissenschaftliche Buchgesellschaft, 11–43.
Золёми, Габор (2010), «Дело о шумерских делах», Леонид Коган и др., Ред. Протоколы 53e Rencontre Assyriologique Internationale , Vol. 1: Язык древнего Ближнего Востока (2 части) (Babel und Bibel, 4A-B). Озеро Вайнона, IN: Eisenbrauns, 577–590.
Дата последнего изменения: 18 Дек 2019
На пути к психолингвистической вычислительной модели для морфологического анализа в JSTOR
AbstractПсихолингвистические эксперименты по визуальному распознаванию слов на голландском и других языках показывают повсеместное влияние частотности слов на обычные сложные слова.Настоящее исследование представляет собой имитационный эксперимент с вычислительной моделью для морфологической сегментации, которая разработана на психолингвистических принципах. Результаты показывают, что эти принципы в сочетании с наличием информации о форме и частоте сложных слов в лексиконе защищают систему от ложных сегментов и существенно повышают точность сегментации.
Информация о журналеС самого начала своей истории Королевское общество уделяло много внимания публикации сообщений своих членов и других лиц.В течение трех лет после выдачи первой хартии первый секретарь Генри Ольденбург в марте 1665 г. начал публиковать «Философские труды», и с тех пор эта работа продолжается до сих пор. Начиная с 1887 года, начиная с тома 178, «Транзакции» были разделены на две серии: Серия A (Математика и физические науки) и Серия B (Биология). Транзакции публикуются ежемесячно и теперь включают документы, представленные на дискуссионных встречах, а также конкретные темы и обзоры.
Информация для издателяКоролевское общество — это самоуправляемое товарищество многих самых выдающихся ученых мира, представляющих все области науки, техники и медицины, и старейшая научная академия, которая постоянно существует.Основная цель Общества, отраженная в его учредительных документах 1660-х годов, заключается в признании, продвижении и поддержке передового опыта в науке, а также в поощрении развития и использования науки на благо человечества. Общество сыграло роль в некоторых из самых фундаментальных, значительных и изменяющих жизнь открытий в истории науки, и ученые Королевского общества продолжают вносить выдающийся вклад в науку во многих областях исследований.
Задача 9 — 3
3.Анализ слов
Разобрать и глянец следующие слова.
а. | гектограф | ||
ПАРС: | / | ||
БЛЕСК: |
б. | монократический | ||||
ПАРС: | / | / | |||
БЛЕСК: | ADJ СУЩЕСТВИТЕЛЬНОЕ ГЛАГОЛ |
с. | тетралогия | ||||
ПАРС: | / | / | |||
БЛЕСК: | ADJ СУЩЕСТВИТЕЛЬНОЕ ГЛАГОЛ |
г. | инфляционный | ||||||||
ПАРС: | / | / | / | / | |||||
БЛЕСК: | ADJ СУЩЕСТВИТЕЛЬНОЕ ГЛАГОЛ | ADJ СУЩЕСТВИТЕЛЬНОЕ ГЛАГОЛ |
[Подсказка: ни одна из этих морфем не означает ‘нет’.]
e. | прогулочная | |||
ПАРС: | / | |||
БЛЕСК: | ADJ СУЩЕСТВИТЕЛЬНОЕ ГЛАГОЛ |
[Подсказка: первая морфема не пери-.]
границ | Сегментация сублексических морфем у 15-месячных детей, изучающих английский язык
Введение
В большинстве человеческих языков важные компоненты языковой структуры несут аффиксы или связанные морфемы. Аффиксы в языке представляют собой относительно небольшой, но часто встречающийся набор форм, которые появляются как части слов, но никогда не встречаются без основы. Хотя связанные морфемы всегда встречаются как часть более крупного слова, они рассматриваются как имеющие независимый статус в силу того факта, что они продуктивно сочетаются с основами и другими грамматическими элементами систематическим и предсказуемым образом.Например, любой корень английского глагола, который склоняется с суффиксом -ing и которому предшествует форма вспомогательного глагола, быть , приводит к форме глагола, отмеченной определенным временем и аспектом: настоящее прогрессивное (например, , она читает ). Таким образом, освоение морфологической системы языка включает в себя получение обобщений о взаимосвязях между формальными элементами (например, вспомогательные — и — ), а также семантических и функциональных свойств языка, которые представлены в морфологических элементах. система (e.г., настроение, вид, число и т. д.). Однако, прежде чем учащиеся смогут усвоить морфологические факты о своем языке, они должны сначала идентифицировать сублексические комбинаторные единицы: они должны идентифицировать связанные морфемы.
Первое продуктивное использование детьми связанных морфем (и функциональных категорий в более широком смысле, включая функциональные слова) откладывается по сравнению с их первоначальным производством слов содержания. Например, дети обычно произносят свои первые слова примерно в 12 месяцев, но только когда они объединяют слова в возрасте от 18 до 24 месяцев, дети, изучающие английский язык, начинают производить морфемы, когда это необходимо (Brown, 1973; de Villiers and de Villiers, 1973), и даже тогда мастерство может быть ограничено небольшим количеством форм.
Исследования восприятия и понимания также свидетельствуют о том, что младенцы, изучающие английский язык, начали формировать представления о суб-лексических морфемах и кое-что узнали о паттернах, в которых обычно встречаются морфемы, к тому времени, когда они начинают образовывать комбинации из двух слов. (Santelmann, Jusczyk, 1998; Golinkoff et al., 2001; Soderstrom et al., 2002). Например, Santelmann и Jusczyk (1998) показали, что 18-месячные младенцы предпочитают слушать грамматические предложения, в которых слово, оканчивающееся на морфему -ing , следует за функциональным словом — (1a), а не грамматическим предложениям в слово, следующее за функциональным словом can (1b).
(1) а. В пекарне все пекут хлеб.
г. * В пекарне выпекать хлеб могут все желающие.
Однако Сантельманн и Ющик не обнаружили такого различного предпочтения у 15-месячных детей. Аналогичным образом, для перегиба -s (множественное число и третье лицо единственного числа), Soderstrom (2003) и Soderstrom et al. (2002) показали, что 19-месячные дети замечали нарушение нормальных зависимостей между аффиксом и соседними функциональными словами, а 16-месячные — нет.Однако Soderstrom et al. (2007) сообщили о некоторых условиях, при которых даже 16-месячные дети проявляют чувствительность к неуместному аффиксу -s . Взятые вместе, эти эксперименты демонстрируют, что к 18 месяцам изучающие английский язык младенцы усваивают морфосинтаксические паттерны, включающие ряд сублексических морфем, и предполагают, что чувствительность младенцев к некоторым из этих паттернов развивается в 16 месяцев. Как следствие, эти исследования также предоставляют доказательства того, когда учащиеся представляют аффиксы как отдельные формы, то есть отдельно от основы, к которой они прикреплены, поскольку младенцы должны сначала сегментировать аффиксы как отдельные единицы, прежде чем изучать модели, в которые они вносят свой вклад.
Подобные эксперименты с младенцами, изучающими немецкий (Höhle et al., 2006), голландский (van Heugten, Johnson, 2010) и французский (van Heugten and Shi, 2010; Nazzi et al., 2011), широко повторили открытие, что младенцы между 17 и 24 месяцами становятся чувствительными к морфосинтаксическим паттернам, включающим аффиксы, и к функциональным элементам в более широком смысле (van Heugten and Shi, 2009; Shi and Melançon, 2010). В то же время эти кросс-лингвистические исследования предоставили дальнейшее понимание распределительных и лингвистических факторов, которые влияют на то, как младенцы обрабатывают морфосинтаксические зависимости.Однако эти исследования оставляют открытым вопрос о репрезентациях младенцев суб-лексических морфем в период развития до того, как они покажут чувствительность к зависимостям между морфосинтаксическими единицами. То есть, не совсем ясно, , почему 15-месячных детей не смогли по-разному отреагировать на (1a) и (1b) в исследовании Santelmann and Jusczyk (1998). Имеются данные о том, что в возрасте от 11 до 14 месяцев младенцы приобретают репрезентации служебных слов (Shi et al., 2006a, b), поэтому поведение 15-месячных детей вряд ли связано с неспособностью различать — в (1a) из банка в (1b).Однако может случиться так, что 15-месячные дети просто не представляют -ing как отдельную единицу и, следовательно, не имеют возможности представить паттерны и зависимости, включающие эту морфему. С другой стороны, они могут иметь дискретное представление -ing , но еще не изучили шаблоны зависимостей, в которых участвует -ing . Решение этого вопроса важно для понимания динамики морфосинтаксического развития младенцев, а также для создания основы для дальнейших исследований механизмов морфосинтаксического развития младенцев.
Недавнее исследование младенцев, изучающих французский язык, имеет отношение к этому вопросу. Маркиз и Ши (2012) приобщили 11-месячных детей, изучающих французский язык, к псевдокорню (т. Е. Бессмысленному слогу). Затем они записали время прослушивания младенцами отрывков, содержащих псевдокорень, «склоненный» к фактическому французскому суффиксу, / e /, и предложений с незнакомым псевдокорнем, также оканчивающимся на / e /. Младенцы дольше слушали предложения, содержащие изменяемый знакомый псевдокорень, предполагая, что младенцы отделили окончание / e / от остальной части слова и узнали знакомую основу.Различные младенцы, которые тестировались на знакомых и немлиаризированных псевдокорнях, изменяемых с помощью / u /, что не является французским аффиксом, не слушали преимущественно ни один из типов стимулов. Таким образом, реакция младенцев, которые предпочли знакомые и незнакомые основы с суффиксом / e /, не может быть объяснена фонетическим сходством ознакомленных и проверенных форм; скорее, поведение младенцев, по-видимому, определялось факторами, относящимися к статусу / e / как морфемы. Исследование Маркиза и Ши предоставляет самые ранние доказательства сегментации младенцев суб-лексических морфем.
Результаты Marquis and Shi (2012) демонстрируют, что младенцы начали формировать репрезентации связанных морфем к концу первого года жизни, по крайней мере, в случае младенцев, изучающих французский язык. При рассмотрении вопроса о представлении учащимися английского языка -ing возникает соблазн распространить этот вывод на английский и сделать вывод, что 15-месячные англичане должны поэтому представлять -ing как дискретную форму. Однако между французским и английским существуют важные различия, которые могут повлиять на то, как выводы Маркиза и Ши о французском обобщаются на английский.Прежде всего, флексионная система французского языка в целом богаче, чем английская. Французский обозначает как грамматический род, так и число, а также имеет гендерное и числовое соответствие между существительными, местоимениями, определителями и прилагательными. Эти свойства могут привести к тому, что младенцы, изучающие французский язык, будут обращать внимание, обнаруживать и обрабатывать суффиксы в более раннем возрасте по сравнению с младенцами, изучающими английский и другие языки, у которых явная морфология относительно бедна. Поэтому важно проверить результаты на других языках.
Существуют также методологические соображения, ограничивающие возможность обобщения выводов Маркиза и Ши (2012). В своих экспериментах младенцев приучали к предварительно сегментированному стеблю, и им нужно было только обработать и распознать этот стебель в сочетании с суффиксом. Если ранние представления младенцев о сублексических формах хрупки, их способность обнаруживать и обрабатывать связанные морфемы может быть ограничена. Требования обработки для отслеживания одной предварительно сегментированной основы в ходе эксперимента могут быть достаточно простыми для обнаружения морфемы и последующей сегментации основы, но сублексическая обработка может быть затруднена в более сложных ситуациях.Воспроизведение результатов с помощью различных экспериментальных дизайнов, особенно тех, которые предъявляют повышенные требования к ресурсам обработки и памяти, важно для установления устойчивости ранних представлений младенцев о морфологии. В каждом эксперименте настоящего исследования младенцы подвергались воздействию множества стержней, перегибаемых с помощью -ing . Чтобы показать доказательства морфологической сегментации, им пришлось сегментировать стебли этих форм, запоминать их в течение периода ознакомления, а затем распознавать их во время тестовых испытаний.Хотя младенцам не нужно сегментировать и сохранять каждый стебель, чтобы продемонстрировать надежный эффект сегментации, им придется отслеживать несколько, что увеличивает сложность и потребности в ресурсах. Более того, требование к младенцам выполнять сегментацию на этапе ознакомления, а не во время теста — обратный метод Маркиза и Ши — также может увеличить сложность задачи. Когда голая основа дается первой, это может помочь младенцам в обнаружении релевантных слов в тестовых отрывках, что несколько упрощает задачу обнаружения основы в измененной форме.Однако, когда флективные формы даются первыми (особенно, когда они находятся в пассажах, как в экспериментах 2–4), у младенцев нет этого дополнительного руководства по морфологической сегментации.
Таким образом, результаты Marquis and Shi (2012) предоставляют важные доказательства того, что младенцы могут представлять сублексические морфемы задолго до их способности отслеживать паттерны зависимости, в которых они возникают. Однако типологические различия между английским и французским языком, а также единый методологический контекст результатов дают лишь косвенные доказательства в отношении морфологических представлений у изучающих английский язык.Таким образом, вопрос о том, относятся ли 15-месячные изучающие английский язык к -ing как к отдельной форме [и, таким образом, их очевидная нечувствительность к нарушению в (1b)], остается открытым. Настоящее исследование обеспечивает более прямую оценку морфологических представлений 15-месячных детей, изучающих английский язык. Эксперименты 1–3 используют несколько дизайнов и наборов стимулов, чтобы предоставить сходные доказательства того, что 15-месячные дети, изучающие английский язык, относятся к и как к отдельной единице. Доказательства дискретного представления выводятся из способности младенцев сегментировать — , в отличие от неморфемных суффиксов, от концов новых слов.Мотивированный формальным сходством сублексической сегментации и сегментации слов, эксперимент 4 переходит к проверке доказательств сублексической сегментации у 8-месячных детей, которые, как было показано, отделяют слова от непрерывной речи (Jusczyk and Aslin, 1995). ; Saffran et al., 1996; Jusczyk et al., 1999; Pelucchi et al., 2009).
Эксперимент 1
В этом эксперименте проверялась гипотеза о том, что 15-месячные дети, изучающие английский язык, представляют суффикс ing как отдельную сущность и что представление как отдельная форма влияет на синтаксический анализ и представление слов младенцами.
Младенцы были ознакомлены с новыми словами, сказанными изолированно. Некоторые слова оканчивались английской морфемой, -ing (например, lerjoving ), а другие заканчивались последовательностью фонем / ɑt / ( -ot , например, jemontot ), в то время как другие не были систематически поделитесь финалом. Предполагалось, что если 15-месячные дети представят суффикс -ing как отдельную сущность, то они с большей вероятностью будут сегментировать -ing от концов новых слов, чем псевдо-суффикс — от .Как следствие процесса сегментации, младенцы затем сохранят представление полученных изолированных новых «стеблей» (стебли с , , например, lerjov , в приведенном выше примере). Поскольку, согласно гипотезе, младенцы не будут выполнять такого рода сублексическую сегментацию со словами, оканчивающимися на -ot (или с меньшей вероятностью), они не должны образовывать сублексические представления основ слов, оканчивающихся на . -от ( -от стержней ). В результате младенцы после ознакомления должны найти стебли с более знакомыми, чем стебли с .Различия в ответах были проверены с использованием версии процедуры предпочтения поворота головы (HPP; Kemler Nelson et al., 1995).
Материалы и методы
Субъекты
Все эксперименты, описанные в этой статье, были одобрены Советом по надзору за учреждениями Университета Южной Калифорнии. Испытуемые набирались по телефону из базы данных родителей, проявивших интерес к участию их младенцев в исследованиях в нашей лаборатории. По крайней мере, один родитель каждого младенца предоставил информированное согласие до того, как ребенок участвовал в эксперименте.По завершении каждой тестовой сессии мы дарили родителям футболку для их ребенка с надписью «Выпускник лаборатории языкового развития Университета Южной Калифорнии» в знак нашей признательности.
Были проанализированы данные 24 15-месячных учеников, изучающих английский язык (средний возраст 14:25, диапазон 14: 15–15: 10). Еще 15 младенцев были протестированы, но были исключены из анализа данных из-за того, что эксперимент не завершился (6), не явился в течение более чем 1 секунды по крайней мере на три тестовых испытания на блок (5), чрезмерная суетливость (2) вмешательство родителей (1), младенец перемещен из поля зрения (1).Двенадцать испытуемых были случайным образом отнесены к ознакомительной группе А; остальные 12 отнесены к ознакомительной группе Б.
Стимулы и дизайн
Ознакомление и тестовые стимулы были записаны женщиной, носителем американского английского языка, которая не понимала цели исследования. Запись производилась в звукопоглощающей кабине с использованием микрофона Shure SM58. Стимулы оцифровывались непосредственно в компьютер с частотой дискретизации 44,1 кГц. Были записаны три экземпляра каждого задания для ознакомления и тестирования.Все стимулы записывались во время одного сеанса записи.
Ознакомительные стимулы. Стимулы ознакомления состояли из двух наборов, A и B, каждый из которых состоял из 16 одноразовых слов. В каждом наборе пять слов оканчивались английским суффиксом -ing , пять оканчивались неморфологическим окончанием -ot (/ ɑt /), а остальные шесть слов были «не изменяемыми», то есть оканчивались на последовательность фонем, не разделяемая другими знакомыми словами.Целью включения неотбранных наполнителей было внесение некоторого разнообразия в ознакомительный материал, чтобы помочь сохранить участие младенцев в эксперименте. Что касается плана эксперимента, слова, оканчивающиеся на -ing и -ot , обрабатывались как псевдостебель плюс суффикс -ing или — от . Псевдо-основы слов -ing называются -основами , а псевдо-основы -ot слов называются -ot основ .Наборы A и B были разработаны для уравновешивания штоков и концов, так что штанги в одном наборе были -ot штоков в другом наборе. «Неизменяемые» слова в обоих наборах были одинаковыми. В таблице 1 представлен полный набор ознакомительных стимулов для эксперимента 1.
Таблица 1 . Ознакомительный материал для эксперимента 1 .
Четыре псевдостебеля были двусложными, а остальные — односложными.Длина стержня была включена в качестве переменной для увеличения разнообразия ознакомительного материала, а также для исследования влияния сложности слов на способность младенцев распознавать суффиксы. Для двусложных стеблей стресс контролировался таким образом, что хореальные и ямбические основы встречались одинаково часто с окончаниями — и — не (см. Таблицу 1).
Тестовые стимулы. Тестовые стимулы состояли из 10 псевдо-основ, которые были «изменены» в ознакомительных наборах, но теперь без суффиксов (например.g., gorp, rimp, gemónt и др.). Было четыре уникальных типа тестовой основы, которые характеризовались их значением по двум параметрам: количество слогов и статус основы. Стебли были либо односложными, либо двусложными (производными от двухсложных и трехсложных слов для ознакомления, соответственно) и представляли собой либо с основами, либо с основами. В то время как тестовые стимулы были идентичны для всех младенцев, статус стержня — то есть, был ли это стержень — или -ot — зависел от набора ознакомления ребенка.В этой конструкции предусмотрена уравновешенная штанга для каждой испытательной штанги. В таблице 2 показаны тестовые основы, сгруппированные по количеству слогов и статусу основы.
Таблица 2 . Тестовые стимулы для эксперимента 1 .
Акустические свойства. Чтобы гарантировать, что любые различия в способности младенцев сегментировать -ing и -ot не могли быть вызваны акустическими различиями между окончаниями, средняя амплитуда и продолжительность -ing и -ot в токенах Ознакомительные материалы были измерены с использованием Praat (Boersma and Weenink, 2009).Поскольку каждое слово было реализовано в трех токенах, акустические показатели были усреднены по трем токенам для каждого слова. В таблице 3 представлены средние значения для каждого суффикса, сгруппированные по основам слова. На рисунке 1 эти средства изображены графически с указанием типа аффикса. Как видно из таблицы и рисунка, окончания систематически не различаются ни в зависимости от размера, ни от простой комбинации размеров.
Таблица 3 . Измерения продолжительности и интенсивности английского аффикса и псевдоаффикса, использованных в эксперименте 1 .
Рис. 1. График длительности (с) по амплитуде (дБ сонов) для суффиксов в Эксперименте 1 . Каждая точка данных представляет собой среднее значение продолжительности и амплитуды аффикса, усредненное по трем токенам ознакомительного слова.
Методика и аппаратура
Каждый младенец тестировался отдельно, когда он сидел на коленях у смотрителя в центре комнаты с шумоподавлением. Смотритель слушал маскировочную музыку через плотно прилегающие наушники, чтобы не слышать экспериментальный материал.Экспериментатор наблюдал за тем, как ребенок смотрит, через монитор видеонаблюдения в соседней комнате. Экспериментатор регистрировал реакции младенца на поворот головы в компьютер, который контролировал все аспекты эксперимента.
В начале фазы ознакомления повторно вспыхнул красный свет, расположенный на уровне глаз на стене прямо перед младенцем. Когда младенец ориентировался на свет, ознакомительный материал воспроизводился на двух громкоговорителях, установленных на стенах слева и справа от младенца.Когда начался ознакомительный поток, центральный свет был погашен, а свет, установленный над одним из динамиков, вспыхнул. Он продолжал мигать, пока младенец сначала не посмотрел на него, а затем не отвел взгляд в течение двух секунд подряд. Затем габаритный огонь погас, а центральный свет снова вспыхнул, пока младенец не сориентировался в нейтральном центральном положении. Этот процесс повторялся на протяжении этой фазы, случайным образом выбирая сторону, на которой мигал свет. Взаимодействие со светом удерживало младенцев в напряжении и устанавливало связь между их поведением при взгляде и активацией света.
Ознакомительный материал воспроизводился непрерывно на протяжении всей фазы ознакомления и не зависел от ориентации младенцев после начала испытания. 16 ознакомительных слов были представлены в пяти блоках, с рандомизированным порядком слов в каждом блоке и с разным случайным порядком для каждого младенца. Между каждым словом стояла тишина 300 мс. Поскольку было три записанных версии каждого слова (см. Раздел «Стимулы и дизайн»), компьютер случайным образом выбрал один из трех токенов в каждой презентации.Половина испытуемых слышала слова набора A, а другая половина — слова B. Общий период ознакомления длился около 80 с.
После ознакомительного этапа сразу же последовал этап обучения на случай непредвиденных обстоятельств. Здесь предъявление слуховых стимулов также зависело от ориентации младенца на мигающий боковой свет. Слуховой стимул всегда представлял собой чистый тон 440 Гц длительностью 1 с. Представление начиналось, когда младенец ориентировался на мигающий боковой свет, и тон повторялся, пока младенец не отворачивался в течение двух смежных секунд.Этот этап состоял из четырех таких испытаний. Его цель состояла в том, чтобы подготовить младенца к следующей за ним фазе тестирования, в которой предъявление слуховых стимулов также зависело от ориентации на мигающий свет.
Этап тестирования был аналогичен этапу обучения на случай непредвиденных обстоятельств, за исключением того, что в каждом тестовом испытании воспроизводилась последовательность основ. В таблице 2 показаны четыре типа проб, которые определяют, какие именно последовательности стеблей играются. Типы испытаний определялись длиной слогов в основах и окончанием, которое было связано с основами во время ознакомления.Стебли воспроизводились в указанном порядке с ISI 300 мс. Последовательность повторялась в рамках тестового испытания до тех пор, пока младенец не отворачивался в течение двух секунд подряд, или после 15 повторений последовательности. Тестовые испытания были представлены в двух блоках, с рандомизированным порядком проведения испытаний по блокам, всего восемь тестовых испытаний на каждого младенца. Компьютер записал продолжительность каждого испытания. Переход от одного испытания к другому не отличался для испытаний внутри блока по сравнению с переходами от первого ко второму блоку.
На всех этапах эксперимента сторона предъявления стимула в данном испытании выбиралась случайным образом. Однако выбор был ограничен таким образом, что стимулы не были представлены одной и той же стороне более чем в трех последовательных испытаниях.
Если младенцы сегментируют суффикс -ing из ознакомительных слов, то основы -ing должны быть им относительно знакомы, поскольку они являются результатом процесса сегментации. Если младенцы не сегментируют псевдо-суффикс -ot , то основы -ot должны быть относительно менее знакомы.Прогнозируется, что различия в знакомстве приведут к различиям во времени прослушивания двух типов стимулов.
Результаты
Время прослушивания менее 1 секунды было заменено временем прослушивания для тех же стимулов в альтернативном блоке. Этот критерий использовался для определения испытаний, в которых младенцы отворачивались, прежде чем они услышали хотя бы одну целую основу в испытании, поскольку такие испытания не считались информативными в отношении представлений интересов. Это привело к одной замене испытания на двухсложный ствол -ot и одной замене для испытания на односложном стволе -го ствола .Однако, как описано в разделе выбора субъектов, младенцы, которые сохраняли поворот головы менее 1 секунды в более чем одном испытании на блок, не включались в анализ данных.
Данные сначала были представлены на дисперсионный анализ (ANOVA) с типом основы ( -ing или -ot ) и длиной в слогах (1 или 2) в качестве факторов внутри субъектов, а группа ознакомления (A или B ) как межсубъектный фактор. Поскольку не было значительного основного эффекта или взаимодействий с участием ознакомительной группы, все дальнейшие анализы объединили группы A и B, чтобы увеличить мощность.В результате 2 × 2 ANOVA не было основных эффектов, но было существенное взаимодействие между типом основы и количеством слогов в основе [ F (1,23) = 4,47, p = 0,046].
Чтобы понять это взаимодействие, среднее время прослушивания младенцами стволов и -ot стволов сравнивали отдельно для односложных и двусложных основ. Для односложных основ среднее время прослушивания младенцев — и — составляло 12.70 с (SE = 1,18) и 11,60 с (SE = 1,27) соответственно. Парный тест t показал, что эти времена прослушивания существенно не различались [ t (23) = 0,79, p = 0,44]. Однако для двусложных стволов младенцы значительно дольше слушают стволы -ot ( M = 14,1 с, SE = 1,3) по сравнению с -створками [ M = 10,9 с, SE = 1,1; t (23) = 2,42, p = 0,024, d = 0,56]. Шестнадцать из 24 младенцев дольше слушали двусложные стволы -от .На рисунке 2 показано время прослушивания каждого типа основы, упорядоченное по длине слогов.
Рис. 2. Среднее время прослушивания для эксперимента 1, упорядоченное по длине основы в слогах и статусу основы . Планки погрешностей показывают стандартные ошибки.
Обсуждение
В целом, этот эксперимент свидетельствует о том, что к 15 месяцам младенцы, изучающие английский язык, относятся к -ing особым образом, так что, когда они слышат слово, оканчивающееся в этой последовательности, они отделяют его от остальной части слова.Доказательства получены из сравнения тестовых испытаний, в которых испытуемые слышали основы, с которыми они были знакомы, в словах, оканчивающихся на -ing , и словах, заканчивающихся на -ot . Когда стебли были двусложными, испытуемые дольше слушали стебли — не . При предположении, что младенцы сегментировали морфемные основы много раз во время ознакомления и, таким образом, воспринимали их как единое целое, отличное от более крупного слова, различия в слушании согласуются с предпочтением новизны основ -ot , что, согласно гипотезе, испытуемые ранее не отделялись от ознакомительных слов.
Непонятно, почему такая разница не наблюдалась для односложных стеблей. Одна возможность состоит в том, что более длинные слова были более заметными на этапе ознакомления и были основаны на фоне более коротких слов. Младенцы могли не обработать слова с односложными основами в той же степени, что и слова с двусложными основами, и поэтому могли не сегментировать ни -ing , ни -ot из этих слов. В целом, переменная длина новых слов могла нарушить способность младенцев сегментировать морфемы по всем словам (Johnson and Tyler, 2010), а более длинные трехсложные слова (i.е., с двусложными стеблями), возможно, были более эффективными для привлечения внимания младенцев. Способность младенцев отделять -ing от односложных основ дополнительно исследуется в эксперименте 3.
Как показывают измерения, представленные на графике и показанные на Рисунке 1 и в Таблице 3, нет очевидных различий в акустической значимости, которые могли бы повлиять на сублексическую сегментацию таким образом, чтобы это привело к наблюдаемым результатам в Эксперименте 1. Тем не менее стоит повторить находку с разными стимулами.Имея это в виду, эксперимент 2 воспроизводит общие результаты эксперимента 1 с другим псевдоаффиксом и слегка измененным дизайном.
Эксперимент 2
Эксперимент 1 предоставил свидетельство, которое согласуется с интерпретацией, что 15-месячные дети предпочтительно отделяют от (в отличие от неморфемных окончаний) от слов, показывая, что они представляют -ing как отдельную сущность. Однако эксперимент противопоставил -ing только одним псевдоаффиксом -ot .Возможно, что -ing было изначально легче сегментировать для младенцев, чем -ot , хотя акустические измерения не подтверждают эту возможность (см. Таблицу 3). Тем не менее, чтобы быть уверенным, что результаты не были связаны с каким-то идиосинкразическим свойством -ot . В эксперименте 2 была воспроизведена общая схема, но с псевдоаффиксом -dut . Наиболее очевидное различие между двумя псевдоаффиксами состоит в том, что -dut начинается с согласной остановки, тогда как -ot (например, -ing ) начинается с гласной.На фонологическом уровне наличие начала делает -dut более полным как слог по сравнению с -ot (и -ing ), и, следовательно, может увеличить шансы того, что псевдо-суффикс будет сегментирован от остальное слово (Hayes, 2009). Акустические свойства -dut и -ing в эксперименте 2 представлены и обсуждаются ниже.
Чтобы сделать жизнь младенцев более похожей на опыт в нормальном языковом контексте, в ознакомительных материалах были представлены новые слова в английских предложениях — e.г., Я вижу тебя, лержовинг! — а не изолированно, как в эксперименте 1. Размещение новых слов в простых предложениях сделало ознакомительные стимулы более естественными, чем список отдельных слов. Естественные контексты могут привести к большему задействованию механизмов языковой обработки, например, включающих сегментацию слов, синтаксическую и семантическую обработку. Выявление и сегментирование подлексических форм может быть улучшено за счет более широкой лингвистической обработки. С другой стороны, естественные контексты также более сложны, с большим количеством материала для обработки в данном высказывании и большей потребностью в ресурсах (при условии, что субъекты в некоторой степени выполняют обработку на этих других лингвистических уровнях).Следовательно, мы можем наблюдать преимущество сублексической сегментации форм, которые более знакомы младенцам на основе их опыта владения английским языком, например суффикс -ing .
Материалы и методы
Субъекты
Процедуры набора субъектов были идентичны тем, которые использовались в эксперименте 1.
В эксперименте приняли участие тридцать младенцев в возрасте в среднем 15 месяцев (средний возраст 15 месяцев 3 дня, диапазон 14: 15–15: 18). Пятнадцать человек были случайным образом отнесены к ознакомительной группе А, а остальные испытуемые были отнесены к ознакомительной группе В.Еще 28 испытуемых были протестированы, но были исключены из исследования из-за того, что эксперимент не был завершен (15), не могли ориентироваться в течение как минимум 2 секунд как минимум в трех испытаниях на блок (2), вмешательство родителей (3), чрезмерное суетливость (6), отказ оборудования (1) и ошибка экспериментатора (1).
Стимулы и дизайн
Эти бессмысленные слова были трехсложными словами из эксперимента 1. Каждое одноразовое слово состояло из двух разных предложений, что дало в общей сложности восемь уникальных ознакомительных предложений.Во всех предложениях одноразовое слово было последним словом в предложении и находилось в синтаксической позиции глагола. Были созданы два уравновешенных набора ознакомительных предложений (набор A и набор B). Предложения в наборе A приведены в таблице 4. Набор B был создан из набора A путем замены окончаний -dut и -ing на слова nonce в предложениях в таблице 4. Например, предложение I see you lérjoving в наборе A соответствует , я вижу, вы lérjovdut в наборе B.
Таблица 4 . Ознакомительные предложения для субъектов группы А в эксперименте 2 .
Ознакомительные предложения были записаны носительницей английского языка, которая не знала предсказаний эксперимента. Оратор был обучен составлять предложения с нормальной просодией, подходящей для простого повествовательного предложения или вопроса. Предложения были объединены в три списка, в каждом из которых были перечислены предложения в разном случайном порядке.Оратор был записан, читая каждый список, в результате чего были получены три отдельных экземпляра каждого ознакомительного предложения, из которых была выбрана наиболее естественная по звучанию версия для использования в эксперименте.
Тестовыми объектами были четыре голых стебля nonce: lérjov, gemónt , káftee, jivánt . Для данного испытуемого половина тестовых стеблей составляла — стеблей, а половина — — стеблей. Из-за процедуры уравновешивания, основы из для субъектов в группе A были стволами -dut для субъекта в группе B, и наоборот.Следовательно, любые общие различия в ответах младенцев на элементы -ing и -dut не могут быть связаны с идиосинкразией самих тестовых заданий, а скорее должны быть связаны с различиями в распределении тестовых заданий при ознакомлении. струны.
Напомним, что образец напряжения был хореальным (сильным-слабым) для половины основы nonce и ямбическим (слабым-сильным) для другой. Известно, что стресс является фактором обработки речи младенца (Jusczyk et al., 1993; Echols et al., 1997; Тиссен и Саффран, 2003 г .; Куртин и др., 2005; среди прочего), и, следовательно, может влиять на сублексическую сегментацию. Следовательно, картина напряжений была включена в экспериментальный план в качестве контролируемой переменной. Характер напряжения для одного стержня nonce из каждой категории стержня ( -ing и -dut ) был хореальным, а другой — ямбическим.
тестовых заданий были записаны тем же обученным спикером, который записал ознакомительные предложения.Основы были составлены со списком интонаций, и каждое слово было записано трижды и оцифровано на компьютере, который контролировал эксперимент. При воспроизведении тестовых заданий компьютер случайным образом выбирал один из трех экземпляров элемента для воспроизведения.
Акустические свойства. Хотя экземпляры -ot и -ing в Эксперименте 1 в целом не различались по параметрам интенсивности и продолжительности (см. Таблицу 3), возможно, что некоторые другие факторы сделали -ot особенно устойчивым. сегментации.Используемый здесь псевдоаффикс -dut более правильно сформирован как слог, чем -ot из-за наличия начала (Hayes, 2009), и не должен сопротивляться сегментации по фонологическим причинам. Чтобы сравнить акустическую интенсивность — dut и -ing , средняя интенсивность для двух окончаний была измерена в каждом ознакомительном предложении с использованием программного пакета Praat (Boersma and Weenink, 2009). Каждое новое слово встречается в двух ознакомительных предложениях, поэтому измерения для каждого слова были усреднены по двум его лексемам.В таблице 5 представлены эти средства для каждого слова, а на рисунке 3 показаны окончания в двух измерениях. (Также показаны элементы из эксперимента 3.) Очевидно, что по этим акустическим измерениям -ing и -dut систематически не различаются. Таким образом, псевдо-суффикс не только является слогом CVC, но и соответствует — по продолжительности и интенсивности. Таким образом, по акустико-фонетическим причинам псевдо-суффикс должен быть так же легко отделен от псевдо-основы, как и реальный английский суффикс.
Таблица 5 . Измерения продолжительности и интенсивности для -ing и псевдо-суффиксов целевых слов в экспериментах 2–4 .
Рис. 3. График длительности (с) по амплитуде (дБ сонов) для суффиксов в экспериментах 2–4 . Каждая точка данных представляет собой два измерения аффикса (типа, обозначенного меткой) токена ознакомительного слова.
Методика и аппаратура
Аппарат, который использовался в эксперименте 1, использовался в эксперименте 2, однако процедура варьировалась по-разному. Во-первых, ознакомительные стимулы были представлены не пятью, а шестью блоками. Таким образом, испытуемые слышали дополнительное повторение каждого нового слова в этом эксперименте. Общая продолжительность ознакомительного этапа составила около 90 с. Ознакомительные высказывания были представлены с ISI 200 мс.
Этап испытания также отличается от эксперимента 1 тем, что здесь каждое испытание повторяет только один стержень, а не несколько стержней одного и того же типа.Таким образом, было проведено четыре уникальных испытательных испытания, вместе составляющих каждую комбинацию типа стебля ( -ing против -dut ) и образца напряжения (хорея против ямбического). Из-за уравновешенной конструкции, -из стволов для субъектов группы А были -от стволов для субъектов группы В, и наоборот. Как и в эксперименте 1, тестовые испытания были представлены в двух блоках с рандомизированным порядком внутри блоков.
Все остальные аспекты процедуры были идентичны Эксперименту 1.
Результаты и обсуждение
Тестовые испытания со временем прослушивания менее 1 с были заменены на время прослушивания для того же стимула в другом блоке. Таким образом были модифицированы данные для одного испытания ствола -ing и одного испытания ствола -dut .
Данные сначала были представлены в ANOVA 2 × 2 × 2 с типом стержня ( -ing или -dut ) и характером напряжения стержня (хорея или ямбик) в качестве факторов внутри субъектов и группой уравновешивания (A или B ) как межсубъектный фактор.Поскольку переменная группы не взаимодействовала с какой-либо другой переменной, данные из двух групп были объединены в последующих анализах, чтобы увеличить мощность. Был проведен ANOVA 2 × 2 с типом стержня ( -ing или -dut ) и структурой напряжения (хорея или ямб) в качестве переменных внутри субъекта. Как и предполагалось, основным эффектом был тип стебля: младенцы слушали в среднем 9,02 с (SE = 0,34) до — из стеблей по сравнению с 8,04 с (SE = 0,33) до — от стеблей [ F (1,29) = 5.30, p = 0,029, ηp2 = 0,154]. Двадцать два из 30 младенцев показали эту закономерность. Других значимых основных эффектов или взаимодействий не было. На рис. 4 показано среднее время прослушивания для стержней с и с выступом .
Рис. 4. Среднее время прослушивания стержней -ing и -dut в экспериментах 2–4 .
Как и в эксперименте 1, младенцы по-разному реагировали на основы, к которым они были знакомы в словах, оканчивающихся на английский суффикс, -ing , по сравнению с основами, с которыми они были знакомы в словах, оканчивающихся псевдо-суффиксом.Однако здесь младенцы дольше слушали основы с по сравнению с основами псевдо-суффикса, тогда как в эксперименте 1 младенцы дольше слушали основы псевдо-суффикса. Предпочтение знакомства здесь и новизны в Эксперименте 1 неудивительно, если учесть различия в дизайне двух экспериментов. В эксперименте 1 младенцев приучали к изменяемым словам по отдельности, тогда как в этом эксперименте слова были встроены в английские предложения. Это разумное предположение, что 15-месячные дети до некоторой степени обработали дополнительную богатую структуру вводных данных — сегментируя слова (Aslin et al., 1998), категоризация слов (Höhle et al., 2004; Gerken et al., 2005; Mintz, 2006; Shi and Melançon, 2010) и доступ к значениям слов. Сложность стимула была предложена как важное влияние на предпочтение младенцами новизны или знакомства в экспериментальных парадигмах, таких как HPP: более высокая сложность на этапах ознакомления и обучения связана с предпочтением более знакомого тестового материала, если эта сложность находится в пределах область того, что младенцы могут обрабатывать и представлять (Hunter et al., 1983; Хантер и Эймс, 1988; Kidd et al., 2012). Следовательно, увеличение сложности и разнообразия ознакомительного материала от Эксперимента 1 к Эксперименту 2 согласуется с переходом от предпочтения новизны в Эксперименте 1 к предпочтению знакомства в Эксперименте 2.
Таким образом, результаты эксперимента 2 подтверждают гипотезу о том, что 15-месячные дети рассматривают суффикс -ing как отдельный элемент. В экспериментах 1 и 2 сравнивалась сублексическая сегментация с -ing и двумя разными псевдо-суффиксами.В обоих случаях результаты показали, что младенцы сегментировали основы и окончания по-разному, когда окончание было английским суффиксом по сравнению с неанглийскими псевдо-суффиксами.
Однако в эксперименте 1 различия в сегментации были обнаружены только для двусложных стеблей. Младенцы не показали доказательств иной модели подлексической сегментации с односложными основами. Одно из объяснений заключалось в том, что при прослушивании списка отдельных слов трехсложные слова (с двусложным основанием) могли выделяться на фоне односложных и двусложных слов и привлекать внимание младенцев больше, чем двусложные слова.В отличие от относительно неестественного сценария ознакомления в Эксперименте 1 (длинный список отдельных слов), Эксперимент 2 познакомил младенцев с новыми словами в гораздо более естественном контексте, что могло бы более полно задействовать механизмы языковой обработки и, в свою очередь, облегчить обнаружение знакомые суффиксы в двусложных словах. Эксперимент 3 проверяет это предсказание, показывая 15-месячным детям двусложные бессмысленные слова в эксперименте, аналогичном эксперименту 2.
Эксперимент 3
Материалы и методы
Субъекты
Процедуры набора субъектов были идентичны тем, которые использовались в предыдущих экспериментах.
Были проанализированы данные по 34 младенцам в возрасте в среднем 15 месяцев (средний возраст 15 месяцев 1 день, диапазон от 14 месяцев 13 дней до 15 месяцев 14 дней). Данные о 19 дополнительных младенцах были исключены из-за невыполнения эксперимента (13), чрезмерной суетливости (3), вмешательства родителей (2) и ошибки экспериментатора (1).
Стимулы и дизайн
Ознакомительные и тестовые стимулы были подготовлены таким же образом, как и в эксперименте 2. Структура ознакомительного материала соответствовала структуре в эксперименте 2, за исключением того, что слова nonce были двусложными, а не трехсложными, а образец ударения для всех слов nonce был хорея.Как и в эксперименте 2, было два уравновешенных набора для ознакомления, A и B, так что вставка A стержней из была вставкой B для стержней -dut , и наоборот. Ознакомительные элементы для набора A приведены в таблице 6. Тестируемыми элементами были только четыре основы nonce: fem, gorp, sib и riz . Fem и gorp были стволами с для субъектов группы A и -dut стволами для субъектов группы B. Аналогично, sib и riz были основами из для субъектов группы B, но -dut оснований для субъектов группы A.
Таблица 6 . Ознакомительные предложения для субъектов группы А в эксперименте 3 .
Процедура
Процедура была идентична процедуре в Эксперименте 2, за исключением того, что было семь, а не шесть блоков ознакомления. Это связано с тем, что ознакомительные предложения были немного короче по продолжительности, а общая продолжительность ознакомительного периода была сохранена приблизительно на уровне 90 секунд.
Результаты и обсуждение
Как и в предыдущих исследованиях, тестовые испытания со временем ориентации менее 1 с были заменены на время ориентации испытуемого для того же стимула в другом блоке. Таким образом были модифицированы данные трех испытаний ствола -ing .
Для каждого испытуемого было рассчитано среднее время ориентации стержней из путем усреднения времени ориентации для всех испытаний стержней из для тестовых блоков. Среднее время ориентации стволов -dut было рассчитано аналогичным образом, что дало две точки данных для каждого субъекта.
Субъекты в ознакомительных группах A и B не различались по своим общим образцам реакции на -ing против -dut стержней [ t (32) = 1,33, p = 0,19], поэтому оценки для две группы были объединены. Как и в эксперименте 2, младенцы значительно дольше слушали стебли из по сравнению со стеблями из . Среднее время прослушивания составило 8,7 с (SE = 0,35) и 7,7 с (SE = 0,334) для стволов -ing и -dut соответственно [ t (33) = 2.34, p = 0,026 двусторонний, d = 0,47]. Двадцать два из 34 младенцев показали эту закономерность. На рисунке 4 показано среднее время прослушивания для двух типов ножек.
Таким образом, при тестировании на односложных стебляхмладенцы вели себя аналогично, как и в эксперименте 2 при тестировании на двусложных стеблях: они надежно дольше слушали стебли с по сравнению с -dut . Таким образом, как и в экспериментах 1 и 2, младенцы сегментировали основы из знакомых слов с английским суффиксом, но не из основы, содержащей псевдо-суффикс.Здесь, однако, младенцы показали эту разницу сегментации для двусложных слов, тогда как в эксперименте 1 они этого не сделали. Как обсуждалось ранее, структура ознакомительного материала могла сосредоточить внимание младенцев на более характерных трехсложных словах, чтобы они с меньшей вероятностью обнаруживали и отделяли -ing от односложных основ. Кроме того, ознакомление младенцев со словами nonce в обычных английских предложениях могло привести к большему задействованию и активации механизмов обработки и представлений нормального языка, включая обработку знакомых аффиксов, таких как -ing .
Таким образом, этот эксперимент дополнительно подтверждает гипотезу о том, что 15-месячные изучающие английский язык относятся к английскому суффиксу -ing привилегированным образом при обработке речи. Эти результаты согласуются с результатами Marquis and Shi (2012), которые показали, что младенцы, изучающие французский язык, представляют элементы связанной морфологии уже к 11 месяцам. Маркиз и Ши предположили, что младенцы формируют отдельные представления связанных морфем, по крайней мере, на начальном этапе, просто потому, что эти формы очень часто вводятся.Этого объяснения может быть достаточно, чтобы учесть разницу в сегментации между -ing и используемыми здесь псевдо-суффиксами. Однако механизм, который учитывает внутреннюю предсказуемость форм, возможно, в дополнение к их частоте, также согласуется с настоящими выводами. Например, механизм сегментации слов, предложенный Saffran et al. (1996) сегментирует последовательности на стыках с низкой вероятностью перехода между слогами. Последовательности с высокой вероятностью перехода также могут иметь относительно высокую частоту, но две последовательности могут быть равными по частоте, но при этом различаться внутренними переходными вероятностями.Младенцы в возрасте 8 месяцев, по-видимому, чувствительны к вероятности перехода, а не только к частоте (Aslin et al., 1998).
Функциональное сходство между сегментацией слов и сублексической сегментацией связанных морфем — то есть извлечение предсказуемых последовательностей из более крупных последовательностей — может быть отражено сходством в механизмах обработки. Поскольку 8-месячные младенцы демонстрируют статистически обоснованную сегментацию слов, возможно, они также могут обнаруживать очень регулярные закономерности в пределах слов.Эксперимент 4 исследует этот вопрос, повторяя процедуры и дизайн эксперимента 2, но тестируя 8-месячных младенцев.
Эксперимент 4
Материалы и методы
Субъекты
Процедуры набора субъектов были идентичны тем, которые использовались в предыдущих экспериментах.
Были протестированы 36 младенцев в возрасте в среднем 8 месяцев (средний возраст 8 месяцев 3 дня, диапазон от 7 месяцев 18 дней до 8 месяцев 20 дней). Младенцы были случайным образом распределены в одну из двух ознакомительных групп, A или B, по 18 детей в каждой.Были проанализированы данные всех 36 младенцев.
Стимулы и дизайн
Стимулы и план эксперимента были идентичны эксперименту 2.
Методика и аппаратура
Аппаратура и процедура тестирования были идентичны Эксперименту 2.
Результаты и обсуждение
Как и в предыдущих экспериментах, любое тестовое испытание со временем ориентации менее 1 с заменялось временем ориентации субъекта для того же стимула в другом блоке.Таким образом были изменены данные одного испытания ствола -ing .
Данные сначала были представлены в ANOVA 2 × 2 × 2 с типом стержня ( -ing или -dut ) и характером напряжения стержня (хорея или ямбик) в качестве факторов внутри субъектов и группой уравновешивания (A или B ) как межсубъектный фактор. Поскольку групповая переменная не взаимодействовала с какой-либо другой переменной, данные из двух групп были объединены для увеличения мощности. Был проведен ANOVA 2 × 2 с типом стержня ( -ing или -dut ) и структурой напряжения (хорея или ямб) в качестве переменных внутри субъекта.Ни основной эффект, ни взаимодействие не были значительными (все F s <1). Как показано на Фигуре 4, время прослушивания у младенцев стволов -ing и -dut составляло 9,0 с (SE = 0,37) и 9,0 с (SE = 0,26), соответственно.
В отличие от предыдущих экспериментов с 15-месячными детьми, не было никаких доказательств того, что 8-месячные дети относились к -ing особым образом при обработке ознакомительного материала. В принципе, механизмы, которые задействованы в лабораторных демонстрациях сегментации слов в 7.Дети в возрасте 5–8 месяцев могут сегментировать предсказуемые сублексические паттерны, такие как связанные морфемы. Однако этот эксперимент не дает никаких доказательств того, что 8-месячные дети проводят подобные анализы. Конечно, план эксперимента оценивает сегментацию суффиксов косвенно, путем измерения реакции младенцев на основы. Может случиться так, что младенцы сегментировали -ing (но не -dut ) во время ознакомления, но не имели достаточного воздействия на полученные стебли, чтобы быть в состоянии распознать их во время фазы тестирования.По сравнению с экспериментами по сегментации слов, в описанных здесь экспериментах младенцы гораздо меньше знакомы с отдельными тестовыми заданиями. Например, в исследовании Saffran et al. (1996) младенцев проверяли на словах, которые они слышали 45 раз. Количество воздействий в настоящем исследовании могло быть достаточным для 15-месячных, но не для 8-месячных. С другой стороны, также возможно, что 8-месячные дети еще не начали формировать долгосрочные представления о сублексических формах.
План этого эксперимента может быть изменен, чтобы увеличить доступ к одноразовым словам.Однако это рискует предоставить младенцам распределительные доказательства того, что псевдоаффиксы также являются аффиксами, и тогда младенцы также могут начать сегментировать псевдоаффиксы. Действительно, в одном эксперименте Маркиз и Ши (2012) продемонстрировали, что при достаточном воздействии псевдо-суффикса, / u /, 11-месячные дети, изучающие французский язык, начали трактовать окончание так же, как и настоящий французский суффикс, / e /, в своей экспериментальной задаче.
Общие обсуждения
В совокупности эксперименты в этом исследовании демонстрируют, что 15-месячные дети, изучающие английский язык, представляют суффикс -ing как отдельную единицу.Таким образом, хотя предыдущие эксперименты не смогли найти доказательств того, что 15-месячные дети приобрели морфосинтаксические зависимости с участием -ing (Santelmann and Jusczyk, 1998), младенцы, тем не менее, могут быть в процессе обучения этим зависимостям в этом возрасте. В частности, наличие дискретного представления аффикса позволяет младенцам замечать зависимости между этим аффиксом и другими формами.
Важно отметить, что, хотя это исследование поддерживает гипотезу о том, что младенцы рассматривают -ing как отдельную сущность в 15 месяцев, было бы преждевременно делать вывод о том, что они приобрели суффикс английского языка qua .То есть нет никаких доказательств того, что эти формы являются полностью морфологическими в том смысле, что младенцы представляют их как элементы, которые участвуют в зависимостях и связаны с определенными семантическими свойствами. (Действительно, результаты Santelmann и Juscyk предполагают, что младенцы еще не усвоили основные закономерности и зависимости, включающие -ing .) Первоначально младенцы могли представлять связанные морфемы как отдельные сущности просто на основании того факта, что они часто встречаются в словах, как предполагалось. Маркиза и Ши (2012).Результаты настоящего исследования полностью согласуются с этим предложением. При исследовании входных данных для ребенка Питера в корпусе Bloom (Bloom et al., 1974, 1975) базы данных CHILDES (MacWhinney, 2000) 2,2% словосочетаний и 6,9% типов слов, произносимых взрослыми Петр заканчивался на / Iŋ / (независимо от того, было ли окончание морфемой или нет, как в поют ). Напротив, только 0,6% токенов и 0,5% типов слов оканчивались на / ɑt /, и не было слов, заканчивающихся последовательностью / dʌt /.
Хотя Маркиз и Ши (2012) обсуждают ранние представления младенцев связанных морфем с точки зрения частоты сублексических паттернов, разумно предположить, что обнаружение сублексических форм также может зависеть от переходных вероятностей. То есть, когда часто встречающаяся форма встречается во многих различных контекстах, она может с большей вероятностью быть идентифицирована как отдельная форма, чем форма с одинаковой частотой, которая встречается в более ограниченном наборе контекстов. В этом случае механизмы сегментации подлексических форм будут вычислительно подобны механизмам, которые были предложены для обнаружения слов в беглой речи (Saffran et al., 1996; Aslin et al., 1998; Pelucchi et al., 2009). Хотя это может быть так, в эксперименте 4 не было обнаружено доказательств того, что 8-месячные дети выявляли и сегментировали — из из бессмысленных слов, хотя у младенцев было относительно мало контактов с новыми формами по сравнению с другими экспериментами по сегментации слов. В будущих исследованиях с использованием других методов можно будет выяснить, как ранние младенцы начинают сегментировать и представлять связанные морфемы как отдельные формы.
Помимо свойств распределения, таких как частота и вероятности перехода, фонологические факторы также могут влиять на раннее представление аффиксов младенцами.В той степени, в которой аффиксы в данном языке обладают фонотаксическими тенденциями, которые младенцы могут обнаружить, после того, как младенцы сегментировали достаточно аффиксов, чтобы обнаружить закономерности, они могли бы использовать эти тенденции в качестве подсказок для направления дальнейшей сегментации и открытия новых аффиксов. Эта возможность вызывает потенциальную озабоченность в этом исследовании: хотя, как только что сообщалось, частота / ɑt / и / dʌt / в конце слов в вводной информации детей очень мала или практически отсутствует, два псевдоаффикса не параллельны в сравнение с реальными английскими аффиксами при анализе на более общем уровне.В частности, ни один английский флективный суффикс не имеет структуры CVC, такой как / dʌt / (хотя некоторые деривационные аффиксы имеют, например, -tion ), но часто встречаются аффиксы со структурой VC, например / ɑt / (например, / Iŋ / , / әz /, / әd /). В принципе, если младенцы чувствительны к этим более широким фонотаксическим свойствам английских флективных аффиксов, атипичная структура -dut могла бы заставить младенцев отвергнуть -dut как возможный суффикс в экспериментах 2 и 3. Эта возможность предлагает другое объяснение для различных результатов в отношении односложных основ в Эксперименте 1 по сравнению с Экспериментом 3: младенцы могут быть относительно более склонны рассматривать -ot как возможный суффикс из-за его фонологической структуры и, учитывая более простую общую структуру двусложных слов, сегментированных и -ing , и -ot из более коротких слов в Эксперименте 1.Конечно, это исследование не было разработано для проверки этих более широких обобщений фонологической формы. Тем не менее, чтобы рассмотреть эту возможность, было проведено последующее исследование с участием взрослых; Эксперимент был разработан для оценки того, демонстрируют ли опытные английские пользователи преимущество в сегментировании -ot , которое соответствует структуре словоизменения английского языка, от словоформ nonce по сравнению с -dut , которое этого не делает. Пятнадцать носителей английского языка слушали одни и те же слова nonce, которые заканчивались на — dut и — ot , которые использовались в этих исследованиях, но слова были представлены в быстрой последовательности, с 1.1 с между началом слов. Время от времени два слова подряд оканчивались на -дут или оба на -от . Участникам приходилось нажимать клавишу всякий раз, когда они слышали слово, которое рифмулось со словом перед ним. Интересный вопрос заключался в том, различались ли участники по точности определения рифм с -ot по сравнению с рифмами с -dut . Логистическая регрессия с окончанием ( -dut vs. -ot ) в качестве переменной внутри субъектов не выявила никакой разницы в точности определения рифм с -dut (в среднем обнаружено 78%) по сравнению с рифмами с -от (в среднем обнаружено 68%; p = 0.336). Таким образом, для взрослых, очевидно, нет преимущества той или иной формы с точки зрения простоты обнаружения. Интересно, что было небольшое преимущество во времени реакции для рифм -dut (607 мс, измеренных от начала суффикса) по сравнению с рифмами -ot [653 мс; t (14) = 2,20, p <0,05]. Хотя эти данные взрослых вряд ли убедительны в отношении знания младенцев о флексиях, они, по крайней мере, предполагают, что младенцы не будут иметь предвзятого отношения к сегментации -dut по сравнению с -ot от псевдостеблей, несмотря на то, что первое нетипично относительно флективных суффиксов в английском языке.
Скромное, но надежное преимущество в скорости для обнаружения -dut по сравнению с -ot у взрослых может быть связано с тем, что — dut является полным слогом, тогда как -dut не имеет начала и подлежит ресиллабификации с сегментами. на конце стебля. Действительно, мотивирующим фактором для использования — dut в экспериментах 2–4 было использование псевдоаффикса, который было относительно легко сегментировать по структурным признакам, таким образом обеспечивая более надежный тест на отношение младенцев к -ing как к привилегированному. форма.Однако, выходя за рамки методологических соображений этого исследования, факторы восприятия, относящиеся к структуре аффиксного слога, являются еще одним способом, с помощью которого фонологические переменные могут играть роль в приобретении аффиксов младенцами: при прочих равных условиях аффиксы, подлежащие ресиллабификации, могут быть более сложными. на обнаружение и на приобретение требуется больше времени, чем на аффиксы, которых нет. С кросс-лингвистической точки зрения это понятие находит некоторую поддержку. Например, турецкие морфемы обычно слоговые и содержат нередуцированные гласные, а многие из них имеют начало.Дети, изучающие турецкий, демонстрируют продуктивное использование морфем несколько раньше, чем дети, изучающие английский язык (Aksu Koç and Ketrez, 2003). В настоящем исследовании, хотя -ing не имеет начала, оно отличается от большинства других флективных морфем в английском языке тем, что имеет полный гласный звук. Также, как правило, это первая флективная морфема, которая надежно воспроизводится, когда этого требуют дети, изучающие английский язык. Тогда возможно, что, хотя 15-месячные дети определили эту «устойчивую» морфему как отдельную форму, они еще не сформировали независимые представления о других английских морфемах.Изучение этого вопроса путем тестирования различных морфем прояснит роль перцептивных свойств суффиксов, которые могут влиять на то, как связанные морфемы сначала представляются.
Наконец, в дополнение к потенциальной роли частоты в приобретении младенцами аффиксов (Marquis and Shi, 2012), более общие характеристики распределения флективной системы языка могут влиять на обнаружение младенцами связанных морфем. Как упоминалось ранее, можно было ожидать, что время развития первых представлений морфем будет зависеть от богатства явной морфологической маркировки языка.Изучающие языки с богатой морфологической маркировкой (например, французский) могут начать обнаруживать и представлять сублексические формы до того, как их сверстники изучают языки, которые морфологически более «обеднены» (например, английский). Приобретение турецкого языка, опять же, является некоторым подтверждением этой точки зрения. Турецкий язык широко использует морфологическую маркировку, и дети демонстрируют продуктивное использование морфем уже в 17 месяцев (Aksu Koç and Ketrez, 2003). Однако такие сравнения осложняются фонологическими и перцептивными факторами, о которых говорилось ранее.
Заключение
Значительный компонент языка, как по структуре, так и по содержанию, находится в сублексических комбинаторных единицах — связанных морфемах. При овладении языком учащиеся должны усвоить семантические и структурные свойства связанных морфем, но перед этим они должны определить, какие соответствующие сублексические единицы находятся в их языке. Представленные здесь эксперименты демонстрируют, что 15-месячные дети, изучающие английский язык, представляют — как отдельную форму.При обработке новых слов, оканчивающихся на -ing , они отделяют суффикс от основы. Это позволяет им замечать морфосинтаксические и морфосемантические паттерны, которые включают эту форму, и которые будут составлять часть их приобретенных грамматических знаний. Вдобавок, представляя основы слов как отдельные формы, младенцы могут затем обнаруживать морфосинтаксические паттерны, включающие основу, такие как другие флективные парадигмы. Таким образом, в возрасте, когда многие учащиеся еще не комбинируют слова в своей речи, и до того, как они продуктивно используют связанные морфемы, младенцы начинают формировать представления о морфологии своего языка.
Заявление о конфликте интересов
Автор заявляет, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могут быть истолкованы как потенциальный конфликт интересов.
Благодарности
Я хотел бы поблагодарить Лору Стинберг и Кристи Харди за их помощь в сборе и кодировании данных о младенцах, Феликса Ванга и Калин Редди за проведение эксперимента для взрослых, а также многих родителей и семей, которые вызвались сделать это исследование возможным.Предварительные данные некоторых из этих экспериментов были представлены на Международной конференции по изучению младенцев и на конференции Бостонского университета по развитию языков. Это исследование было частично поддержано грантом Национального института здоровья (NICHD-R01HD040368).
Сноски
Список литературы
Аксу Коч, А., Кетрез, Ф. Н. (2003). «Ранняя глагольная морфология в турецком языке: появление флексий», в Mini-Paradigms and the Emergence of Verb Morphology , ред.Биттнер, У. Дресслер и Килани-Шох (Берлин: Вальтер де Грюйтер), 27–52.
Аслин Р. Н., Саффран Дж. Р. и Ньюпорт Е. Л. (1998). Вычисление статистики условной вероятности для 8-месячных младенцев. Psychol. Sci. 9, 321–324.
CrossRef Полный текст
Блум, Л., Худ, Л., и Лайтбаун, П. (1974). Подражание в развитии языка: если, когда и почему. Cogn. Psychol. 6, 380–420.
CrossRef Полный текст
Боерсма, П., и Вининк, Д. (2009). Praat: выполнение фонетики на компьютере (Версия 5.1.43) [Компьютерная программа] . Доступно на: http://www.praat.org/.
Браун Р. (1973). Первый язык: первые этапы . Кембридж, Массачусетс: Издательство Гарвардского университета.
де Вилье, Дж. Г., и де Вильерс, П. А. (1973). Поперечное исследование усвоения грамматических морфем в детской речи. J. Психолингвист. Res. 2, 267–278.
CrossRef Полный текст
Эколс, К. Х., Кроухерст, М. Дж., И Чайлдерс, Дж. Б. (1997). Восприятие ритмических единиц в речи младенцами и взрослыми. J. Mem. Lang. 36, 202–225.
CrossRef Полный текст
Голинкофф Р. М., Хирш-Пасек К. и Швайсгут М. А. (2001). «Переоценка знаний детей младшего возраста о грамматических морфемах», в Подходы к загрузке: фонологические, лексические, синтаксические и нейрофизиологические аспекты раннего усвоения языка , Vol.1, ред. J. Weissenborn и B. Höhle (Амстердам: Джон Бенджаминс), 167–188.
Хейс, Б. (2009). Вводная фонология . Молден, Массачусетс: Wiley-Blackwell.
Хёле Б., Шмитц М., Сантельманн Л. М. и Вайссенборн Дж. (2006). Признание прерывистых вербальных зависимостей немецкими 19-месячными подростками: свидетельство лексического и структурного влияния на способность детей к обработке в раннем возрасте. Lang. Учить. Dev. 2, 277–300.
CrossRef Полный текст
Хёле, Б., Вайссенборн, Дж., Кифер, Д., Шульц, А., и Шмитц, М. (2004). Функциональные элементы в обработке речи младенцев: роль детерминаторов в синтаксической категоризации лексических элементов. Младенчество 5, 341–353.
CrossRef Полный текст
Хантер, М. А., и Эймс, Э. У. (1988). Многофакторная модель детских предпочтений новых и знакомых стимулов. Adv. Infancy Res. 5, 69–95.
Хантер, М.А., Эймс, Э.У.и Купман Р. (1983). Влияние сложности стимула и времени ознакомления на предпочтения младенцев в отношении новых и знакомых стимулов. Dev. Psychol. 19, 338.
CrossRef Полный текст
Кемлер, Нельсон, Д. Г., Ючик, П. В., Мандель, Д. Р., Майерс, Дж., Терк, А., и Геркен, Л. (1995). Процедура предпочтения поворота головы для проверки слухового восприятия. Infant Behav. Dev. 18, 111–116.
CrossRef Полный текст
Кидд, К., Пиантадози, С. Т., и Аслин, Р. Н. (2012). Эффект Златовласки: младенцы обращают внимание на визуальные последовательности, которые не являются ни слишком простыми, ни слишком сложными. PLoS ONE 7: e36399. DOI: 10.1371 / journal.pone.0036399
CrossRef Полный текст
MacWhinney, B. (2000). Проект CHILDES: Инструменты для анализа разговоров: База данных . 3-е изд., Т. 2. Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.
Минц, Т. Х. (2006).«Поиск глаголов: распределение сигналов по категориям, доступным для юных учащихся», в Action Meets Word: How Children Learn Verbs , ред. Р. М. Голинкофф и К. Хирш-Пасек (Нью-Йорк: Oxford University Press), 31–63.
Нацци Т., Баррьер И., Гойе Л., Креш С. и Лежандр Г. (2011). Отслеживание нерегулярных морфофонологических зависимостей в естественном языке: свидетельство приобретения согласия подлежащее-глагол во французском языке. Познание 120, 119–135.
Pubmed Аннотация | Pubmed Полный текст | CrossRef Полный текст
Ши Р., Катлер А., Веркер Дж. И Круикшанк М. (2006a). Частота и форма как детерминанты чувствительности функтора у младенцев, усваивающих английский язык. J. Acoust. Soc. Являюсь. 119, EL61 – EL67.
CrossRef Полный текст
Ши Р., Веркер Дж. Ф. и Катлер А. (2006b). Распознавание и представление служебных слов у младенцев, изучающих английский язык. Младенчество 10, 187–198.
CrossRef Полный текст
Ши Р. и Мелансон А. (2010). Синтаксическая категоризация у младенцев, изучающих французский язык. Младенчество 15, 517–533.
CrossRef Полный текст
Содерстрем, М. (2003). Приобретение морфологии перегиба в раннем восприятии синтаксиса . Докторская диссертация, Университет Джона Хопкинса. [Получено из диссертаций и тезисов ProQuest.(УМИ № 3068215)].
Содерстрем, М., Векслер, К., и Ючик, П. В. (2002). «Чувствительность малышей, изучающих английский язык, к морфологии согласия в рецептивной грамматике», в материалах 26-й ежегодной конференции Бостонского университета по языковому развитию , ред. Б. Скарабела, С. Фиш и А. Х.-Дж. Do (Somerville: Cascadilla Press), 643–652.
Содерстром, М., Уайт, К. С., Конуэлл, Э. и Морган, Дж. Л. (2007). Восприимчивое знание грамматики знакомых содержательных слов и интонации у 16-месячных. Младенчество 12, 1–29.
CrossRef Полный текст
ван Хойгтен, М., и Джонсон, Э. К. (2010). Связь распределенных обучающих способностей младенцев с усвоением естественного языка. J. Mem. Lang. 63, 197–209.
CrossRef Полный текст
google-research / turkish-morphology: двухуровневый морфологический анализатор для турецкого языка.
Двухуровневый морфологический анализатор для турецкого языка.
Это не официальный продукт Google.
Компоненты
Эта реализация состоит из трех уровней:
Лексика:
Этот слой включает турецкие лексиконы с широким охватом, которые вводятся вручную. аннотированы и проверены на предмет нарушений части речи и морфофонемии. Они предназначены для использования при построении обработки турецкого естественного языка. инструменты, такие как морфологические анализаторы. Набор базовых лексиконов, которые мы provide включает аннотированные лексические элементы на 47 202 слова.Наборы тегов и схема аннотации описана в руководстве по аннотации словаря.
Морфотактика:
Этот уровень включает набор определений FST, которые реализованы в пользовательский формат, аналогичный формату AT&T FSM (с той лишь разницей, что мы можем использовать строки в качестве имен состояний и меток ввода / вывода для каждого перехода вместо целых чисел). Для каждого из этих FST мы определяем суффикс паттерны и инвентарь морфем вместе с их соответствующими выводить пары морфологического признака «категория-значение» для данной части речи.Общая морфотаксическая модель и категория-значение морфологического признака наборы тегов описаны в руководящих принципах морфотаксической модели.
Морфофонемика:
Этот уровень включает набор грамматик Thrax, каждая из которых реализует автономный морфофонематический процесс (например, гармония гласных, снижение гласных, озвучивание согласных и падение согласных и т. д.). Состав экспортируемого FST, определенные в этих грамматиках Thrax, образуют морфофонемную модель Турецкий.
Первый уровень морфологического анализа реализует морфофонемная модель, которая берет турецкое слово и превращает его в промежуточное представление. Выход первого уровня возможен. последовали гипотезы аннотаций основы слова с морфофонемными нарушениями метаморфемами, соответствующими суффиксам, которые реализуются в форма поверхности.
Ввод: affında
Вывод: af "+ SH + NDA
Словарные статьи и морфотаксические определения FST составлены и скомпилированы в единый FST, который действует как второй уровень морфологического анализа, а именно морфотаксическая модель.Морфотаксическая модель занимает промежуточное положение. ленту в качестве входных данных и преобразует ее во все возможные удобочитаемые морфологические анализ, который может быть произведен на основе гипотез, созданных на первом уровне.
Ввод: af "+ SH + NDA
Вывод: (af [NN] + [PersonNumber = A3sg] + Hn [Possessive = P2sg] + NDA [Case = Loc]) + [Proper = False]
См. Раздел «Интерпретация удобочитаемого морфологического анализа». описание такого удобочитаемого морфологического анализа.
Как разбирать слова
Чтобы морфологически разобрать слово, просто запустите его из корня проекта. каталог.
bazel run -c opt scripts: print_analyses - --word = [WORD_TO_PARSE]
Это морфологически проанализирует входное слово по двухуровневому морфологический анализатор и вывести набор удобочитаемых морфологических анализ, как таковой:
bazel run -c opt скрипты: print_analyses - --word = geldiğinde
> Морфологический анализ слова geldiğinde:
> (gel [VB] + [Polarity = Pos]) ([NOMP] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + Hn [Possessive = P2sg] + NDA [Case = Loc] + [Copula = PresCop] + [PersonNumber = V3pl]) + [Собственное = False]
> (gel [VB] + [Polarity = Pos]) ([NOMP] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + Hn [Possessive = P2sg] + NDA [Case = Loc] + [Copula = PresCop] + [PersonNumber = V3pl]) + [Собственный = True]
> (gel [VB] + [Polarity = Pos]) ([NOMP] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + Hn [Possessive = P2sg] + NDA [Case = Loc] + [Copula = PresCop] + [PersonNumber = V3sg]) + [Собственное = False]
> (gel [VB] + [Polarity = Pos]) ([NOMP] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + Hn [Possessive = P2sg] + NDA [Case = Loc] + [Copula = PresCop] + [PersonNumber = V3sg]) + [Собственный = True]
> (gel [VB] + [Polarity = Pos]) ([NOMP] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + SH [Possessive = P3sg] + NDA [Case = Loc] + [Copula = PresCop] + [PersonNumber = V3pl]) + [Собственное = False]
> (gel [VB] + [Polarity = Pos]) ([NOMP] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + SH [Possessive = P3sg] + NDA [Case = Loc] + [Copula = PresCop] + [PersonNumber = V3pl]) + [Собственный = True]
> (gel [VB] + [Polarity = Pos]) ([NOMP] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + SH [Possessive = P3sg] + NDA [Case = Loc] + [Copula = PresCop] + [PersonNumber = V3sg]) + [Собственное = False]
> (gel [VB] + [Polarity = Pos]) ([NOMP] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + SH [Possessive = P3sg] + NDA [Case = Loc] + [Copula = PresCop] + [PersonNumber = V3sg]) + [Собственный = True]
> (gel [VB] + [Polarity = Pos]) ([VN] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + Hn [Possessive = P2sg] + NDA [Case = Loc]) + [Proper = False ]
> (gel [VB] + [Polarity = Pos]) ([VN] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + Hn [Possessive = P2sg] + NDA [Case = Loc]) + [Собственный = True ]
> (gel [VB] + [Polarity = Pos]) ([VN] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + SH [Possessive = P3sg] + NDA [Case = Loc]) + [Proper = False ]
> (gel [VB] + [Polarity = Pos]) ([VN] -DHk [Derivation = PastNom] + [PersonNumber = A3sg] + SH [Possessive = P3sg] + NDA [Case = Loc]) + [Собственный = True ]
Если введенная строка не принята как турецкое слово, морфологический анализатор выводит пустой результат.
bazel run -c opt скрипты: print_analyses - --word = foo
> 'foo' не употребляется как турецкое слово
Интерпретация удобочитаемого морфологического анализа
Ниже приведен пример вывода удобочитаемого морфологического анализа;
Входное слово ( evlerindekilerin = те, которые принадлежат их домов):
bazel run -c opt скрипты: print_analyses - --word = evlerindekilerin
Строка морфологического анализа вывода образца :
(ev [NN] + [PersonNumber = A3sg] + lArH [Possessive = P3pl] + NDA [Case = Loc]) ([PRF] -ki [Derivation = Pron] + lAr [PersonNumber = A3sg] + [Possessive = Pnon] + NHn [Case = Gen]) + [Собственный = False]
Удобочитаемые морфологические анализы можно разложить на части:
Флективные группы:
Каждый удобочитаемый морфологический анализ состоит из флективных групп.Флективная группа — это диапазон вложенных слов, и он создается путем аффиксации словообразовательная морфема. Анализы флективных групп включены в скобка. Пример выше содержит две флективные группы:
-
(ev [NN] + [PersonNumber = A3sg] + lArH [Possessive = P3pl] + NDA [Case = Loc])
-
([PRF] -ki [Derivation = Pron] + lAr [PersonNumber = A3pl] + [Possessive = Pnon] + NHn [Case = Gen])
-
Основа слова:
Первая флективная группа содержит основу слова (e.грамм.
ev
— это корневая форма для приведенного выше примера входное слово evlerindekilerin ).Анализ морфем:
Внутри каждой флективной группы метаморфемы и соответствующие им морфологические теги категорий и значений разделены с разделителями
+
или-
. (например,+ [PersonNumber = A3sg]
,+ lArH [Possessive = P3pl]
,-ki [Производное = Pron]
и т. Д.). Строки, которые Непосредственные последователи разделителей+
или-
являются метаморфемами (например,грамм.NDA
— метаморфема в морфемном анализе+ NDA [Case = Loc]
). Теги категории и значения морфологического объекта заключены в квадратные скобки справа. после метаморфем (например,Case
— это категория функций, аLoc
— значение признака в анализе морфем+ NDA [Case = Loc]
).Обрыв речи:
Тег части речи каждой флективной группы является первым тегом в квадратных скобках флективная группа (e.грамм.
NN
— часть речи первого инфлективная группа иPRF
для второй флективной группы).Флективные и деривационные морфемы:
Мета-морфемы, разделенные разделителем
+
, не создают новый флективная группа. Это флективные морфемы (например,+ [PersonNumber = A3sg]
,+ NDA [Case = Loc]
,+ [Possessive = Pnon]
и т. Д.). Мета-морфемы, разделенные разделителем-
, создают новый флективная группа.Это деривационные морфемы (например,-ki [Производное = Pron]
). Следовательно, первая метаморфема в словоизменении группа всегда следует за разделителем-
, но не+
.Поверхностная реализация перегибов:
Некоторые метаморфемы не реализуются в поверхностной форме. Эти метаморфемы не соответствуют диапазону символов во входном слове. Для них мы делаем не выводить метаморфемы при анализе морфем (например,грамм.
+ lArH [Possessive = P3pl]
и+ NDA [Case = Loc]
реализованы на поверхности форме, таким образом, у них есть явные метаморфемыlArH
иNDA
в их морфемный анализ. Однако+ [PersonNumber = A3sg]
и+ [Possessive = Pnon]
не реализуются в поверхностной форме, поэтому только морфологический признак теги значения категории выводятся для них в их морфемном анализе).Поверхностная реализация отводов:
Деривационные морфемы всегда должны реализовываться в поверхностной форме.Они всегда соответствуют диапазону символов во входном слове. Поэтому мы всегда выводить непустые метаморфемы в соответствующем морфемном анализе словообразовательные морфемы. Это означает, что в морфотаксическая модель.
Анализ существительных собственных:
Необязательный анализ свойств собственных существительных выводится в конце каждого флективная группа (например,
+ [Proper = False]
, которая следует за вторым флективная группа).Категория свойств собственных существительных может принимать два значенияИстинно
илиНеверно
. Если он указан какИстинный
, флективная группа, которую он следует считается частью существительного собственного. Эта функция используется для захватить внутреннюю структуру существительных, состоящих из нескольких слова (например, для многословных названий фильмов настоящая часть речи и морфологический признак слов, составляющих многословное название фильма, может быть аннотированы, отмечая при этом тот факт, что они являются частью существительного собственного, используя эта особенность).Анализ признаков собственных существительных опущен для некоторых флективных групп. иметь компактное представление и минимизировать количество морфологических анализы, произведенные морфологическим анализатором. В таких случаях существительное собственное анализ характеристик флективной группы применяется ко всем предыдущим флективные группы, в которых его нет (например, первая флективная группа приведенный выше пример наследует анализ признаков собственного существительного
Собственный = Ложь
из второй флективной группы).
Python API
Мы также предоставляем Python API, который можно использовать для морфологического анализа
Турецкие слова, генерировать турецкие словоформы из морфологического анализа, синтаксический анализ
удобочитаемый морфологический анализ в сообщения protobuf, проверка их
структурная правильность и для создания на их основе удобочитаемого анализа.
Вы можете увидеть некоторые примеры использования в // examples
.
Если вы используете Bazel, вы можете полагаться на этот репозиторий как на внешний зависимости вашего проекта, добавив в файл WORKSPACE следующее:
git_repository (
name = "google_research_turkish_morphology",
remote = "https: // github.com / google-research / turkish-morphology.git ",
tag = "{version-tag}",
)
Тогда вы можете просто использовать @ google_research_turkish_morphology // turkish_morphology: анализировать
(или другие модули API) в зависимости от вашего соответствующего py_library
или py_binary
СТРОИТЬ цели.
API также доступен на PyPi. Чтобы установить последнюю версию PyPi, запустите:
python3 -m pip install turkish-morphology
Для установки из исходного кода запустите ниже из корневого каталога проекта (желательно в виртуальной среде Python):
базель сборка //...
bazel-bin / установка установки
Требования
Для сборки и запуска морфологического анализатора установите Bazel версии 4.0.0, Python 3.7.5 (или более новая версия). Все остальные внутренние зависимости будут быть импортированным, построенным и обслуживаемым Базелем в соответствии с РАБОЧИМИ МЕСТАМИ настройка во время первого вызова среды выполнения морфологического анализатора. Если вы устанавливаете из PyPi, вам понадобится pip.
Цитирование
Если вы используете или обсуждаете код, данные или инструменты из этого репозитория в своей работе, цитируйте, пожалуйста:
Озтюрель, А., Каяделен, Т. и Демиршахин, I. (2019, сентябрь). Синтаксически экспрессивный морфологический анализатор для турецкого языка. В трудах 14-го Международная конференция по методам конечных состояний и естественному языку Обработка (стр. 65-75).
@inproceedings {
title = "Синтаксически выразительный морфологический анализатор для турецкого языка",
author = "\" {O} zt \ "{u} rel, Аднан и Каяделен, Толга и Демир \ c {s} ахин,
Я \ c {s} {\ i} n ",
booktitle = "Труды 14-й Международной конференции по конечному состоянию
Методы и обработка естественного языка »,
month = "23--25" # сен,
год = "2019",
address = "Дрезден, Германия",
publisher = "Ассоциация компьютерной лингвистики",
url = "https: // www.aclweb.org/anthology/W19-3110 ",
pages = "65–75",
}
Лицензия
Если не указано иное, все исходные файлы находятся под лицензией Лицензия Apache, версия 2.0.
1. Введение
1. ВведениеМорфология — это лингвистическая отрасль, изучающая внутреннюю структуру и синтаксис морфем. Морфемы — это минимальные смысловые лингвистические элементы, которые передают семантические и синтаксические подсказки письменных или произнесенных слов. В разных языках существует три основных морфологических структуры: словоизменительная, деривационная и составная.Предыдущие исследования в основном были сосредоточены на флективной и деривационной морфологии, которая преобладает в индоевропейских языках. Однако для изолирующих языков, таких как китайский, преобладающей морфологической структурой является сложное соединение, и в литературе этому не уделяется должного внимания. Чтобы заполнить этот пробел, мы стремимся пролить свет на мозговые механизмы составной морфологической обработки при распознавании китайских письменных слов.
Флективная морфология состоит из одной основы и одного или нескольких флективных аффиксов, таких как обычное прошедшее время (например, обычное прошедшее время).g., «jumped = jump + ed») и правильных существительных во множественном числе («dogs = dog + s»). Коннекционистские модели утверждают, что регулярные изменяемые формы не разложимы и скорее обрабатываются как перекрывающиеся целые формы [1, 2]. Другие исследователи утверждают, что основные морфемы (например, «прыжок» и «собака») обрабатываются иначе, чем обычные флективные морфемы («-ed» и «-s»), поскольку морфофонологический анализ сложной словоформы необходим для доступа к фонологические и семантические свойства только от основы [3].Морфологическая декомпозиция поддерживается нейронной сетью, соединяющей левую нижнюю лобную область с левой задней верхней и средней височной областями через дугообразный пучок, поскольку в этих областях наблюдалась большая активация при обработке регулярно изменяемых слов, чем неправильных слов [4]. Лучшие поведенческие оценки при обработке обычного прошедшего времени значительно коррелируют с более высокой плотностью серого вещества в левой лобно-височной коре, особенно в левой нижней лобной извилине (LIFG) у пациентов с повреждением головного мозга [5].Морфофонологический анализ выполняется на ранней стадии и автоматически для всех возможных словоформ, включая производные сложные морфемы (например, счастье = счастье + ness, строитель = строитель + er) и псевдопроизводные слова (например, угол = кукуруза + er; «угол» фактически не имеет морфологического аффикса «эр») [6, 7].
В отличие от индоевропейских языков, китайский язык почти не имеет флективной или деривационной морфологии, и более 70% всех китайских слов представляют собой соединения с двумя или более составляющими морфемами [8]. Китайские морфемы могут стоять отдельно как мономорфные слова.Слоги — это фонологические формы китайских морфем. В китайском языке более 5000 морфем и около 1300 слогов (с учетом четырех тонов), поэтому каждый слог соответствует примерно четырем различным морфемам в среднем [9]. Орфографические формы китайских морфем, то есть символов, могут различать разные гомофонические морфемы. Значение слова — это не простая комбинация значений составляющих морфем; скорее, это результат взаимодействия между ними. Предыдущие поведенческие исследования показали, что морфологический синтаксический анализ сложных слов является ранним и автоматическим, а активированная морфологическая информация облегчает процесс распознавания китайских слов [10–13].Однако нейронные механизмы морфологии соединений остаются недостаточно изученными, поскольку они редко исследовались в исследовательской литературе.
В настоящем исследовании мы стремимся пролить свет на этот вопрос, манипулируя тремя типичными морфологическими структурами двусложных китайских слов, то есть параллельными, предвзятыми и мономорфными соединениями. В каждом параллельном соединении две составляющие морфемы в равной степени вносят вклад в значение всего слова, в то время как значение каждого смещенного соединения в основном происходит от второй морфемы с первой морфемой в качестве модификатора.Мы также включаем группу мономорфных слов в качестве базового условия. Сравнивая эти три состояния, мы стремимся выявить нейронную сеть, участвующую в обработке или представлении различных морфологических структур, а также исследовать, поддерживается ли составной морфологический синтаксический анализ той же левой лобно-височной нейронной сетью для обработки флективной и деривационной морфологии, как показано в предыдущем разделе Исследование европейского языка. Учитывая автоматическую функцию морфологического анализа, мы предполагаем, что наблюдаем слабый или даже нулевой эффект морфологической обработки в нашем каноническом анализе нейровизуализации.Чтобы решить эту потенциальную проблему, мы планируем применить подход машинного обучения, то есть поддержку анализа категоризации векторной машины (SVM), для дальнейшего изучения нейронной основы морфологического синтаксического анализа и ожидаем найти эти паттерны нейронной активации в лево-лобно-височном языке. сеть, особенно LIFG, может функционировать, чтобы дифференцировать разные морфологические структуры.
2. Материалы и методы 2.1. УчастникиДвадцать молодых здоровых взрослых (20–36 лет, средний возраст = 24 года; 10 мужчин) приняли участие в этом исследовании.Все были правши (Edinburgh Handedness Inventory, Oldfield [14]), студентами или аспирантами Университета Тунцзи и носителями китайского языка. Зрение всех участников было нормальным или исправлено до нормального. Ни у кого из участников не было серьезных заболеваний (например, сердечных заболеваний, инсульта), психологических или неврологических расстройств, и они не принимали лекарства, которые могли бы повлиять на функцию мозга или нервную активность [15]. Все участники дали согласие и получили компенсацию за свое время. Это исследование было одобрено этическим комитетом Департамента медицины и наук о жизни Университета Тунцзи.
2.2. СтимулыЧтобы понять нейронные механизмы морфологической репрезентации, мы манипулировали тремя типами морфологических структур в обычных китайских реальных словах в трех условиях: параллельная биморфема (PB), предвзятая биморфема (BB) и мономорфная (MM). Значение двух составляющих морфем вносит равный вклад в полное значение каждого слова PB, например, «父母» (родители) — это комбинация первой морфемы «父» (отец) и второй морфемы 母 (мать). Напротив, значение каждого слова BB происходит в основном от второй морфемы (т.е., заглавие слова), например, «红豆» (красная фасоль) подчеркивает фасоль), (豆), в то время как красный (only) — это только определенная особенность. Каждое слово MM также состояло из двух символов, но только одной морфемы, например, «坦克» (бак) не может быть разделено на две морфемы «坦» и «克» грамматически. В каждом условии есть 88 слов, частота и ход которых совпадают между ними (Таблица 1). Мы также выбрали 132 бессмысленных нелингвистических слова в качестве экспериментальных наполнителей и 60 нелингвистических символов «####» в качестве средств визуальной фиксации.
Таблица 1Характеристики стимула в каждом экспериментальном состоянии со средними значениями.
Состояние | Частота слов | Ход | Частота первого символа | Частота второго символа | |||||
---|---|---|---|---|---|---|---|---|---|
PB | 9,64 | 18,45 | 126,72 | 111.77 126.72 | 111.77 | 16,29 | 502,23 | 314,88 | |
MM | 9,64 | 20,9 | 54,34 | 20.95 | |||||
Неслова | 0 | 17,92 | 231,79 | 144,82 |
Ключ: PB = параллельные биморфемные слова, BB = биморфемные слова со смещением, MM = мономорфные слова.
Все стимулы каждого типа были разделены поровну на четыре части по частоте слов и количеству ударов, а затем распределены по каждой экспериментальной серии соответственно. Как следствие, есть четыре прогона в этом эксперименте фМРТ, каждый из которых состоит из 22 слов PB, 22 слов BB, 22 слов MM, 33 не-слов и 15 нелингвистических символов.Каждый стимул отображался в центре экрана в течение 1000 мс, после чего следовало короткое время пустого экрана (см. Рисунок 1 для иллюстрации экспериментальных процедур). Участников проинструктировали нажимать либо левую кнопку для каждого значимого слова, либо правую кнопку для каждого бессмысленного неслова и символа. Участникам было предложено ответить как можно быстрее и точнее. Им было предложено немного попрактиковаться, чтобы ознакомиться с процедурой, прежде чем входить в сканер.Время отклика (RT) записывалось и рассчитывалось от начала каждого стимула до нажатия кнопки. Испытания были рандомизированы в порядке отображения и колебались с интервалами между испытаниями (ITI), варьирующимися от 2 до 6 с (M = 3,2 с), с использованием программы Optseq2 [16]. Четыре порядка отображения этих четырех экспериментальных запусков были созданы с использованием рандомизации по латинскому квадрату, и каждому участнику был назначен случайный порядок отображения. Все стимулы отображались с помощью программы E-Prime (https: // pstnet.ru / products / e-prime /), а общая продолжительность каждого запуска составляет 6 минут.
Рисунок 1Иллюстрация экспериментальной процедуры с примерами стимулов.
Все участники были просканированы с помощью сканера всего тела GEMR 750 3,0 Тесла (General Electric, Милуоки, Висконсин, США) с восьмиканальной катушкой для головы в Университете Тонгжи. Мы выбрали последовательность EPI с градиентным эхом для сбора функциональных сканирований, каждое из которых состояло из 40 смежных наклонных аксиальных срезов без зазора между соседними срезами, размер вокселя = 3 × 3 × 3 мм, поле зрения (FOV) = 19.2 × 19,2 см, время повторения (TR) = 2 с, время эхо-сигнала (TE) = 23 мс, угол поворота = 77 °. Получение срезов в каждом сканировании чередовалось и параллельно линии AC-PC. В каждом функциональном прогоне, который длился 8 минут 16 секунд, было 248 томов мозга. Мы также собрали T1-взвешенные структурные изображения с использованием последовательности импульсов 3D fSPGR для анатомической локализации с 162 смежными срезами, размер вокселя = 1 × 1 × 1 мм, FOV = 25,6 см 2 , TR = 7,64 с, TE = 2,94 мс, и угол поворота = 12 °.
Мы выполнили предварительную обработку и статистический анализ собранных функциональных и структурных изображений в SPM12 (Институт когнитивной неврологии Wellcome, Лондон, Великобритания. Http://www.fil.ion.ucl.ac.uk) в среде MATLAB (Mathworks Inc. ., Натик, Массачусетс, США). В каждом прогоне удалялись три вводных сканирования EPI, а оставшиеся изображения были повторно выровнены по первому изображению для коррекции движения головы с последующей коррекцией времени среза. Структурные изображения T1 были сопоставлены со средними изображениями всех функциональных изображений, а затем сегментированы на серое вещество, белое вещество и спинномозговую жидкость (CSF).Все изображения были нормализованы по стандартному шаблону Монреальского неврологического института (MNI) с использованием порогового значения 25 мм для функций дискретного косинусного преобразования. Мы провели дальнейший статистический анализ с использованием общей линейной модели с полумаксимальным (FWHM) гауссовым сглаживающим ядром 8 мм.
При анализе фиксированных эффектов для каждого участника все экспериментальные стимулы были смоделированы в шести независимых событиях: PB, BB, MM, неслова, визуальная фиксация и ошибки. Испытания в случае ошибки состояли как из испытаний с неправильными ответами, так и с RT более 3000 мс.Испытания в случае ошибки составили 4,7% от всех испытаний. Каноническая функция гемодинамического ответа (HRF) использовалась для моделирования каждого испытания. Начало каждого испытания было рассчитано и введено в модель с длительностью = 0, чтобы гибко определять пиковую активацию для каждого испытания. Данные для каждого прогона были сначала проанализированы, а затем усреднены по четырем прогонам для каждого участника, и были введены карты активации для каждого контраста (например, PB минус нулевые события, BB минус нулевые события и MM минус нулевые события) для каждого участника. в анализ случайных эффектов на групповом уровне.О значительных активациях сообщалось при p <0,001, нескорректированном уровне вокселов и p <0,05, скорректированном на уровне кластера для множественных сравнений. Координаты всех пиков значимых кластеров в этом исследовании находились в пространстве MNI. Точные области активации мозга были идентифицированы с использованием шаблонов Бродмана и Атласа AAL [17], реализованного в MRIcron (http://www.MRicro.com/MRicron), и устно очерчены в Разделе 3.
2.4. Области интереса (ROI)Для выполнения анализа машинного обучения мы определили четыре ROI на основе значимых кластеров активации в основном экспериментальном контрасте реальных слов минус нулевые события.Нейронная активность в каждой области интереса была извлечена с помощью Marsbar (набор инструментов области интереса для SPM) для каждого интересующего контраста и каждого участника. Значения активации вокселей служили входными функциями для классификатора машины опорных векторов. В настоящем исследовании размерность вектора признаков r была намного больше, чем количество обучающих выборок N. Следовательно, уменьшение размерности было необходимо для проецирования выборок в низкоразмерное пространство, что также снизило вычислительную сложность классификатора.
2,5. Машина опорных векторовМашина опорных векторов (SVM) — это метод машинного обучения, предложенный и разработанный на основе теории статистического обучения. Он обладает множеством уникальных преимуществ при распознавании нелинейных образов, малых выборок и многомерных образов, поэтому он широко используется при решении задач машинного обучения. Для данных, которые линейно неделимы в N измерениях, пробелы выше N + 1 имеют больше шансов стать линейно разделяемыми. Следовательно, мы можем отображать линейно неделимые данные в линейно разделяемое новое пространство и делать прогнозы в новом пространстве с помощью SVM с жестким интервалом или SVM с мягким интервалом.Таким образом, мы меняем исходную проблему различения паттернов нейронной активации для разных классов стимулов на ту, где паттерны для каждого класса могут быть линейно разделены в новом пространстве.
В нашей текущей работе мы используем SVM для биномиальной классификации. Базовая модель определяется как линейный классификатор с наибольшим интервалом в пространстве признаков, и его стратегия обучения заключается в максимальном увеличении интервала, что в конечном итоге может преобразовать проблему в решение задачи выпуклого квадратичного программирования.Конечная цель этого анализа — попытаться различить различия в паттернах активации в областях интереса 20 субъектов в двух условиях, что по сути является проблемой бинарной классификации, которую метод SVM вполне может решить для целей этого эксперимента. .
2.6. Производительность классификатораМы оценили производительность классификатора с помощью перекрестной проверки. Для каждой перекрестной проверки было выбрано 18 участников для обучения классификатора, а два оставшихся участника использовались для тестирования.Эта процедура была повторена 190 раз, при этом все возможные комбинации двух субъектов учитывались при тестировании на протяжении 190 прогонов перекрестной проверки. Точность классификатора измерялась долей правильно классифицированных наблюдений.
3. Результаты3.1. Поведенческие результатыВремя отклика и точность во всех испытаниях были записаны и усреднены для каждого экспериментального условия (слова PB: среднее RT = 758 мс, частота ошибок = 3,7%; слова BB: RT = 739 мс, частота ошибок = 2,8%; слова MM : RT = 754 мс, частота ошибок = 3.5%). Мы выполнили ANOVA (дисперсионный анализ) RT правильных испытаний среди этих трех условий, но не обнаружили существенной разницы (F = 0,12, p> 0,5). Дальнейший анализ испытаний ошибок не проводился, так как частота ошибок в каждом условии была очень низкой (все <5%).
3.2. Результаты визуализацииПервым шагом в нейровизуализационном анализе было проверить, вызывает ли задача активацию в той коре головного мозга, которая обычно связана с распознаванием письменных слов. Мы решили эту проблему, сравнив все слова с базовым уровнем фиксации.Как показано на рисунке 2 и в таблице 2, распознавание китайских слов вызывает большую активацию, чем фиксация, в первую очередь в левой нижней лобной извилине (LIFG), двусторонней боковой затылочной коре (LOC) и дополнительной моторной области (SMA). Это типичная нейронная сеть для обработки письменных текстов, которая широко наблюдалась в предыдущих исследованиях [18–20].
Рисунок 2Значимая активация прямого контраста слов минус фиксация при пороге p <0,001, без коррекции на уровне вокселей и p <0.005, исправлено на уровне кластера. Цветная полоса показывает t значений контрастности.
Сферы деятельности по контрастированию слов минус фиксация.
Области | BA | Протяженность | Макс. Z | MNI | ||
---|---|---|---|---|---|---|
x | y | z | ||||
LIFG | 47 | 61 | 3,87 | −39 | 29 | −16 |
LLOC , 19 | 311 | 4.57 | −36 | −85 | −7 | |
RLOC | 18,19 | 179 | 4,63 | 33 | −88 | −10 |
SMA | 6 | 903,78 | −6 | 23 | −65 |
Обозначения: LIFG = левая нижняя лобная извилина, LLOC = левая боковая затылочная кора, RLOC = правая боковая затылочная кора, SMA = дополнительная моторная область.
Для исследования нейронных субстратов морфологического представления мы выполнили односторонний дисперсионный анализ с тремя морфологическими условиями в качестве входных уровней: слова PB минус нулевые события, BB слова минус нулевые события и слова MM минус нулевые события. Между этими тремя состояниями не было обнаружено значительных различий.
3.3. Результаты SVMНулевые эффекты морфологической обработки в вышеупомянутом одномерном анализе показывают, что слова PB, BB и MM могут активировать левую лобно-височную сеть до того же уровня амплитуды.Чтобы проверить, одинаковы ли паттерны нейронной активации в этих трех условиях, мы выполнили анализ двоичной классификации SVM, который чувствителен к различиям в информации паттернов, а не к величине активации (см. Рисунок 3 для иллюстрации этапов анализа). При анализе всего мозга точность классификации трех контрастов (слова PB — фиксация против слов BB — фиксация; слова PB — фиксация против слов MM — фиксация; слова BB — фиксация против слов MM — фиксация) существенно не различалась от уровней вероятности (среднее значение <52%, критерий значимости p <0.005).
Рисунок 3Четыре области интереса были выбраны на основе значимых кластеров на контрасте всех слов без фиксации: (a) LIFG (розовый), (b) SMA (красный), (c) LLOC (желтый) и (d ) RLOC (фиолетовый). (e) Анализ двоичной классификации SVM: различные паттерны активации были извлечены из разных условий в каждой области интереса, а значения вокселов были определены как характеристики классификации каждой области интереса.
Анализ всего мозга включает все вокселы в головном мозге, что может снизить чувствительность обнаружения SVM, поскольку некоторые включенные области мозга могут не участвовать в морфологической обработке.Чтобы решить эту проблему, мы выбрали четыре значимых кластера из канонического контраста слов без фиксации в качестве областей интереса (ROI): LIFG (BA47), левый и правый LOC (BA18 / 19) и SMA (BA6) и выполнили SVM-анализ в каждой ROI (таблица 2). В LIFG ROI точность классификации слов PB и BB составляет 75,8%, что выше вероятности (p <0,001). Однако LIFG не может отличить слова PB или BB от слов MM (точность обоих <70%). Ни одна из трех других областей интереса (SMA и левый и правый LOC) не могла различить любое из этих трех условий (вся точность <70%) (Таблица 3).
Таблица 3Результаты классификации SVM с точностью (точно) и значением p (p) для каждого раздела.
Контраст раздела | LIFG (BA47) | LLOC (BA18 / 19) | RLOC (BA18 / 19) | SMA (BA6) | ||||
---|---|---|---|---|---|---|---|---|
Accur. | p | Accur. | p | Accur. | p | Accur. | п. | |
1 | 0,758 | 0.001 | 0,517 | 0,383 | 0,581 | 0,001 | 0,514 | 0,465 |
2 | 0,432 | 0,001 | 0,664 | 0,001 | 0,477 | 0,5361 0,677 | 0,224 | |
3 | 0,515 | 0,464 | 0,58 | 0,396 | 0,534 | 0,055 | 0,503 | 0,005 |
Контрастность 1 означает классификацию слов PB и BB (слова PB — слова MM vs.BB слова — слова MM). Контраст 2 означает классификацию слов BB и MM (слова BB – фиксация против слов MM – фиксация). Контраст 3 означает классификацию слов PB и MM (слова PB – фиксация против слов MM – фиксация).
4. ОбсуждениеВ этом исследовании мы манипулировали тремя морфологическими структурами в китайских двусложных словах, чтобы изучить нейронные механизмы морфологии сложения. Мы не наблюдали значительных различий между этими тремя состояниями в каноническом нейровизуализационном анализе, но обнаружили, что LIFG может отличить параллель от смещенных морфологических структур в анализе SVM.Это открытие согласуется с предыдущими исследованиями в этом морфологическом анализе или представлении — независимо от того, является ли оно флективным, деривационным или составным — поддерживается левой лобно-височной сетью [3, 5, 6]. Обычно активированный LIFG в этом и многих других исследованиях указывает на то, что эта область может быть основным местом для универсальной морфологической обработки различных морфологических структур и различных языковых модальностей. Напротив, др. Активированные регионы, такие как LOC и SMA, не могут дифференцировать разные морфологические структуры.LIFG широко известен на многих различных уровнях представления китайского языка, таких как фонологические, семантические, синтаксические и морфологические процессы. Соответствующее исследование распознавания китайских слов показало, что эффект несовпадения морфемы и слова был слабее в левом IFG при китайской дислексии [21]. LIFG может заниматься обнаружением и кодированием морфологической информации китайских слов, а также составлять и анализировать ментальные структуры различных составляющих морфем.
Составное слово — это особая морфологическая структура, которая объединяет две морфемы непосредственно вместе без явных изменений словоформы; следовательно, разложение составных слов не может полагаться на словоформу (т.е., аффиксы) как в словоизменительных и словообразовательных словах, но, скорее всего, зависит от значения каждой составляющей морфемы. Относительно неявная морфологическая структура (без явных изменений формы) может частично объяснить нулевой эффект контрастов между различными морфологическими структурами в канонических анализах фМРТ.