Разобрать по составу слово сложное: Как разобрать по составу сложные слова?

Исследование выявило лингвистический феномен, когда люди обрабатывают сложные слова

NewsResearch

Jeanne Coleongco30 октября 2019 г.

4 минуты чтения

Helen Zhang

Люди говорят самые странные вещи.

Сначала все кажется нормальным: слово «снежок» — это «шар из снега», но потом мы говорим такие вещи, как «ковер», который не является домашним животным, которое вы держите в своей машине, или игрушечной машиной для ваш питомец.

Профессора психологии Университета Альберты Кристина Ганье и Томас Сполдинг с 2006 года работают над тем, чтобы понять, как наш мозг обрабатывает сложные слова.0003

Шлюз поговорил с ними об их последнем исследовании, в ходе которого они обнаружили, что мы обрабатываем псевдосоставные слова — слова, которые выглядят так, будто состоят из более коротких существующих слов — например, «ковер», точно так же, как мы обрабатываем настоящие соединения. как «снежный ком»; путем разбора их на более мелкие единицы.


The Gateway : Не могли бы вы описать исследование своими словами?

Spalding: Вы предъявляете людям слово и спрашиваете их: «Это правильно написано или нет?», и они говорят «правильно» или «не правильно» так быстро, как только могут. Одна из вещей, которую мы знаем из других исследований, заключается в том, что если у вас есть орфографическая ошибка, когда вы просто берете две буквы из слова и меняете их местами, люди все равно очень хорошо определяют, что это за слово на самом деле. Чтобы решить, правильно ли что-то написано или нет, вы должны фактически получить доступ к слову, поэтому идея состоит в том, что вы можете сравнивать такие слова, как «ковер», с мономорфными элементами управления — такими словами, как «жираф», которые не выглядят так, как будто у них есть части. их. Оказывается, когда у вас есть слова типа «ковра» [с ошибками в написании], с ними немного сложнее иметь дело, чем со словами типа «жираф».

Как вы начали задавать вопросы в своем исследовании?

Хелен Чжан На фото: Томас Сполдинг и Кристина Ганье

Ганье: Еще в аспирантуре меня интересовало нечто, называемое концептуальной комбинацией, когда люди могут взять две или более концепции и объединить их вместе, чтобы сформировать новую концепцию.

СУБЪЕКТ: В аспирантуре моей основной областью работы было то, как люди изучают отдельные понятия, поэтому, если вы сосредоточитесь на изучении отдельных понятий, то очевидным следующим шагом будет: «А как насчет двух понятий?» Так что это был очень естественный шаг. .

Это просто лингвистический феномен или мы автоматически разбираем вещи в других процессах, например визуально?

S: Да, вы автоматически разбираете сцены на то, что есть в сценах. Когда вы смотрите на отдельные объекты, вы автоматически определяете края. Так что это своего рода аналогичные идеи.

Г: И вы не просто разбираете, вы пытаетесь собрать их вместе. Например, имеет смысл, чтобы чашки стояли на столе, но если каким-то образом эта чашка висит вверх дном на потолке, вы не просто замечаете объекты, вы замечаете: «Подождите, эти отношения странные».

Как вы думаете, почему мы разбираем слова, если нет смысла делать это постоянно, как в случае с «ковром»?

СУБЪЕКТ: Если бы вы не умели составлять слова, вам приходилось бы все время учить совершенно новые слова. На самом деле это довольно сложно, когда ты взрослый. Компаундирование позволяет применить всю эту информацию, которую вы уже знаете, к новым вещам. И поскольку это так хорошо, имеет смысл сделать это автоматическим процессом. Как только [это] автоматический процесс, вашей системе не имеет смысла пытаться найти какой-то другой способ справиться с такими вещами, как псевдосоединения, потому что они не так распространены в реальном мире, и если вы задерживаетесь на пять или 10 миллисекунд для псевдосоставных слов последствия не очень велики по сравнению с преимуществом возможности использовать составные слова.

G: Части сложного слова также меньше и почти всегда встречаются чаще [в языке], чем сложное слово, что позволяет быстрее добраться до [сложного] слова. Это как когда вы пытаетесь вспомнить чей-то номер телефона, вы разбиваете его на маленькие части. Это упрощает обработку и позволяет людям работать более продуктивно. Вам не нужно начинать с нуля. И это позволяет вам проявлять творческий подход, например, в понимании шуток. Есть много каламбуров, сделанных на различные сочетания слов. Это добавляет к языку, позволяя ему быть очень гибким.

Что это означает для того, как мы пытаемся преподавать и изучать языки?

G: Чтобы облегчить обучение, познакомьте [людей] с различными частями этих слов. Скажем, вы изучаете биологические термины, такие как «мета-» в «метапознании», «метазнании». Если вы информируете людей об этих частях и их значении, они могут быть более продуктивными и применять их к новым вещам. .

СУБЪЕКТ: Есть доказательства того, что этот тренинг по частям действительно помогает людям с афазией, неспособностью узнавать слова. Потому что, если части имеют тенденцию быть меньше [и] выше [по] частоте, они, скорее всего, сохранятся. У них больше шансов получить части, чем большие слова. Вы можете помочь им понять, как использовать эти части, чтобы понять большую часть.

Как именно поврежденный мозг может повлиять на понимание сложных слов?

G: Один из наших бывших коллег [представил] слово «чертеж» — как в архитектурных чертежах, — но пациент сказал «синий отпечаток», что соответствует тому, что мы утверждаем: когда [мы] сталкиваемся «чертеж», мы также подсознательно думаем, «печать синего цвета», но у нас также есть доступ к фактическому полному значению. Но когда есть повреждения, проблемы могут быть с композицией, придумыванием основных значений, или основные значения блокируют их способность добраться до правильного значения.

Какие будущие исследования вы надеетесь провести вместе?

Г.: Мы хотели бы изучить влияние концептуальной информации на то, как люди обрабатывают псевдосложные слова. Подобно тому, как «ненависть» — это «шляпа» и «красный», или «галеон» — это «желчь» и «эон». Мы хотим знать, как люди сходятся в отношениях между словами. Сколько обработки происходит с псевдосоединениями после того, как они были разбиты на части?

S: Псевдосложные слова действительно нуждаются в базе данных, потому что их очень трудно заметить в языке. Кто знал, что ненависть — это «шляпа» и «красное»? Исследователям было бы полезно опираться на них.

Статьи по теме

nlp — Как извлечь составные слова на основе существительных из предложения с помощью Python?

Я использую nltk с помощью следующего кода для извлечения существительных из предложения:

 слова = nltk.word_tokenize(предложение)
теги = nltk.pos_tag(слова)
 

Затем я выбираю слова, помеченные тегами NN и NNP Part of Speech (PoS). Однако он извлекает только отдельные существительные, такие как «книга» и «стол», но игнорирует пару существительных, таких как «баскетбольная обувь». Что я должен сделать, чтобы расширить результаты, чтобы они содержали такие пары составных существительных?

  • питон
  • нлп
  • нлтк

2

Предполагая, что вы просто хотите найти соединения существительное-существительное (например, «книжный магазин»), а не другие комбинации, такие как существительное глагол (например, «выпадение снега») или

прил. существительное (например, «горячий dog»), следующее решение зафиксирует 2 или более последовательных вхождений тегов NN, NNS, NNP или NNPS Part of Speech (PoS).

Пример

Используя NLTK RegExpParser с правилом пользовательской грамматики, определенным в приведенном ниже решении, три составных существительных («баскетбольная обувь», «книжный магазин» и «арахисовое масло») извлекаются из следующего предложения:

Джон потерял свою баскетбольную обувь в книжном магазине, когда ел арахисовое масло

Решение

 из nltk import word_tokenize, pos_tag, RegexpParser
text = "Джон потерял свою баскетбольную обувь в книжном магазине, когда ел арахисовое масло"
tokenized = word_tokenize(text) # Маркировать текст
tagged = pos_tag(tokenized) # Пометить токенизированный текст тегами PoS
# Создайте пользовательское грамматическое правило для поиска последовательных вхождений существительных
моя_грамматика = г"""
CONSECUTIVE_NOUNS: {
*>+}""" # Функция для создания дерева синтаксического анализа с использованием пользовательских правил грамматики и текста с тегами PoS def get_parse_tree (грамматика, pos_tagged_text): cp = RegexpParser (грамматика) parse_tree = cp.parse(pos_tagged_text) # parse_tree.draw() # Визуализировать дерево синтаксического анализа возврат parse_tree # Функция для получения меток из пользовательской грамматики: # принимает правила грамматики регулярного выражения NLTK, разделенные строкой def get_labels_from_grammar (грамматика): метки = [] для строки в грамматике.splitlines()[1:]: labels.append(line.split(":")[0]) возвратные этикетки # Функция принимает дерево синтаксического анализа и список пользовательских меток грамматики NLTK в качестве входных данных # Возвращает фразы, которые соответствуют def get_phrases_using_custom_labels (parse_tree, custom_labels_to_get): match_phrases = [] для узла в parse_tree.subtrees(filter=lambda x: any(x.label() == custom_l для custom_l в custom_labels_to_get)): # Получить только фразы, удалить теги PoS Matching_phrases.

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *