Разбор по составу слова приходится: Приходится — разбор слова по составу (морфемный разбор)

разбор

разбор

Разбор — это процедура, которая распознает предложение и выясняет, как оно построено (т. е. дает его грамматическую структуру). Распознавание предполагает выяснение того, принадлежит ли рассматриваемое предложение конкретному языку, т. е. соответствует ли оно всем правилам правильности, которые предписывает язык. Обнаружение структуры включает в себя идентификацию и маркировку различных компонентов предложения — фраз и отдельных частей речи, таких как существительное, глагол, предлог и т. д. Обе вышеупомянутые функции требуют некоторого понимания грамматики основного языка.

Парсинг — это первый шаг в обработке естественного языка. Для данного предложения необходима процедура, которая распознает предложение, а также обнаруживает, как оно построено. Выполнение этой процедуры называется синтаксическим анализом, а то, что ее выполняет, называется синтаксическим анализатором. Эта разбивка, по сути, является первым шагом к пониманию смысла предложения.

Парсеры, по сути, делают две вещи:

  1. При представлении строки они должны распознать ее как предложение языка, который они могут разобрать.
  2. Они должны присвоить этому предложению структуру, которую они должны вывести . Это означает, что синтаксические анализаторы должны полагаться на лингвистическую информацию, содержащуюся в грамматике.

Типичный синтаксический анализатор состоит из следующих компонентов:

  1. База данных слов
  2. Принципы соединения слов в словосочетания
  3. Принципы проверки грамматической правильности фразы

Для любого синтаксического анализатора требуется база данных слов (то есть словарь), чтобы синтаксический анализатор мог распознавать слова в предложении, которое он должен анализировать. Базу данных можно рассматривать как своего рода память, главными характеристиками которой являются содержащиеся в ней элементы, наложенная на них структура и способ доступа к ним.

Следовательно, база данных любого синтаксического анализатора будет по существу состоять из слов, а также всех различных способов их использования в языке или части языка, который должен быть проанализирован. Фраза может состоять из слов, фраз или того и другого, что требует наличия некоторых принципов, которые могут отличить любую грамматически правильную фразу от простого набора слов. Эти принципы составляют грамматику.

Синтаксический анализ с помощью компьютеров представляет собой процесс поиска, в котором одно грамматическое правило за другим проверяется на входной строке до тех пор, пока не будет найден набор правил, полностью удовлетворяющий рассматриваемой строке. Обычно уникальный набор не найден, и синтаксический анализатор должен вывести все различные полученные им разбивки, не все из которых могут быть правильными. Из множества правильных интерпретаций, которые могут быть получены, какая из них будет правильной, будет зависеть от других факторов, таких как контекст высказывания.

Например, первый компьютеризированный синтаксический анализатор выдал пять различных разбивок для следующего предложения:

Время летит как стрела.

Алгоритмы синтаксического анализа

Существуют различные подходы к синтаксическому анализу. Первый — сверху вниз. При этом мы начинаем сверху, то есть с уровня предложения, и пытаемся разбить его на фразы, используя правила грамматики. Эти фразы далее разбиваются в соответствии с заданными грамматическими правилами, пока мы не достигнем конечных узлов, которые затем сравниваются со словами в высказывании. Таким образом, эти синтаксические анализаторы «управляемы гипотезой», своего рода поиском в глубину, исследуя конкретную деривацию до тех пор, пока она не увенчается успехом или неудачей, и в случае неудачи переключаются на следующее грамматическое правило, которое может быть использовано. Другой тип синтаксических анализаторов — восходящие синтаксические анализаторы. Как следует из названия, здесь мы начинаем снизу, то есть со слов в высказывании, и движемся к грамматическим предложениям.

В этом процессе мы сначала заменяем лексические статьи (слова) их грамматическими эквивалентами. например «the» можно заменить на «детерминанты». Теперь мы пытаемся связать эти грамматические единицы, чтобы дать другие сущности выше по иерархии, и, наконец, достигнув предложения. Оба метода имеют свои недостатки. Первый включает поиск с возвратом и может быть осмысленно применен только тогда, когда грамматика чрезмерно упрощена. Второй, с другой стороны, вслепую находит все подструктуры, которые можно собрать без использования каких-либо ограничений.

Введение

Введение
Next: Обзор документов Up: Введение в специальный выпуск Предыдущий: Введение в специальный выпуск При полном синтаксическом анализе грамматика и стратегия поиска используются для присвоения полная синтаксическая структура предложений. Основная проблема здесь состоит в том, чтобы выбрать наиболее правдоподобный синтаксический анализ, учитывая часто тысячи возможных анализов типичный синтаксический анализатор со сложной грамматикой может возвращаться. Стохастические подходы могут быть использованы для упорядочения анализов в соответствии с их вероятностью или генерировать наиболее вероятные только синтаксический анализ. См. [Jurafsky and Martin (2000)] для ознакомления с традиционный и стохастический подходы к разбору.

Однако не все приложения обработки естественного языка (NLP) требуют полный синтаксический анализ. Полный разбор часто предоставляет больше информации, чем необходимо, а иногда и меньше. например, в Информационного поиска может быть достаточно, чтобы найти простые NP (существительное фразы) и VP (глагольные фразы). В разделе Извлечение информации, Резюме Генерация и ответы на вопросы нас особенно интересуют информацию о конкретных синтаксико-семантических отношениях, таких как агент, объект, место, время и т. д. (в основном, кто что кому сделал, когда, где и почему), а не сложные конфигурационные синтаксические анализы.

Частичный или неглубокий разбор | задача восстановления только ограниченного количество синтаксической информации из предложений на естественном языке | имеет оказалась полезной технологией для письменной и устной речи домены.

Например, в рамках проекта Verbmobil неглубокие парсеры использовались для повышения надежности большого преобразования речи в речь. система wahl00. Поверхностные синтаксические анализаторы также обычно используются для сократить пространство поиска для полноценных «глубоких» парсеров Coll96. Еще одно применение поверхностного синтаксического анализа — ответы на вопросы. Всемирная паутина, где есть необходимость эффективно обрабатывать большие количество (потенциально) неправильно оформленных документов бух, Шрихари+99. И вообще весь анализ текста приложения, например по биологии Секимидзу+98.

[Эбни (1991)] считается первым, кто выступил за актуальность поверхностного разбора, как с точки зрения психолингвистических данных и с точки зрения практического Приложения. В его собственном подходе использовалось каскадное конечное состояние, созданное вручную. Преобразователи получить при мелком разборе.

Типичные модули в архитектуре неглубокого синтаксического анализатора включают в себя следующий:

  1. Маркировка части речи. Учитывая слово и его контекст, решите, что правильный морфосинтаксический класс этого слова (существительное, глагол и т. д.). POS тегирование — это хорошо изученная проблема в НЛП Halteren99, чтобы какие подходы машинного обучения обычно применяются.
  2. Фрагментирование. Учитывая слова и их морфосинтаксический класс, решите какие слова можно сгруппировать в блоки (сочетания существительных, словосочетания глаголов, полные предложения и т. д.)
  3. Поиск отношений. Учитывая куски в предложении, решите, какие отношения, которые они имеют с основным глаголом (подлежащее, дополнение, местоположение, и т.д.)

Потому что неглубокие парсеры должны иметь дело с естественными языками. в целом они большие и часто содержат тысячи правила (или аналоги правил). Например, в правиле может быть указано, что определители (такие слова, как

и ) являются хорошими предикторами существительного фразы. Эти наборы правил также имеют тенденцию быть в значительной степени «мягкими», т. исключений предостаточно. Продолжая наш пример, во фразе:

…смертей на дорогах, не являющихся межгосударственными, было примерно столько же
слово вместо прилагательной фразы были примерно тот же . Этот пример был взят из Parsed Wall Street. Журнал Марк93.

Поэтому создание поверхностных парсеров является трудоемким задача. Неудивительно, что неглубокие синтаксические анализаторы обычно создаются автоматически. используя методы, возникшие в рамках машинного обучения (или статистическое) сообщество.

Работа [Рамшоу и Маркуса (1995)] оказалась важным источником вдохновения источник этой работы. Сформулировав задачу NP-chunking как задача пометки, большое количество методов машинного обучения внезапно стал доступен для решения проблемы. При таком подходе каждое слово связан с одним из трех тегов: I (для слова внутри NP), O (для вне NP) и B (для между концом одного и начало другого НП). Задача классификации может быть легко расширена к другим типам чанков и с некоторым усилием даже к нахождению отношения Бухгольц+99.

Для расширения подхода HMM от тегирование на фрагментацию, см. [Skut and Brants (1998)].

Читатели рекомендуется посетить Computational Natural Language Веб-сайты общих заданий Learning (CoNLL): 1

http://lcg-www.uia.ac.be/conll2000/chunking/
и:
http://lcg-www.uia.ac.be/conll2001/clauses/
для фонового чтения, наборов данных и результатов более 20 неглубоких системы разбора.

Применение методов обучения, однако, не обязательно прямо:

  • Объем обрабатываемых данных заставит пакетные системы Лимит. Это означает, что учащимся необходимо масштабироваться.
  • Помеченные учебные материалы часто зашумлены и существуют только в относительно небольших количествах. Здесь «маленький» относится к язык в целом. Поэтому любой учащийся должен иметь дело с переоснащением.
  • В реальном мире предложения обычно длинные. Учащиеся, которые не работают в (почти) линейном времени, просто непригодны для этой задачи.

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *