Положения разбор слова по составу: ПОЛОЖЕНИЕ — разбор слова по составу (морфемный разбор)

l\), что означает, что он ожидает существительного аргумента с обеих сторон, чтобы вернуть предложение.

ansatz (множественное число: ansätze)

Карта, которая определяет такие варианты выбора, как количество кубитов, с которыми связан каждый провод струнной диаграммы, и конкретные параметризованные квантовые состояния, соответствующие каждому слову. В классическом случае анзац определяет количество измерений, связанных с каждым типом, и способ представления больших тензоров в виде состояний матричного произведения.

набор слов

Композиционная модель значения, которая представляет предложение как набор слов; то есть он не принимает во внимание порядок слов или любые другие синтаксические отношения между ними.

Bobcat

Современный анализатор статистической CCG на основе [SC2021]. Bobcat — парсер lambeq по умолчанию.

cap

Специальный морфизм в жесткой категории, который вместе с морфизмом чаши подчиняется определенным условиям, называемым уравнениями змейки.

На схеме колпачок изображается в виде проволоки с вогнутостью вниз (\(\колпачок\)). В контексте DisCoCat колпачок в основном используется для «перекрытия» отсоединенных проводов, чтобы изменить нормальный «поток» информации от одного слова к другому, например, в таких случаях, как 9.0035 тип-поднятие .

категория

В теории категорий категория является математической структурой, состоящей из набора объектов и набора морфизмов между объектами, образующих помеченный ориентированный граф. У категории есть два основных свойства: возможность ассоциативно составлять стрелки и наличие стрелки идентичности для каждого объекта. структур lambeq выражены в терминах моноидальной категории.

Категориальная квантовая механика (CQM)

Изучение квантовых основ и квантовой информации с использованием парадигм математики и информатики, в частности, моноидальных категорий. Примитивными объектами изучения являются физические процессы и различные способы их составления.

Поле было создано Самсоном Абрамски и Бобом Коке в 2004 году [AC2004].

CCGBank

Версия CCG Penn Treebank , корпус из более чем 49000 аннотированных человеком синтаксических деревьев, созданных Джулией Хоккенмайер и Марком Стидманом [HS2007].

Комбинаторная категориальная грамматика (CCG)

Формализм грамматики, вдохновленный комбинаторной логикой и разработанный Марком Стидманом [Ste2000]. Он определяет ряд комбинаторов (наиболее распространенными являются применение, композиция и повышение типа), которые работают с синтаксически типизированными лексическими единицами посредством доказательств в стиле естественной дедукции. CCG относится к категории

умеренно контекстно-зависимых 9*\). Предгрупповую грамматику часто называют несимметричной компактной замкнутой категорией.

композиционная модель

Модель, которая создает семантические представления предложений путем составления вместе семантических представлений слов в них. Примером композиционной модели является DisCoCat.

cup

Специальный морфизм в жесткой категории, который вместе с кепочным морфизмом подчиняется определенным условиям, называемым уравнениями змейки. На схеме чашка изображается в виде проволоки с вогнутостью вверх (\(\чашка\)). В контексте DisCoCat чашка обычно представляет собой тензорное сокращение между представлениями из двух слов.

depccg

Статистический синтаксический анализатор CCG для английского и японского языков [YNM2017].

DisCoCat

РАСПРЕДЕЛИТЕЛЬНАЯ КОМПОЗИЦИОННАЯ КАТЕГОРИЧЕСКАЯ модель значения естественного языка, разработанная Бобом Коке, Мернушем Садрзаде и Стивом Кларком [CSC2010]. Модель применяет функтор \(F: \textrm{Grammar} \to \textrm{Meaning}\), чья левая часть представляет собой свободную предгруппу над частично упорядоченным набором базовых типов грамматики, а правая часть представляет собой категория, морфизмы которой описывают последовательность операций, которые можно вычислить на классическом или квантовом компьютере.

DisCoPy

DISTRITIONAL COMpositional PYthon. Библиотека Python для работы с моноидальными категориями [FTC2020]. DisCoPy отвечает за всю низкоуровневую обработку в lambeq и включает абстракции для создания всех стандартных квантовых вентилей и построения квантовых схем. Кроме того, он оснащен многими функциями, связанными с языком, такими как поддержка предгрупповых грамматик и функторов для реализации композиционных моделей.

Алгебра Фробениуса

В контексте симметричной моноидальной категории алгебра Фробениуса обеспечивает морфизмы \(\Delta: A \to A\otimes A\) и \(\mu: A\otimes A \to A\) для любой объект \(A\), удовлетворяющий определенным условиям (так называемые уравнения Фробениуса) и реализующий понятие паука. В lambeq и DisCoCat пауки могут использоваться для реализации правил перезаписи [Kea2014] [Kar2016] [SCC2014a] [SCC2014b].

функтор

Сохраняющее структуру преобразование из одной категории в другую. 9Конвейер 0007 lambeq — это, по сути, цепочка функториальных преобразований из грамматической категории в категорию, соответствующую смыслу предложения.

Схема IQP

Мгновенный квантовый полином. Схема, которая чередует слои квантовых вентилей Адамара с диагональными унитарами.

функция потерь

В машинном обучении функция, оценивающая, насколько предсказание модели отличается от истинного значения. Цель обучения состоит в том, чтобы свести к минимуму потери на тренировочном наборе.

состояние матричного произведения (MPS)

Разложение большого тензора на цепочечное произведение меньших тензоров. lambeq оснащен анзацами, которые реализуют различные формы состояний матричного произведения, что позволяет выполнять большие тензорные сети на классическом оборудовании.

Модель

Модель lambeq — это класс, содержащий обучаемые веса и другую информацию, относящуюся к модели, используемую в обучении с учителем.

Модель всегда связана с определенным бэкендом, таким как PyTorch, NumPy или tket, и связана с соответствующим тренером.

моноидальная категория

Категория, снабженная моноидальным произведением \(\otimes\) и моноидальной единицей \(I\), обеспечивающая абстракцию, пригодную для квантовых вычислений. Категориальная квантовая механика (CQM) и DisCoCat основаны на математической структуре моноидальных категорий.

обработка естественного языка (NLP)

Использование вычислительных методов для решения проблем, связанных с языком.

НИС

Шумный квант среднего масштаба. Термин, характеризующий текущее состояние квантового оборудования, когда квантовые процессоры все еще содержат небольшое количество кубитов и недостаточно совершенны, чтобы достичь отказоустойчивости, и недостаточно велики, чтобы получить существенную выгоду от квантового превосходства.

шум

Нежелательные артефакты, из-за которых результат измерения квантовой схемы отклоняется от идеального распределения.

парсер

Статистический инструмент, преобразующий предложение в иерархическое представление, отражающее синтаксические отношения между словами (синтаксическое дерево) на основе определенного грамматического формализма.

PennyLane

Библиотека Python для дифференцируемого программирования квантовых компьютеров, разработанная Xanadu и обеспечивающая квантовое машинное обучение. Подробнее здесь.

пост-селекция

Действие по формированию вероятностного пространства для определенного события. На практике это включает игнорирование результатов измерения, когда конкретный кубит не соответствует выбранному после этого значению.

предгрупповая грамматика

Грамматический формализм, разработанный Иоахимом Ламбеком в 1999 году [Lam1999] на основе понятия предгруппы . Предгрупповые грамматики тесно связаны с категориальными грамматиками (такими как CCG). В терминах теории категорий предгрупповая грамматика образует жесткую категорию, иногда также называемую несимметричной компактной замкнутой категорией.

pytket

Интерфейс Python для компилятора tket.

ПиТорч

Платформа машинного обучения с открытым исходным кодом, в основном разработанная Meta AI.

Qiskit

SDK с открытым исходным кодом, разработанный IBM Research для работы с квантовыми компьютерами на уровне цепей, импульсов и алгоритмов.

квантовая схема

Последовательность квантовых вентилей, измерений и инициализаций кубитов, выражающая вычисления в квантовом компьютере. Целью lambeq является преобразование предложений в квантовые схемы, которые можно оценить на квантовом оборудовании.

квантовый вентиль

Атомная вычислительная единица, работающая с небольшим количеством кубитов. Квантовые вентили являются строительными блоками квантовых схем.

квантовая НЛП (КНЛП)

Разработка и реализация моделей НЛП, которые используют определенные квантовые явления, такие как суперпозиция, запутанность и интерференция, для выполнения связанных с языком задач на квантовом оборудовании.

кубит

Квантовый аналог бита и основная единица носителя информации в квантовом компьютере. Он связан со свойством физической системы, таким как вращение электрона («вверх» или «вниз» вдоль некоторой оси), и имеет состояние, которое живет в 2-мерном комплексном векторном пространстве.

читатель

В lambeq , объект, переводящий предложение в строковую диаграмму на основе определенной композиционной схемы. Версии модели мешка слов и модели последовательности слов реализованы в lambeq с использованием считывателей.

правило перезаписи

Функторное преобразование, которое изменяет проводку определенного блока (представляющего слово) на диаграмме строк, чтобы упростить диаграмму или сделать ее более подходящей для реализации на выбранном оборудовании. 9r\), оба снабжены морфизмами чашечки и кепки, подчиняющимися так называемым уравнениям змейки. Предгрупповая грамматика является примером жесткой категории.

выстрела

Набор результатов измерения конкретной квантовой схемы.

уравнения змеи

Тождества, которые выполняются между двойственными объектами моноидальной категории и позволяют «дергать» провода, а также переписывать и упрощать диаграммы. В lambeq и DisCoPy 9Метод 0007 monoidal.Diagram.normal_form() использует уравнения змеи, чтобы «растянуть» провода диаграммы и придать ей нормальную форму.

паук

Другое название алгебры Фробениуса.

строковая диаграмма

Схематическое представление, отражающее вычисления в моноидальной категории, абстракция, хорошо подходящая для моделирования того, как квантовый компьютер работает и обрабатывает данные. Строковые диаграммы — это родная форма представления предложений в lambeq и DisCoCat, поскольку они остаются близкими к квантовым схемам, но не зависят от каких-либо низкоуровневых проектных решений, зависящих от аппаратного обеспечения. Их можно рассматривать как обогащенные тензорные сети.

синтаксическое дерево

Иерархическое представление предложения, отражающее синтаксические отношения между словами при заданной грамматике. Первым шагом конвейера lambeq для заданного предложения является создание для него синтаксического дерева CCG, которое затем преобразуется в строковую диаграмму.

символ

В lambeq символ соответствует обучаемой части тензорной сети или квантовой схемы. В классическом случае символы связаны с тензорами в тензорной сети, тогда как в квантовом случае символы представляют собой числа, выражающие углы поворота кубитов в квантовой цепи.

симметричная моноидальная категория

Моноидальная категория, снабженная перестановками, такая, что для любых двух объектов \(A\) и \(B\) мы имеем \(A\otimes B \cong B\otimes A\). 9Диаграммы струн 0007 lambeq выражаются в симметричной моноидальной категории.

swap

Пересечение проводов в симметричной моноидальной категории. lambeq использует свопы, чтобы преобразовать перекрестных правил композиции в производных CCG в форму строковой диаграммы [YK2021].

тензорная сеть

Направленный ациклический граф, выражающий (мульти)линейные вычисления между тензорами. Вершины графа представляют собой полилинейные тензорные карты, а ребра соответствуют векторным пространствам. Тензорные сети нашли множество приложений в квантовой механике. 9Струнные диаграммы 0007 lambeq можно рассматривать как тензорные сети с дополнительными свойствами.

тензорный поезд

Базовая тензорная сеть, в которой все тензоры имеют одинаковую форму, и каждый тензор соединяется со следующим в заранее определенном порядке. В lambeq тензорные поезда используются для реализации моделей последовательности слов.

tket

Стилизованный \(\textrm{t}|\textrm{ket}\rangle\). Квантовая платформа разработки программного обеспечения, разработанная Cambridge Quantum. Сердце tket — это оптимизирующий компилятор, не зависящий от языка, предназначенный для генерации кода для различных устройств NISQ, который имеет несколько функций, предназначенных для сведения к минимуму влияния ошибки устройства.

Trainer

В lambeq Trainer — это класс, связанный с данным бэкендом (например, PyTorch, NumPy, tket и т. д.), который используется для контролируемого обучения. Тренажер всегда связан с соответствующей моделью, структурой, которая содержит обучаемые веса и другие параметры модели.

читатель дерева

В lambeq читатель дерева преобразует предложение в моноидальную диаграмму, следуя непосредственно его синтаксическому дереву CCG, предоставленному синтаксическим анализатором. Другими словами, явная предгрупповая диаграмма не создается. Композиция осуществляется с помощью блоков, которые объединяют состояния слов на основе грамматических правил, найденных в дереве.

модель последовательности слов

Композиционная модель, учитывающая порядок слов в предложении, но не учитывающая никакой другой синтаксической информации.

Разбор

. Как получить набор правил грамматики из Penn Treebank с помощью python и NLTK?

спросил

Изменено 8 лет, 9 месяцев назад

Просмотрено 12 тысяч раз

Я новичок в NLTK и Python. Я создавал синтаксические анализы предложений, используя игрушечные грамматики, приведенные в примерах, но я хотел бы знать, возможно ли использовать грамматику, полученную из части Penn Treebank, скажем, вместо того, чтобы просто писать свои собственные или использовать игрушку грамматики? (Я использую Python 2.7 на Mac) Большое спасибо

  • python
  • синтаксический анализ
  • грамматика
  • nltk
  • tagged-corpus

можете сделать это, предполагая, что вы загрузили Treebank данные для NLTK (см. комментарий ниже):

 import nltk
из банка дерева импорта nltk.corpus
из nltk.grammar импортировать ContextFreeGrammar, нетерминальный
tbank_productions = set(производство для отправки в treebank.parsed_sents()
                        для производства в sent.productions())
tbank_grammar = ContextFreeGrammar (нетерминал ('S'), список (tbank_productions))
 

Однако это вряд ли даст вам что-то полезное. Поскольку NLTK поддерживает анализ только с помощью грамматик со всеми указанными терминалами, вы сможете анализировать только предложения, содержащие слова из примера Treebank.

Кроме того, из-за плоской структуры многих фраз в Treebank эта грамматика очень плохо обобщается на предложения, которые не были включены в обучение. Вот почему приложения НЛП, которые пытались анализировать банк деревьев, не использовали подход изучения правил CFG из банка деревьев. Ближе всего к этому подходу Ren Bods Data Oriented Parsing, но он намного сложнее.

Наконец, это будет настолько невероятно медленно, что станет бесполезным.

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *