Карта, которая определяет такие варианты выбора, как количество кубитов, с которыми связан каждый провод струнной диаграммы, и конкретные параметризованные квантовые состояния, соответствующие каждому слову. В классическом случае анзац определяет количество измерений, связанных с каждым типом, и способ представления больших тензоров в виде состояний матричного произведения.
Композиционная модель значения, которая представляет предложение как набор слов; то есть он не принимает во внимание порядок слов или любые другие синтаксические отношения между ними.
Современный анализатор статистической CCG на основе [SC2021]. Bobcat — парсер lambeq
по умолчанию.
Специальный морфизм в жесткой категории, который вместе с морфизмом чаши подчиняется определенным условиям, называемым уравнениями змейки.
В теории категорий категория является математической структурой, состоящей из набора объектов и набора морфизмов между объектами, образующих помеченный ориентированный граф. У категории есть два основных свойства: возможность ассоциативно составлять стрелки и наличие стрелки идентичности для каждого объекта. структур lambeq
выражены в терминах моноидальной категории.
Изучение квантовых основ и квантовой информации с использованием парадигм математики и информатики, в частности, моноидальных категорий. Примитивными объектами изучения являются физические процессы и различные способы их составления.
Поле было создано Самсоном Абрамски и Бобом Коке в 2004 году [AC2004].Версия CCG Penn Treebank , корпус из более чем 49000 аннотированных человеком синтаксических деревьев, созданных Джулией Хоккенмайер и Марком Стидманом [HS2007].
Формализм грамматики, вдохновленный комбинаторной логикой и разработанный Марком Стидманом [Ste2000]. Он определяет ряд комбинаторов (наиболее распространенными являются применение, композиция и повышение типа), которые работают с синтаксически типизированными лексическими единицами посредством доказательств в стиле естественной дедукции. CCG относится к категории
Модель, которая создает семантические представления предложений путем составления вместе семантических представлений слов в них. Примером композиционной модели является DisCoCat.
Специальный морфизм в жесткой категории, который вместе с кепочным морфизмом подчиняется определенным условиям, называемым уравнениями змейки. На схеме чашка изображается в виде проволоки с вогнутостью вверх (\(\чашка\)). В контексте DisCoCat чашка обычно представляет собой тензорное сокращение между представлениями из двух слов.
Статистический синтаксический анализатор CCG для английского и японского языков [YNM2017].
РАСПРЕДЕЛИТЕЛЬНАЯ КОМПОЗИЦИОННАЯ КАТЕГОРИЧЕСКАЯ модель значения естественного языка, разработанная Бобом Коке, Мернушем Садрзаде и Стивом Кларком [CSC2010]. Модель применяет функтор \(F: \textrm{Grammar} \to \textrm{Meaning}\), чья левая часть представляет собой свободную предгруппу над частично упорядоченным набором базовых типов грамматики, а правая часть представляет собой категория, морфизмы которой описывают последовательность операций, которые можно вычислить на классическом или квантовом компьютере.
DISTRITIONAL COMpositional PYthon. Библиотека Python для работы с моноидальными категориями [FTC2020]. DisCoPy отвечает за всю низкоуровневую обработку в lambeq
и включает абстракции для создания всех стандартных квантовых вентилей и построения квантовых схем. Кроме того, он оснащен многими функциями, связанными с языком, такими как поддержка предгрупповых грамматик и функторов для реализации композиционных моделей.
В контексте симметричной моноидальной категории алгебра Фробениуса обеспечивает морфизмы \(\Delta: A \to A\otimes A\) и \(\mu: A\otimes A \to A\) для любой объект \(A\), удовлетворяющий определенным условиям (так называемые уравнения Фробениуса) и реализующий понятие паука. В lambeq
и DisCoCat пауки могут использоваться для реализации правил перезаписи [Kea2014] [Kar2016] [SCC2014a] [SCC2014b].
Сохраняющее структуру преобразование из одной категории в другую. 9Конвейер 0007 lambeq — это, по сути, цепочка функториальных преобразований из грамматической категории в категорию, соответствующую смыслу предложения.
Мгновенный квантовый полином. Схема, которая чередует слои квантовых вентилей Адамара с диагональными унитарами.
В машинном обучении функция, оценивающая, насколько предсказание модели отличается от истинного значения. Цель обучения состоит в том, чтобы свести к минимуму потери на тренировочном наборе.
Разложение большого тензора на цепочечное произведение меньших тензоров. lambeq
оснащен анзацами, которые реализуют различные формы состояний матричного произведения, что позволяет выполнять большие тензорные сети на классическом оборудовании.
Модель lambeq
— это класс, содержащий обучаемые веса и другую информацию, относящуюся к модели, используемую в обучении с учителем.
Категория, снабженная моноидальным произведением \(\otimes\) и моноидальной единицей \(I\), обеспечивающая абстракцию, пригодную для квантовых вычислений. Категориальная квантовая механика (CQM) и DisCoCat основаны на математической структуре моноидальных категорий.
Использование вычислительных методов для решения проблем, связанных с языком.
Шумный квант среднего масштаба. Термин, характеризующий текущее состояние квантового оборудования, когда квантовые процессоры все еще содержат небольшое количество кубитов и недостаточно совершенны, чтобы достичь отказоустойчивости, и недостаточно велики, чтобы получить существенную выгоду от квантового превосходства.
Нежелательные артефакты, из-за которых результат измерения квантовой схемы отклоняется от идеального распределения.
Статистический инструмент, преобразующий предложение в иерархическое представление, отражающее синтаксические отношения между словами (синтаксическое дерево) на основе определенного грамматического формализма.
Библиотека Python для дифференцируемого программирования квантовых компьютеров, разработанная Xanadu и обеспечивающая квантовое машинное обучение. Подробнее здесь.
Действие по формированию вероятностного пространства для определенного события. На практике это включает игнорирование результатов измерения, когда конкретный кубит не соответствует выбранному после этого значению.
Грамматический формализм, разработанный Иоахимом Ламбеком в 1999 году [Lam1999] на основе понятия предгруппы . Предгрупповые грамматики тесно связаны с категориальными грамматиками (такими как CCG). В терминах теории категорий предгрупповая грамматика образует жесткую категорию, иногда также называемую несимметричной компактной замкнутой категорией.
Интерфейс Python для компилятора tket.
Платформа машинного обучения с открытым исходным кодом, в основном разработанная Meta AI.
SDK с открытым исходным кодом, разработанный IBM Research для работы с квантовыми компьютерами на уровне цепей, импульсов и алгоритмов.
Последовательность квантовых вентилей, измерений и инициализаций кубитов, выражающая вычисления в квантовом компьютере. Целью lambeq
является преобразование предложений в квантовые схемы, которые можно оценить на квантовом оборудовании.
Атомная вычислительная единица, работающая с небольшим количеством кубитов. Квантовые вентили являются строительными блоками квантовых схем.
Разработка и реализация моделей НЛП, которые используют определенные квантовые явления, такие как суперпозиция, запутанность и интерференция, для выполнения связанных с языком задач на квантовом оборудовании.
Квантовый аналог бита и основная единица носителя информации в квантовом компьютере. Он связан со свойством физической системы, таким как вращение электрона («вверх» или «вниз» вдоль некоторой оси), и имеет состояние, которое живет в 2-мерном комплексном векторном пространстве.
В lambeq
, объект, переводящий предложение в строковую диаграмму на основе определенной композиционной схемы. Версии модели мешка слов и модели последовательности слов реализованы в lambeq
с использованием считывателей.
Функторное преобразование, которое изменяет проводку определенного блока (представляющего слово) на диаграмме строк, чтобы упростить диаграмму или сделать ее более подходящей для реализации на выбранном оборудовании. 9r\), оба снабжены морфизмами чашечки и кепки, подчиняющимися так называемым уравнениям змейки. Предгрупповая грамматика является примером жесткой категории.
Набор результатов измерения конкретной квантовой схемы.
Тождества, которые выполняются между двойственными объектами моноидальной категории и позволяют «дергать» провода, а также переписывать и упрощать диаграммы. В lambeq
и DisCoPy 9Метод 0007 monoidal.Diagram.normal_form() использует уравнения змеи, чтобы «растянуть» провода диаграммы и придать ей нормальную форму.
Другое название алгебры Фробениуса.
Схематическое представление, отражающее вычисления в моноидальной категории, абстракция, хорошо подходящая для моделирования того, как квантовый компьютер работает и обрабатывает данные. Строковые диаграммы — это родная форма представления предложений в lambeq
и DisCoCat, поскольку они остаются близкими к квантовым схемам, но не зависят от каких-либо низкоуровневых проектных решений, зависящих от аппаратного обеспечения. Их можно рассматривать как обогащенные тензорные сети.
Иерархическое представление предложения, отражающее синтаксические отношения между словами при заданной грамматике. Первым шагом конвейера lambeq
для заданного предложения является создание для него синтаксического дерева CCG, которое затем преобразуется в строковую диаграмму.
В lambeq
символ соответствует обучаемой части тензорной сети или квантовой схемы. В классическом случае символы связаны с тензорами в тензорной сети, тогда как в квантовом случае символы представляют собой числа, выражающие углы поворота кубитов в квантовой цепи.
Моноидальная категория, снабженная перестановками, такая, что для любых двух объектов \(A\) и \(B\) мы имеем \(A\otimes B \cong B\otimes A\). 9Диаграммы струн 0007 lambeq выражаются в симметричной моноидальной категории.
Пересечение проводов в симметричной моноидальной категории. lambeq
использует свопы, чтобы преобразовать перекрестных правил композиции в производных CCG в форму строковой диаграммы [YK2021].
Направленный ациклический граф, выражающий (мульти)линейные вычисления между тензорами. Вершины графа представляют собой полилинейные тензорные карты, а ребра соответствуют векторным пространствам. Тензорные сети нашли множество приложений в квантовой механике. 9Струнные диаграммы 0007 lambeq можно рассматривать как тензорные сети с дополнительными свойствами.
Базовая тензорная сеть, в которой все тензоры имеют одинаковую форму, и каждый тензор соединяется со следующим в заранее определенном порядке. В lambeq
тензорные поезда используются для реализации моделей последовательности слов.
Стилизованный \(\textrm{t}|\textrm{ket}\rangle\). Квантовая платформа разработки программного обеспечения, разработанная Cambridge Quantum. Сердце tket
— это оптимизирующий компилятор, не зависящий от языка, предназначенный для генерации кода для различных устройств NISQ, который имеет несколько функций, предназначенных для сведения к минимуму влияния ошибки устройства.
В lambeq
Trainer — это класс, связанный с данным бэкендом (например, PyTorch, NumPy, tket и т. д.), который используется для контролируемого обучения. Тренажер всегда связан с соответствующей моделью, структурой, которая содержит обучаемые веса и другие параметры модели.
В lambeq
читатель дерева преобразует предложение в моноидальную диаграмму, следуя непосредственно его синтаксическому дереву CCG, предоставленному синтаксическим анализатором. Другими словами, явная предгрупповая диаграмма не создается. Композиция осуществляется с помощью блоков, которые объединяют состояния слов на основе грамматических правил, найденных в дереве.
Композиционная модель, учитывающая порядок слов в предложении, но не учитывающая никакой другой синтаксической информации.
. Как получить набор правил грамматики из Penn Treebank с помощью python и NLTK?
спросил
Изменено 8 лет, 9 месяцев назад
Просмотрено 12 тысяч раз
Я новичок в NLTK и Python. Я создавал синтаксические анализы предложений, используя игрушечные грамматики, приведенные в примерах, но я хотел бы знать, возможно ли использовать грамматику, полученную из части Penn Treebank, скажем, вместо того, чтобы просто писать свои собственные или использовать игрушку грамматики? (Я использую Python 2.7 на Mac) Большое спасибо
- python
- синтаксический анализ
- грамматика
- nltk
- tagged-corpus
можете сделать это, предполагая, что вы загрузили Treebank данные для NLTK (см. комментарий ниже):
import nltk из банка дерева импорта nltk.corpus из nltk.grammar импортировать ContextFreeGrammar, нетерминальный tbank_productions = set(производство для отправки в treebank.parsed_sents() для производства в sent.productions()) tbank_grammar = ContextFreeGrammar (нетерминал ('S'), список (tbank_productions))
Однако это вряд ли даст вам что-то полезное. Поскольку NLTK поддерживает анализ только с помощью грамматик со всеми указанными терминалами, вы сможете анализировать только предложения, содержащие слова из примера Treebank.
Кроме того, из-за плоской структуры многих фраз в Treebank эта грамматика очень плохо обобщается на предложения, которые не были включены в обучение. Вот почему приложения НЛП, которые пытались анализировать банк деревьев, не использовали подход изучения правил CFG из банка деревьев. Ближе всего к этому подходу Ren Bods Data Oriented Parsing, но он намного сложнее.
Наконец, это будет настолько невероятно медленно, что станет бесполезным.