Язык разобрать слово по составу: Корень к словам язык, жизнь.

Содержание

[PDF] Грамматика ссылок для агглютинативного языка

  • Идентификатор корпуса: 5589198
 @inproceedings{Istek2007ALG,
  title={Грамматика ссылок для агглютинативного языка},
  автор={О Истек и Ильяс Чичекли},
  год = {2007}
} 
  • О. Истек, И. Чичекли
  • Опубликовано в 2007 г.
  • Лингвистика

В этой статье представлена ​​синтаксическая грамматика, разработанная в формализме грамматики ссылок для турецкого языка, который является агглютинативным языком. В формализме грамматики ссылок слова предложения связаны друг с другом в зависимости от их синтаксических ролей. Турецкий язык имеет сложную словообразовательную и флективную морфологию, а словообразовательные и флективные морфемы играют важную синтаксическую роль в предложениях. Чтобы разработать грамматику ссылок для турецкого языка, лексические части в морфологическом… 

Cs. bilkent.edu.tr

Морфологический анализатор на основе правил и морфологический диспавинатор для казахского языка

  • Gulshat Kessikbayeva, I. çiçekli
  • . детали реализации основанного на правилах морфологического анализатора казахского языка, который является агглютинативным языком и является первым подробным компьютерным анализом казахстанского языка с морфологической точки зрения.

    Гибридная морфологическая система устранения неотъемлемых дисковиков для турецкого

    • Мукахид Кутлу, И. Чичекли
    • Компьютерная наука

      IJCnlp

    • 2013

    . сочетает статистическую информацию с созданными вручную правилами и изученными правилами для ограничения возможных синтаксических анализов или выбора правильного синтаксического анализа.

    ОЦЕНКА СТЕПЕНИ СХОДСТВА ПРЕДЛОЖЕНИЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ ПРОГРАММНОЙ СИСТЕМЫ LINK GRAMMAR PARSER

    • Гумилев Л.
    • Информатика

    • 2016

    Основная цель — построение алгоритмов, позволяющих оценить релевантность документа на основе анализа структуры текста и разработка методов сравнения предложений на естественном языке и ввести определенные меры близости (сходства) между предложениями.

    Ссылка Анализатор грамматики тюркских языков и алгоритмы оценки релевантности документов

    • Batura Tatiana Victoranna, Tazhibayeva Saule Zhaksylykbayevna, Murzin Feodor Alexandrovich, Yerimbetova Aйгерим Sembekovna, Sagnayeva Saule Kairolliyevna, Bakiyeva Aйгеримская Muratovna
    • 6666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666н.

    • 2016

    Основная задача, рассматриваемая в данной работе, — создание алгоритмов оценки релевантности документов поисковому запросу на основе анализа структуры предложений. Чтобы решить эту проблему, мы…

    Методы оценки степени сходства предложений на естественном языке, основанном на грамматике Link

    • T. Batura, F. Murzin, A. Bakiyeva, A. yerimbetova
    • Компьютерная наука

    • 2014
    • 4
    • .

    Описаны методы сравнения предложений естественного языка для оценки их сходства и использованы семантико-синтаксические отношения между словами, построенные программным комплексом Link Grammar Parser.

    Влияние модели статистического языка на систему машинного перевода на основе примеров между казахными и турецкими языками

    • Gulshat Kessikbayeva, I. çiçekli
    • Компьютерная наука

      NLPIR

    • 202020204005

      HYARIPIR

    • 920202020201000

      HYAMBRID HYAM

      HIMBRID HIMARID AI AI AI AIMBRID AIM. система машинного перевода между казахским и турецким языками предназначена для получения более точных результатов перевода за счет предварительно полученных знаний из ресурса целевого языка.

      Метод ранжирования, например, основанный на результатах машинного перевода на основе отзывов пользователей

      В этом исследовании представлен усовершенствованный механизм ранжирования, который динамически учится на основе отзывов пользователей и представляет оценку метода ранжирования, использующего значения точности в лучших результатах и ​​метрику BLEU. .

      ПОКАЗЫВАЕТСЯ 1-10 ИЗ 12 ССЫЛОК

      СОРТИРОВАТЬ ПОРелевантности Наиболее влиятельные документыНедавность

      Синтаксический анализ английского языка с грамматикой ссылок

      • D. Sleator, D. Temperley
      • Информатика, лингвистика

        IWPT

      • 1993

      В этой работе английская грамматика закодирована в новую формальную грамматическую систему, называемую грамматикой ссылок, и написана программа (на основе новых алгоритмов) для эффективного анализа с помощью этой самой сложная грамматика.

      Анализ статистических зависимостей для турецкого языка

      • Гюльшен Эрийгит, Кемаль Офлазер
      • Информатика

        EACL

      • 2006

      В этой статье представлены результаты первого анализатора статистических зависимостей для турецкого языка, которые показывают, что наилучшая точность с точки зрения отношений зависимости между флективными группами достигается, когда они используются в качестве единиц при анализе и когда используются контексты вокруг зависимого .

      Категориальная структура для композиции в нескольких лингвистических областях

      • Джем Бозахин, Э. Гочмен
      • Лингвистика, информатика

      • 1995

      Описана вычислительная структура для архитектуры грамматики, в которой различные лингвистические области, такие как морфология, синтаксис и семантика, рассматриваются не как отдельные компоненты, а как композиционные области.

      Вычислительный анализ синтаксиса и интерпретация «свободного» порядка слов в турецком языке

      • Берил Хоффман
      • Информатика

      • 1995

      разрабатывает формализм под названием Multiset-CCG, расширение комбинаторных категориальных грамматик, CCG, которое улавливает контекстно-зависимое значение порядка слов в турецком языке путем параллельного композиционного получения структуры сказуемого-аргумента и информационной структуры предложения.

      A Sign-Based Phrase Structure Grammar for Turkish

      • O. T. Sehitoglu
      • Linguistics, Computer Science

        ArXiv

      • 1996

      This study analyses Turkish syntax from an informational point of view and analyses Syntactic phenomena such as подкатегоризация, относительные предложения, изменение порядка составляющих, дополнения, именные предикаты и отношения дополнение-модификатор в турецком языке.

      Лексико-функциональная грамматика турецкого языка

      • Z. Güngördü
      • Материаловая наука

      • 1993

      ANKARA: Департамент компьютерной инженерии и информационной науки и института инженерии и науки, Bilkent Univ., 1993.

      ATN GRAMARD FOR FOR TURKISH

    • 999.,

      АТН ГРМАРИЯ ДЛЯ TURKISH

    • 99999.,

      АТН ГРМАРИЯ ДЛЯ ТУРКИШНА

      9
    • 99999.,

      АТН ГРМАРИЯ. C. Demir

    • Образование

    • 1993

    Анкара: Департамент вычислительной техники и информатики и Институт инженерии и науки, Билькентский университет, 1993.

    Диапорт зависимости с расширенным подходом конечного состояния

    • KEMAL OFLAZER
    • Компьютерная наука

      ACL

    • 1999

    ОБРАЗОВАНИЕ ПАСЕР. можно приспособить, и итерации на входе несколько раз, чтобы достичь фиксированной точки.

    Среднее количество синтаксических анализов 7.49 Средний порядок правильного синтаксического анализа 1

    Вычислительный анализ синтаксиса и интерпретация «свободного

    • порядка слов в турецком языке». Кандидатская диссертация,

    • 1995

    Четыре направления глубокого обучения из ACL 2017

    Этот пост состоит из двух частей. Щелкните здесь для второй части.

    Нажмите здесь, чтобы прочитать сокращенную версию этого поста, переведенную на китайский язык.

    Введение

    «НЛП переживает бум», — заявил Хоаким Нивре в президентском обращении на конференции ACL 2017, которую я посетил в Ванкувере в начале этого месяца. Как свидетельствуют толпы участников, интерес к НЛП находится на рекордно высоком уровне — рост, который в основном связан с успехами ренессанса глубокого обучения, который недавно прокатился по области подобно приливной волне.

    Однако под оптимизмом я заметил ощутимую тревогу в передней крестообразной связки, поскольку одно поле приспосабливается к своей быстрой трансформации другим. Исследователи задались вопросом, осталось ли что-нибудь от старого НЛП — или все это было сметено приливной волной? Являются ли нейронные сети единственной необходимой нам техникой? Как нам заниматься наукой сейчас, когда эксперименты настолько эмпиричны, статьи сразу же появляются на arXiv, а доступ к графическим процессорам может определить успех?

    Мирелла Лапата выражает озабоченность сообщества в своем программном докладе

    Хотя эти непростые вопросы были в центре внимания конференции (в послании президента даже упоминались недавние громкие дебаты на эту тему), тем не менее, общий настрой был позитивным. На ACL 2017 сообщество НЛП продолжало с энтузиазмом относиться к глубокому обучению, хотя и со здоровым скептицизмом. По мере того, как исследователи начинают получать более четкое представление о том, что работает, а что нет с современными нейронными методами, растет тенденция обращаться к старой мудрости НЛП, чтобы направлять и улучшать эти методы. В этом посте я расскажу о том, что происходит в это поворотное время для исследований НЛП.

    Об этом посте

    В этом посте, состоящем из двух частей, я описываю четыре широких направления исследований, которые я наблюдал на конференции (и связанных с ней мероприятиях) посредством докладов, презентаций и дискуссий. Содержание полностью руководствуется моими собственными исследовательскими интересами; соответственно, он в основном сосредоточен на глубоком обучении, моделях последовательностей и смежных темах. В первой части будут рассмотрены две взаимосвязанные темы: языковая структура и представление слов.

    Зеленые ссылки — это обычные гиперссылки, а синие ссылки ведут к документам и предлагают библиографическую информацию при наведении на них курсора (не поддерживается на мобильных устройствах).

    Заявление об отказе от ответственности:

    Этот краткий обзор ни в коем случае не является исчерпывающим, так как я не читал все статьи в ACL, поэтому я уверен, что есть много соответствующих статей, которые здесь не упомянуты. Во-вторых, я сделал все возможное, чтобы точно понять работу других, но если я исказил какую-либо часть работы, дайте мне знать. В-третьих, как человеку, который является новичком в этой области, мне может не хватать более глубокого взгляда на некоторые из этих тенденций. Если у вас есть более исторически обоснованная точка зрения, мне было бы интересно ее услышать.

    Тенденция 1: лингвистическая структура возвращается

    Недавний ренессанс глубокого обучения подчеркнул простую единую парадигму НЛП: язык — это просто последовательность слов . Согласно этой логике, никакая дополнительная структура не требуется — просто обучите RNN от начала до конца, а стохастический градиентный спуск выяснит все остальное! Хотя этот подход быстро завоевал огромную популярность и успех (не в последнюю очередь из-за удобства, не требующего разработки функций), его ограничения теперь становятся все более очевидными. На ACL 2017 несколько видных исследователей выступили против духа времени «язык — это всего лишь последовательности» и представили причины, как практические, так и принципиальные, почему НЛП следует вновь принять лингвистическую структуру.

    Причина 1: Уменьшите область поиска

    В своем очень занимательном программном докладе Мирелла Лапата поставила под сомнение гегемонию структуры RNN последовательности к последовательности, задав риторический вопрос, означает ли ее доминирование, что язык мертв и все лингвистические особенности должны быть отброшены. Вместо этого она пришла к выводу, что структура возвращается, и привела в качестве примера одну из причин, по которой следует принять ее возвращение: лингвистическая структура сокращает пространство поиска возможных выходных данных, облегчая создание правильно оформленных выходных данных.

    Например, генерация кода включает сопоставление высказывания на естественном языке, такого как «создать список первых 10 квадратных чисел» , в соответствующий фрагмент кода, например. «[x**2 для x в диапазоне (10)]» в Python. Эта задача была предпринята с помощью стандартного метода от последовательности к последовательности, который рассматривает код как просто последовательность токенов, а не лежащую в его основе древовидную структуру. Это делает задачу генерации неограниченным поиском по всему выходному пространству всех последовательностей токенов — задачей поиска, которая является сложной и склонной к созданию неправильно сформированного вывода (например, декодер может генерировать код с несовпадающими скобками). В своих статьях по ACL как Yin, Neubig, так и Rabinovich et al. вместо этого используйте подход структурированного прогнозирования и непосредственно сгенерируйте базовое абстрактное синтаксическое дерево. Этот подход ограничивает область поиска только правильными деревьями, устраняя неправильно сформированные выходные данные и делая проблему поиска более управляемой.

    Хотя лингвистическая структура имеет очевидные преимущества для задач с высокоформализованным выводом, таких как генерация кода и семантический анализ, она также может помочь сократить пространство поиска для менее очевидных задач, таких как понимание прочитанного в стиле cloze. Заметив, что правильный ответ почти всегда является составной частью дерева синтаксического анализа исходного документа, Се и Син построили систему, которая исследует только эти узлы — они утверждают, что это и проще, и эффективнее, чем изучение всех возможных отрезков в документе.

    Причина 2: лингвистические леса

    Ной Смит

    В своем программном докладе Ноа Смит выступил против того, что он называет «диетой, состоящей только из сквоша» — использования линейных преобразований + функций сквоша (также известных как нейронные сети) в качестве единственной модели для НЛП. Вместо этого он призвал сообщество НЛП подумать об индуктивных предубеждениях наших моделей, то есть о лежащих в их основе предположениях и о том, как эти предположения влияют на то, что они изучают.

    В частности, Смит выделил силу числа 9.0273 многозадачное обучение как способ включения желательного индуктивного смещения. Хорошо известно, что совместное изучение лингвистической вспомогательной задачи (например, синтаксического разбора) с основной задачей (например, машинным переводом) приводит к повышению производительности основной задачи — скорее всего, потому, что основная задача обогащается полезной информацией. содержащиеся в низкоуровневых общих представлениях. ACL видел несколько работ, успешно использующих этот подход, в частности, Eriguchi et al. и Ву и др. разработал новые гибридные декодеры для NMT, которые используют алгоритмы сдвига-уменьшения для одновременной генерации и анализа целевой последовательности.

    Эти совместные системы NMT+парсинг, которые, кажется, превосходят системы последовательности к последовательности, также могут выиграть от причины 1 (уменьшение пространства поиска). Как уже отмечалось, производительность NMT плохая для длинных предложений, и (вопреки здравому смыслу) большие размеры луча иногда могут еще больше ухудшить производительность . Если расширение луча поиска приводит к падению производительности, это означает, что наши текущие методы испытывают трудности с определением наилучшего результата, когда есть больше кандидатов на выбор. Совместный анализ выходных данных может устранить некачественные выходные данные из поискового луча, что позволит поиску луча выбирать между кандидатами более высокого качества.

    Причина 3: синтаксическая давность > последовательная давность

    Крис Дайер также утверждал важность включения лингвистической структуры в глубокое обучение в своем программном докладе CoNLL Должна ли архитектура нейронной сети отражать лингвистическую структуру? Как и Ной Смит, он обратил внимание на индуктивный уклон, присущий последовательному подходу, утверждая, что RNN имеют индуктивный уклон в сторону последовательной давности , в то время как иерархические архитектуры, основанные на синтаксисе (такие как рекурсивные NN и RNNG), имеют индуктивный уклон в сторону синтаксическая давность . Утверждая, что язык по своей сути иерархичен, Дайер пришел к выводу, что

    синтаксическая новизна является предпочтительным индуктивным уклоном по сравнению с последовательной новизной .

    В ACL в нескольких документах отмечалась очевидная неспособность RNN фиксировать долгосрочные зависимости, и вместо этого были получены улучшения с использованием рекурсивных моделей. Например, в статье «Улучшенный нейронный машинный перевод с помощью кодировщика и декодера с учетом синтаксиса » Chen et al. обнаружили, что использование рекурсивного кодировщика в целом повышает производительность, и улучшение больше для более длинных предложений. Последнее может свидетельствовать о преимуществах синтаксической новизны, которая может легче фиксировать долгосрочные зависимости, чем последовательная новизна.

    Этот пример из Wu et al. показывает разницу между синтаксической давностью (красная пунктирная линия) и последовательной давностью.

    С нетерпением жду

    Хотя лингвистическая структура возвращается, некоторые барьеры остаются. Многозадачное обучение сложно реализовать. Непоследовательные архитектуры труднее распараллелить на графических процессорах (однако новые динамические библиотеки обеспечивают более простые и эффективные реализации). Контролируемое обучение задачам структурированного прогнозирования может быть затруднено из-за отсутствия параллельных данных. К счастью, возрождение обучения с подкреплением очень своевременно; на ACL 2017 Лян и соавт. и Айер и др. использовать слабый контроль для выполнения ответов на вопросы с помощью семантического анализа без доступа к самим анализам.

    Несмотря на эти барьеры, я думаю, что сообщество НЛП продолжит (повторно) принимать лингвистическую структуру, поскольку ее преимущества становятся все более очевидными. В то время как парадигма «язык — это просто последовательности» утверждает, что RNN могут вычислять что угодно, исследователи все больше интересуются тем, как индуктивные смещения последовательной модели влияют на то, что они вычисляют. В этом вопросе кажется, что небольшая лингвистическая структура может иметь большое значение.

    Тенденция 2: пересмотр встраивания слов

    Количество статей с «встраиванием слов» в заголовок в этом году сократилось с десяти до четырех, возможно, отчасти из-за перехода к представлениям на уровне подслов (подробнее об этом ниже). Тем не менее, встраивание слов остается стандартной техникой, и соответствующие доклады на ACL в этом году были очень интересными — возможно, именно , потому что встраивания слов прошли стадию «ажиотажа» и перешли в стадию «вдумчивого изучения». В этих статьях исследуются границы успеха и неудачи встраивания слов, того, что оно делает, а что нет, и того, как улучшить его слабые стороны.

    Лучшее понимание встраивания слов

    Возможно, самым известным и удивительным (но часто преувеличенным) успехом вложений слов является их аддитивная композиционная структура , о чем свидетельствуют аналогии слов. Объяснить этот успех призван код с загадочным названием Skip-Gram — Zipf + Uniform = Vector Additivity . Авторы доказывают, что дистрибутивные вложения слов, обученные с помощью модели скип-грамм, имеют аддитивную структуру при определенных предположениях, в частности, что слова распределены равномерно (это значение 9).0253 «-Zipf +Uniform» ). Хотя обучающие корпуса распределены неравномерно, этот результат может каким-то образом объяснить аддитивность вложений слов.

    В других работах исследовались ограничения предположения о распределении в основе встраивания слов. Ли и Готье спрашивают Готовы ли дистрибутивные представления к реальному миру? , и обнаружили, что, хотя встраивание слов охватывает определенные концептуальные свойства, такие как «съедобно» и «является инструментом», они, как правило, не отражают 0253 перцептивные характеристики, такие как «жевательный» и «изогнутый» — возможно, потому, что последние не так легко вывести из одной только дистрибутивной семантики. Документ присоединяется к растущему призыву к обоснованному обучению, о чем свидетельствует создание нового семинара по языковому заземлению для робототехники.

    Другая, более вопиющая проблема встроенных слов состоит в том, что они не учитывают полисемию , вместо этого присваивая ровно один вектор каждой поверхностной форме. В одном подходе к этой проблеме Upadhyay et al. использовать многоязычные параллельные данные для изучения многосмысловых вложений слов — например, увидеть английское слово банк , переведенный как на французские слова банк , так и на банк , свидетельствует о том, что банк многозначен, и помогает разделить два его значения. В мультимодальных распределениях слов Ативараткун и Уилсон представляют слова не отдельными векторами, а гауссовскими распределениями вероятностей с несколькими модами, таким образом фиксируя как неопределенность, так и полисемию. В документе есть очень впечатляющая демонстрация Tensorboard: перейдите на вкладку «Встраивания» и найдите многозначное слово, например «zip». Вы должны обнаружить, что три режима сгруппированы со связанными словами из трех разных смыслов (почтовый индекс, почтовый индекс одежды и заархивированный файл).

    Ативараткун и др.

    Переходное подслово

    Вероятно, самым существенным ограничением стандартных вложений слов является их слепота к морфологической информации , вместо этого рассматривающая каждую поверхностную форму как отдельную анонимную единицу. Это может вызвать такие проблемы, как неспособность распознать, что два слова (например, walker и walker ) имеют одну и ту же лемму ( walk ) и, следовательно, тесно связаны. Это основная причина недавнего перехода от встраивания слов к представлениям подслов, таким как символы, символьные n-граммы и фрагменты слов. Эти представления хорошо зарекомендовали себя на ACL 2017, выгодно отличаясь от встраивания слов как в внутренних задачах, таких как сходство слов и аналогии, так и во внешних задачах, таких как машинный перевод, языковое моделирование и анализ зависимостей. Для логографических языков, таких как китайский/японский/корейский, значение символа может быть составлено из визуальных особенностей его составных частей.

    Визуальная композиционность персонажей. Лю и др.

    С этими представлениями подслов и, в частности, с характерным CNN, появляющимся в качестве потенциального нового стандарта, решается ли морфология ? По крайней мере две газеты дали решительное «нет». Вания и Лопес сравнили производительность языкового моделирования нескольких композиционных представлений подслов и обнаружили, что ни одно из них не работает так же хорошо, как модель, имеющая доступ к золотым морфологическим аннотациям. Этот результат сохранялся даже при предоставлении необработанной входной модели в десять раз большего количества обучающих данных — предполагая, что в лучшем случае наши текущие методы языкового моделирования требуют очень большого количества данных для неявного изучения морфологии, а в худшем случае никакое количество обучающих данных не может заменить морфологическое понимание. В Что модели нейронного машинного перевода узнают о морфологии? , Белинков и др. показывают, что, хотя представления NMT на основе символов лучше, чем представления на основе слов, как для NMT, так и для морфологической маркировки, они далеки от идеальной производительности для последней.

    Эти результаты предполагают, что, если мы хотим, чтобы репрезентации слов действительно учитывали морфологию, нам может понадобиться более явная модель морфологии , чем просто композиция символов. В их Morph-fitting бумага, Вулич и др. точно настроить встраивание слов, используя некоторые очень простые морфологические правила, написанные нелингвистами (например, в английском префикс un- указывает на антоним). Это приводит к существенным улучшениям, показывая, что даже небольшое количество лингвистических знаний может быть очень эффективным. Между тем Коттерелл и Шютце представляют более полную модель морфологии, совместно изучая систему, которая может сегментировать слово на его морфологические компоненты (например, сомнительно вопрос+способен+ли ) и скомпонуйте представления компонентов обратно в представление слова. Я думаю, что это очень полезный подход, так как любая морфологическая система понимания должна уметь составлять и разлагать значение. Хотя модель хорошо справляется с внутренними задачами оценки, мне было бы интересно посмотреть, насколько легко и насколько успешно она переносится на внешние задачи, такие как синтаксический анализ или языковое моделирование.

    Коттерелл и Шютце

    С нетерпением жду

    Слова — это сама основа языка, поэтому наши предположения имеют значение, когда мы выбираем, как их моделировать.

    Хотя до сих пор семантика распределения хорошо служила нам, слова — это больше, чем контексты, в которых они появляются. Я думаю, что в ближайшие годы мы увидим более обоснованное, визуальное и интерактивное изучение языка, дополняющее дистрибутивные представления.

    Подобно предположению «язык — это просто последовательность слов» , «слова — это просто анонимные токены» , кажется, уходит. Однако я ожидаю, что вопрос «слова — это просто последовательности символов» против «морфологическая структура важна» станет предметом будущих дискуссий, как философских, так и практических.

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *