Слово выражение разобрать по составу: «Выражение» корень слова и разбор по составу

Представление и обработка композиции, вариации и аппроксимации в языковых ресурсах и инструментах

Аннотация

В моей докторской диссертации, предназначенной для подтверждения моих способностей и зрелости для руководства исследовательской деятельности, я представляю панораму нескольких тем в компьютерной лингвистике, лингвистике и информатика. В последнее десятилетие меня особенно интересовали явления композиционности. и вариативность языковых объектов. Я иллюстрирую преимущества композиционного подхода к языку в области обнаружения эмоций, и я объясню, как некоторые лингвистические объекты, наиболее заметно многословные выражения, бросают вызов принципам композиционности. я демонстрирую что сложные свойства MWE, особенно изменчивость, частично регулярны, а частично идиосинкразический. Этот факт ставит MWE на границу между различными уровнями лингвистического обработка, такая как лексика и синтаксис. Я показываю в высшей степени гетерогенную природу MWE, ссылаясь на две их существующие таксономии. После обширного современного исследования описания и обработки MWE я резюмирую Multiflex, формализм и инструмент для лексического качественного морфосинтаксического описания MWU. Он использует основанный на графике подход, в котором перегиб MWU выражается в функции морфология его компонентов и паттерны морфосинтаксической трансформации. Из-за унификации флексионные парадигмы представлены компактно. Орфографические, флективные и синтаксические варианты рассматриваются в тех же рамках. Предложение многоязычное: оно имеет был протестирован на шести европейских языках трех разных происхождений (германском, романском и славянском), Я считаю, что многие другие также могут быть успешно охвачены. Multiflex доказал свою совместимость. Это адаптируется к различным морфологическим языковым моделям, определениям границ токенов и лежащим в их основе модули для морфологии отдельных слов. Применяется для создания и обогащения языковых ресурсов, а также к морфосинтаксическому анализу и генерации.

Он может быть интегрирован в другие приложения НЛП, требующие объединения различных поверхностных реализаций одного и того же концепция. Другая глава моей деятельности связана с именованными сущностями, большинство из которых представляют собой определенные типы MWE. Их богатая семантическая нагрузка превратила их в горячую тему в сообществе НЛП. задокументировано в моем обзоре современного состояния. Представляю основные предположения, процессы и результаты выдается из больших задач аннотации на двух уровнях (для именованных сущностей и для кореферентности), части Национальный корпус польского строительства. Я также внес свой вклад в развитие обоих основанные на правилах и вероятностные инструменты распознавания именованных объектов, а также автоматизированное обогащение Prolexbase, большая многоязычная база имен собственных из открытых источников. Что касается выражений, состоящих из нескольких слов, именованных сущностей и упоминаний кореференции, я плачу особое внимание вложенным структурам.
Эта проблема проливает новый свет на лечение сложных языковые единицы в НЛП. Когда эти единицы начинают моделироваться как деревья (или, в более общем смысле, как ациклические графы), а не как плоские последовательности токенов, дальние зависимости, Свойства, перекрывание и другие часто встречающиеся лингвистические свойства становятся более легкими для представления. Это вызывает для более сложных методов обработки, которые контролируют более крупные контексты, чем обычно при последовательной обработке. Таким образом, происходит как распознавание именованных объектов, так и разрешение кореферентности. очень близко к синтаксическому анализу, а именованные объекты или упоминания с их вложенными структурами аналогичны 3to многословные выражения со встроенными дополнениями. Моя параллельная деятельность касается методов с конечным числом состояний для обработки естественного языка и XML. Мой основной вклад в эту область, в соавторстве с 2-мя коллегами, это первый полноценный метод для древовидной коррекции, а точнее для исправления XML-документов с учетом к DTD.
Мы также получили интересные результаты в инкрементной алгоритмике с конечным числом состояний. особенно актуально для контекстов эволюции данных, таких как динамические словари или пользовательские обновления. Многоязычие — лейтмотив моего исследования. Я применил свои методы к нескольким естественным языки, особенно польский, сербский, английский и французский. Я был среди инициаторы многоязычной европейской научной сети, посвященной анализу и словесные выражения. Я использовал многоязычные лингвистические данные в экспериментальных исследованиях. Я считаю что особенно полезно разрабатывать решения НЛП, используя богатые склонения (например, славянские) языков, так как это приводит к более универсальным решениям, по крайней мере, в номинальном конструкции (MWU, NE, упоминания). Например, когда Мультифлекс был разработанный с учетом польского языка, он может быть применен как таковой к французскому, английскому, сербскому и греческому языкам. Кроме того, французско-сербское сотрудничество привело к существенным изменениям в морфологическом моделировании.
в Prolexbase на ранних стадиях разработки. Это позволило позже применить его к польскому языку. с очень немногими адаптациями существующей модели. Другие исследователи также подчеркивают преимущества НЛП изучает сильно изменчивые языки, поскольку их морфология кодирует гораздо больше синтаксиса. информация, чем это имеет место, например. по-английски. В этой диссертации я также должен продемонстрировать свою способность играть активную роль. в формировании научного ландшафта на местном, национальном и международном уровнях. я описываю мои: (i) различное научное сотрудничество и деятельность по надзору, (ii) роли в более чем 10 региональных, национальные и международные проекты, (iii) обязанности в коллективных органах, таких как программа и оргкомитеты конференций и семинаров, жюри PhD, Национальный университет Совета (CNU), (iv) деятельность в качестве оценщика и рецензента европейских совместных проектов. Вопросы, затронутые в данной диссертации, открывают интересные научные перспективы, в которых особое внимание уделяется ссылкам между различными доменами и сообществами.
Эти перспективы включают: (i) интеграцию детальных языковых данных в связанные открытые данные, (ii) глубокий синтаксический анализ многословных выражений, (iii) моделирование идентификации многословного выражения в банке деревьев как проблема коррекции дерева в язык и (iv) таксономия и экспериментальный эталон для подходы к коррекции дерева в язык.

регулярное выражение — Анализ строк отдельных слов и групп слов внутри кавычек с использованием регулярных выражений в Ruby ‘Линия два’, пушистый кит, ‘Rolly Polly’ вычурный кит «третьей линии» вычурный кит «четвёртая линия» ‘линия пять’ ‘рыбьи головы’ линия шесть

Я хочу использовать одно регулярное выражение для отображения желаемого результата. Я уже знаю, как это сделать, чтобы получить желаемый результат, но Мне нужно одно выражение .

Требуемый результат :

 ["line1"]
["Линия вторая", "вычурная", "кит", "ролли полли"]
["нечеткий", "третья линия", "кит"]
["вычурный", "кит", "четвёртая строка"]
["пятая строка", "рыбьи головы"]
["линия", "шесть"]
 

Чтение строки у меня уже обработано через Cucumber.

Каждая строка читается как одно строковое значение, и я хочу проанализировать отдельные слова и любое количество слов, содержащихся в одинарных кавычках. Я почти ничего не знаю о регулярных выражениях, но я собрал регулярное выражение, используя оператор регулярного выражения «или» («|»), который приблизил меня к этому.

Взяв это регулярное выражение, я сначала попытался проанализировать каждую строку, используя разделение строки:

 text_line.split(/(\w+)|'(.*?)'/)
 

В результате чего получились следующие менее приемлемые массивы:

 ["", "line1"]
["", "Линия вторая", " ", "фудги", " ", "кит", " ", "Rolly Polly"]
["", "вычурный", " ", "третья строка", " ", "кит"]
["", "вычурный", " ", "кит", " ", "четвёртая строка"]
["", "пятая строка", " ", "рыбьи головы"]
["", "линия", "", "шесть"]
 

Затем я попытался использовать сканирование вместо разделения и увидел это:

 text_line.scan(/(\w+)|'(.*?)'/)
[["строка1", ноль]]
[[nil, "Line two"], ["fudgy", nil], ["whale", nil], [nil, "rolly polly"]]
[["нечеткий", ноль], [ноль, "третья строка"], ["кит", ноль]]
[["нечеткий", ноль,], ["кит", ноль], [ноль, "четвёртая строка"]]
[[ноль, "строка пять"], [ноль, "рыбьи головы"]]
[["строка", ноль], [ноль, "шесть",]]
 

Таким образом, я мог видеть, что оператор регулярного выражения «или» производил значение для каждой возможной позиции «или», которая имела смысл. Зная, что я понял, что могу использовать сканирование, сведение и сжатие, чтобы очистить его, я получил 9 баллов.0013 желаемый результат :

 text_line.scan(/(\w+)|'(.*?)'/).flatten.compact
["линия 1"]
["Линия вторая", "вычурная", "кит", "ролли полли"]
["нечеткий", "третья линия", "кит"]
["вычурный", "кит", "четвёртая строка"]
["пятая строка", "рыбьи головы"]
["линия", "шесть"]
 

Но использование сканирования, сглаживания и сжатия выглядит невероятно уродливо, и кажется, что я просто обезьяна, исправляющая свое собственное плохое регулярное выражение. Я думаю, что вместо того, чтобы неуклюже исправлять небрежный вывод из моего плохо построенного регулярного выражения, я должен просто написать лучшее регулярное выражение.

Итак, можно ли использовать одно регулярное выражение для разбора приведенных выше строк и получения желаемого результата ? Я могу быть далеко от регулярного выражения для начала, но я думаю, что если бы я мог просто как-то сгруппировать или, чтобы они возвращали только одно значение для каждой группы, это, вероятно, было бы тем, что я ищу.

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *