Разбор слова сходство по составу: Страница не найдена

What does npm exec do? What is the difference between «npm exec» and «npx»?

What are the building blocks of OWL ontologies?

Learn more about «RDF star», «SPARQL star», «Turtle star», «JSON-LD star», «Linked Data star», and «Semantic Web star».

The Hadamard gate is one of the simplest quantum gates which acts on a single qubit.

Learn more about the bra–ket notation.

Progressive Cactus is an evolution of the Cactus multiple genome alignment protocol that uses the progressive alignment strategy.

The Human Genome Project is an ambitious project which is still underway.

What are SVMs (support vector machines)?

Find out more in Eckher’s article about TensorFlow.js and linear regression.

On the importance of centralised metadata registries at companies like Uber.

Facebook’s Nemo is a new custom-built platform for internal data discovery. Learn more about Facebook’s Nemo.

What is Data Commons (datacommons.org)? Read Eckher’s introduction to Data Commons (datacommons.org) to learn more about the open knowledge graph built from thousands of public datasets.

Learn more about how Bayer uses semantic web technologies for corporate asset management and why it enables the FAIR data in the corporate environment.

An introduction to WikiPathways by Eckher is an overview of the collaboratively edited structured biological pathway database that discusses the history of the project, applications of the open dataset, and ways to access the data programmatically.

Eckher’s article about question answering explains how question answering helps extract information from unstructured data and why it will become a go-to NLP technology for the enterprise.

Read more about how document understanding AI works, what its industry use cases are, and which cloud providers offer this technology as a service.

Lexemes are Wikidata’s new type of entity used for storing lexicographical information. The article explains the structure of Wikidata lexemes and ways to access the data, and discusses the applications of the linked lexicographical dataset.

The guide to exploring linked COVID-19 datasets describes the existing RDF data sources and ways to query them using SPARQL. Such linked data sources are easy to interrogate and augment with external data, enabling more comprehensive analysis of the pandemic both in New Zealand and internationally.

The introduction to the Gene Ontology graph published by Eckher outlines the structure of the GO RDF model and shows how the GO graph can be queried using SPARQL.

The overview of the Nobel Prize dataset published by Eckher demonstrates the power of Linked Data and demonstrates how linked datasets can be queried using SPARQL. Use SPARQL federation to combine the Nobel Prize dataset with DBPedia.

Learn why federated queries are an incredibly useful feature of SPARQL.

What are the best online Arabic dictionaries?

How to pronounce numbers in Arabic?

List of months in Maori.

Days of the week in Maori.

The list of country names in Tongan.

The list of IPA symbols.

What are the named entities?

What is computational linguistics?

Learn how to use the built-in React hooks.

Learn how to use language codes in HTML.

Learn about SSML.

Browse the list of useful UX resources from Google.

Where to find the emoji SVG sources?.

What is Wikidata?

What’s the correct markup for multilingual websites?

How to use custom JSX/HTML attributes in TypeScript?

Learn more about event-driven architecture.

Where to find the list of all emojis?

How to embed YouTube into Markdown?

What is the Google Knowledge Graph?

Learn SPARQL.

Explore the list of coronavirus (COVID-19) resources for bioinformaticians and data science researchers.

Sequence logos visualize protein and nucleic acid motifs and patterns identified through multiple sequence alignment. They are commonly used widely to represent transcription factor binding sites and other conserved DNA and RNA sequences. Protein sequence logos are also useful for illustrating various biological properties of proteins. Create a sequence logo with Sequence Logo. Paste your multiple sequence alignment and the sequence logo is generated automatically. Use the sequence logo maker to easily create vector sequence logo graphs. Please refer to the Sequence Logo manual for the sequence logo parameters and configuration. Sequence Logo supports multiple color schemes and download formats.

Sequence Logo is a web-based sequence logo generator. Sequence Logo generates sequence logo diagrams for proteins and nucleic acids. Sequence logos represent patterns found within multiple sequence alignments. They consist of stacks of letters, each representing a position in the sequence alignment. Sequence Logo analyzes the sequence data inside the user’s web browser and does not store or transmit the alignment data via servers.

Te Reo Maps is an online interactive Maori mapping service. All labels in Te Reo Maps are in Maori, making it the first interactive Maori map. Te Reo Maps is the world map, with all countries and territories translated into Maori. Please refer to the list of countries in Maori for the Maori translations of country names. The list includes all UN members and sovereign territories.

Phonetically is a web-based text-to-IPA transformer. Phonetically uses machine learning to predict the pronunciation of English words and transcribes them using IPA.

Punycode.org is a tool for converting Unicode-based internationalized domain names to ASCII-based Punycode encodings. Use punycode.org to quickly convert Unicode to Punycode and vice versa. Internationalized domains names are a new web standard that allows using non-ASCII characters in web domain names.

My Sequences is an online platform for storing and analyzing personal sequence data. My Sequences allows you to upload your genome sequences and discover insights and patterns in your own DNA.

Словообразовательный словарь «Морфема» дает представление о морфемной структуре слов русского языка и слов современной лексики. Для словообразовательного анализа представлены наиболее употребительные слова современного русского языка, их производные и словоформы. Словарь предназначен школьникам, студентам и преподавателям. Статья разбора слова «сладкоежка» по составу показывает, что это слово имеет два корня, соединительную гласную, суффикс и окончание. На странице также приведены слова, содержащие те же морфемы. Словарь «Морфема» включает в себя не только те слова, состав которых анализируется в процессе изучения предмета, но и множество других слов современного русского языка. Словарь адресован всем, кто хочет лучше понять структуру русского языка.

Разбор слова «кормушка» по составу.

Разбор слова «светить» по составу.

Разбор слова «сбоку» по составу.

Разбор слова «шиповник» по составу.

Разбор слова «народ» по составу.

Разбор слова «впервые» по составу.

Разбор слова «свежесть» по составу.

Разбор слова «издалека» по составу.

Разбор слова «лесной» по составу.

Содержание

Сходство и различие служебных слов

Сходство служебных слов

 

1. Все служебные слова могут быть производными и непроизводными.

Производные служебные слова сохранили в современном русском языке живые словообразовательные и лексико-семантические отношения с мотивирующими знаменательными словами.

 

Непроизводные (первообразные) служебные слова не имеют словообразовательных и лексико-семантических связей со знаменательными частями речи: в продолжение года, в течение урока, на уроке, об уроке.

 

2. По составу все служебные слова делятся на простые (в, к, на, перед) и составные, состоящие из нескольких элементов (несмотря на, потому что, хотя бы).

 

В отличие от знаменательных, все служебные слова не имеют номинативной функции, не изменяются, не имеют грамматических категорий и не являются членами предложения.

 

 

Различие служебных слов

 

1. Предлоги и союзы отличаются от частиц по функции.

Предлоги и союзы служат для выражения различных семантико-синтаксических отношений между словами, предложениями и частями предложений. Частицы в отличие от них не участвуют в построении структуры предложения или словосочетания. Они выражают смысловые оттенки или участвуют в образовании аналитических форм слов, т. е. выражают объективную и субъективную модальность.

  • Только ты меня понимаешь. (Только — частица.)
  • Неужели ты был там на самом деле? (Неужели — частица. )
  • Я как раз это и хотела спросить. (Как раз — частица.)
2. Предлоги отличаются от союзов по степени выражаемой ими синтаксической связанности слов и по сфере проявления своих служебных функций. Предлоги устанавливают тесную связь существительных, местоимений и числительных с другими словами и находятся в непосредственном единстве с падежными формами.

Союзы устанавливают отношения между членами предложения.

 

 

Сложные моменты

 

Среди служебных слов много омонимов как по отношению к знаменательным словам, так и по отношению друг к другу.

 

Скажи, что случилось? (Что — местоимение.)

Что так поздно пришёл? (Что — наречие, = кто.)

Сказал так тихо, что никто не услышал. (Что — союз.)

 

Говорите просто, чтобы было понятно. (Чтобы — союз.)

Чтобы этого больше не было. (Чтобы — частица.)

 

Лес точно сказка. (Точно — союз, = как.)

Точно такая же вещь. (Точно — наречие, = совершенно.)

Точно я вас где-то встречал. (По Ожегову, точно — частица.)

 

Возможно частичное внешнее совпадение служебных слов.

  • Несмотря на мороз, мы пошли гулять. (Несмотря — предлог.)
  • Несмотря на то что был мороз… (Несмотря на то что — союз.)

Может происходить перекрещивание функций служебных слов.

  • — Не думай об этом.
  • — Я и не думаю.

 


Поделиться публикацией:

Классный урок на «Радио России – Тамбов», эфир 14 мая 2020 года — ВЕСТИ / Тамбов

Этот урок культуры речи будет полезен не только тем, кто готовится к сдаче ЕГЭ. Разговор пойдет, в частности, о паронимах, которые иногда называют «ложными братьями» — словах, сходных по звучанию и морфологическому составу, но различающихся лексическим значением. Омонимы впервые заметил Аристотель. А вот Цицерон утверждал, что «Как в жизни, так и в речи нет ничего труднее, как видеть, что уместно». Сегодняшний урок поможет изучающим русский язык всегда правильно выбирать слова.

 

Урок русского языка в 11 классе «Паронимы»

Здравствуйте, уважаемые слушатели. Тема сегодняшнего урока «Паронимы, употребление паронимов в речи». Приглашаем к разговору тех, кто хочет сделать лингвистические открытия, кто хочет расширить свой лексикон, говорить правильно и повысить культуру речи, кому интересно больше узнать о паронимах. Эта тема будет интересна и полезна учащимся 11 классов, так как задание №5 в ЕГЭ именно на это правило.

Наблюдения над живым словом в повседневном обиходе, на собраниях, лекциях, над речью школьников, особенно в ее письменном выражении (творческие работы), наконец над языком периодической печати, радио и телевидения свидетельствуют о том, что в речи встречается немало ошибок и отклонений от современных литературных норм. Паронимия – один из источников «трудностей» литературной речи.

Одна из распространенных ошибок школьников — смешение паронимов. Да и люди, свободно владеющие русским литературным языком, по справедливому замечанию Д. Э. Розенталя, «нередко затрудняются в выборе какого-либо из слов, отмеченных не только сходством в их звучании, но и смысловой близостью, что объясняется их образованием от одного и того же корня».

Однако в школьную программу по русскому языку в 5-9 классах не включен специально вопрос, предполагающий изучение слов-паронимов и употребление их в речи. В программе же для старшей школы количество часов на изучение темы «Паронимы и их употребление» ограничено. Не случайно выпускники испытывают большие трудности на ЕГЭ по русскому языку при выполнении заданий, связанных с употреблением паронимов. А ведь задания по данной теме имеют место во всех типах тестов ЕГЭ.

М. Горький говорил: «Слово — одежда всех фактов, всех мыслей». Значит, эту одежду необходимо подбирать «по мерке» и «со вкусом», следует в первую очередь учитывать присущее каждому слову значение. А знаем ли мы эти значения? Как показывает практика – не всегда.

Ошибки в употреблении паронимов можно услышать очень часто. Бабушка говорит внуку: «Одень пальто – на улице холодно». Кондуктор в автобусе строго обращается к пассажирам: «Вошедшие граждане, оплатите за проезд». А в рекламной листовке парикмахерской можно прочитать: «Мы создадим вам эффективную внешность». Подобные ошибки связаны с тем, что говорящие и пишущие не видят различий в значениях паронимов, неправильно понимают значения слов. Как же избежать подобных ошибок? Что нужно делать, чтобы не допускать лексические недочёты в речи? Попытаемся найти ответы на эти важные вопросы и попробуем выяснить специфику употребления паронимов, причины возникновения их в русском языке, а также типичные ошибки при употреблении слов – паронимов.

Паронимы – это однокоренные слова, принадлежащие к одной части речи, имеющие общие грамматические признаки. Паронимы — это слова, имеющие структурное и звуковое сходство.

Паронимы в большинстве случаев относятся к одной части речи. Например: одеть и надеть, абонент и абонемент, мудреть и мудрить. Иногда паронимы также называют ложными братьями.

Каковы основные ошибки в употреблении паронимов? Близнецы или совсем чужие? Паронимы требуют к себе особого внимания, поскольку в речи недопустимо их смешение.

Итак, с учетом особенностей паронимы бывают по структуре:

Приставочные паронимы – паронимы, имеющие разные приставки. Например: вбежать – взбежать, обсудить – осудить, одеть – надеть и т.д.

Суффиксальные паронимы – паронимы, имеющие разные суффиксы.

Например: грозный – грозовой, белеть – белить, лирический – лиричный и т.д.

Финальные паронимы – паронимы, отличающиеся окончаниями, а также конечными буквами. Например: жар – жара, гарант – гарантия, невежа – невежда, адресат — адресант и т.д.

По значению:

Полные (абсолютные) паронимы – паронимы с ударением на одном и том же слоге, выражающие разные смысловые понятия. Например: осуждение – обсуждение, восход – всход и т.д.

Неполные паронимы – паронимы, в которых наблюдается неполное разделение объёма значений, что вызывает их сближение.

Например: аристократический – аристократичный, комический – комичный и т.д.

Частичные (приблизительные) паронимы – паронимы, различающиеся местом ударения, характеризующиеся общностью смысловых понятий и возможным совпадением сочетаемости. Например: водный напор – водяной напор, героический подвиг – геройский подвиг и т.д.

 

Как различать паронимы?

Например, в заявлении директору сотрудник пишет: «Прошу предоставить мне отпуск» (т.е. дать возможность пользоваться отпуском), а директор может начертать на этом заявлении: «Представьте сначала отчёт о работе» (т.е. он велит, приказывает предъявить ему отчёт о работе).

На собрании докладчику предоставляют слово, т. е. разрешают высказаться. А если кого-нибудь признают достойным высокой похвалы, то его могут представить к награде.

Гостя собравшимся также представляют (т.е. знакомят, называют его имя), но бывают такие нерадивые хозяева, которые предоставляют гостей самим себе (т.е. не развлекают, не обращают на гостей внимания).

Внешнее различие этих двух глаголов – всего одной буквой, а по смыслу разница весьма существенная.

Паронимы можно различать ещё так:

Вместо каждого паронима подставлять близкое ему по смыслу слово. Эти подстановочные слова никогда не совпадут.

Например, вместо экономная хозяйка можно сказать рачительная хозяйка, а вместо экономичная упаковка – выгодная упаковка. Прилагательное рачительная по значению явно отличается от прилагательного выгодная. Тем самым делается очевидной разница между паронимами экономная и экономичная.

Невежа-невежда

Чтобы научиться различать паронимы НЕВЕЖА — НЕВЕЖДА и научиться правильно их употреблять, стоит подробнее изучить лексическое значение и этимологию.

Оба слова могут описывать человека любого пола, возраста и социального статуса. Они не только звучат похоже, но и часто применяются в одинаковом контексте, что затрудняет понимание.

Рассматриваемые паронимы образуют необычную пару, имеющую разные корни. Разбор слова невежда по составу показывает основу «невежд» и окончание «а». Происходит от древнеславянского слова «ведать», то есть «знать». Слово отражает необразованность, недостаточную осведомлённость человека о предмете. Невежа имеет другой корень — «невеж», Это намекает на его родство со словом «невежливость» — отсутствие манер. Эти два паронима взаимосвязаны, поскольку в обществе малообразованность и незнание правил поведения часто идут рука об руку.

Похожесть слов объясняется их происхождением. Во времена Пушкина они относились к одному и тому же понятию и представляли собой разные формы одного существительного. Принципиальное различие между ними впервые было указано в «Толковом словаре живого великорусского языка» В. И. Даля.

В современной разговорной речи понятия продолжают путать, несмотря на то что даже самый воспитанный и вежливый человек может быть необразованным и наоборот.

Запомнить эти паронимы помогут приемы мнемотехники, например, стихи:

Этот человек – НЕВЕЖДА,

Так как разум не разбужен,

А сосед его – НЕВЕЖА,

Что во много раз похуже.

Одеть-надеть

Тонкий знаток русского языка А.Т. Твардовский, обращая внимание на ошибки в употреблении паронимов, заметил: «Я сам, как песчинку в хлебе, попадающую на зуб, не выношу слова – одел шапку, а так упорно почему-то пишется вместо надел.» В речи, действительно, смешивают эти паронимы: «Одень пальто, на улице холодно»; «На мебель одели чехлы». Глагол надеть, который следовало употребить в этих случаях, как правило, имеет при себе предлог на или позволяет нам мысленно его подставить: надень пальто (на сына), надень очки (на нос). Дополнение при этом глаголе обычно выражено неодушевленным существительным. Слово одеть обычно имеет дополнения без предлога, оно часто выражено одушевленным существительным.

Об ошибках употребления этих паронимов пишет Новелла Матвеева:

Одень, надень…Два слова

Мы путаем так бестолково!

Морозный выдался рассвет,

Оделся в шубу старый дед.

А шуба, стало быть, надета…

Компания и кампания

Различать и правильно употреблять слова компания и кампания помогает стихотворение А.Т. Твардовского:

Но со страстью неизменной

Дед судил, рядил, гадал

О кампании военной,

Как в отставке генерал.

Шел наш брат, худой, голодный,

Потерявший связь и часть,

Шел поротно и повзводно,

И компанией свободной,

И один, как перст, подчас.

АДРЕСАТ – АДРЕСАНТ

Слова «адресат» и «адресант» должны быть знакомы любителям писать письма. Без них и переписки не получится, ведь это два взаимодействующих лица. Они очень похожи, за что и попали в словари паронимов.

Адресат (он же получатель, на конвертах отмечен словом «Кому») — это тот, кому адресовано сообщение, то есть тот, кто его получит.

Адресант (он же отправитель, на конверте обозначается кодовым словом «От кого») — тот, кто отправляет сообщение.

Много слов написал АДРЕСАНТ,
Только сбивчиво, очень невнятно.
И сидит над письмом АДРЕСАТ –
Половина ему лишь понятна!

Эти слова входят в профессиональную речь служителей почты в составе таких оборотов, как «адресат выбыл», «уточните адресата».

В литературе можно встретить примеры использования в одном предложении одновременно двух слов-паронимов Они служат для задания бинарной стилистической фигуры — парономазии.

Парономазия (от греч. para — возле, onomazo — называю) или паронимическая аттракция — стилистический приём с использованием обоих паронимов в одном предложении. Так как задействованы сразу два слова, приём иногда также называют бинарной стилистической фигурой.

С помощью парономазии добиваются выразительности авторской мысли и образности высказывания. Парономазия используется в поэзии, фольклоре (пословицах, скороговорках, сказках), публицистики.

В приеме парономазии, как правило, используются родственные слова: «Служить бы рад, прислуживаться тошно» (А. С. Грибоедов, «Горе от ума»), «Нечего их ни жалеть, ни жаловать» (А. С. Пушкин, «Капитанская дочка»). Пары таких слов, органично встроенные в художественный текст, усиливают смысл высказывания, способствуют акцентированию внимания читателя, заставляют его лучше запомнить эффектную фразу.

Заключение

Проблема овладения лексическими нормами русского языка, проблема устранения и предупреждения речевых ошибок сегодня стоит остро. Поэтому каждый из нас должен стремиться увеличению своего словарного запаса, к грамотному использованию слов, ведь наша речь – это показатель нашей образованности.

Какой совет можно дать учащимся? Чтобы повысить уровень культуры речи по употреблению паронимов, необходимо:

— читать научную и художественную литературу;

— проводить постоянные языковые тренировки;

— пополнять словарный запас;

— иметь специальный словарик паронимов и интенсивно его пополнять, поскольку языковой состав постоянно изменяется.

Наша речь – это показатель нашей культуры и образованности. Надеемся, что сегодняшний радиоурок поможет школьникам правильно употреблять паронимы в речи и успешно выполнить задание №5 на ЕГЭ по русскому языку.

Рощей разбор слова по составу

Рощей

корень – РОЩ; окончание – ЕЙ;
Основа слова: РОЩ
Вычисленный способ образования слова: Бессуфиксальный или другой

Слово Рощей содержит следующие морфемы или части:

  • ¬ приставка (0): –
  • ∩ корень слова (1): РОЩ;
  • ∧ суффикс (0): –
  • ⏰ окончание (1): ЕЙ;

Онлайн разбор слова по составу (морфемный разбор) Рощей произведен программными средствами, поэтому может содержать ошибки.
Если Вы нашли ошибку или морфемный разбор слова Рощей произведен неверно (правильность указания корня, приставки, суффикса, основы слова), пожалуйста сообщите об этом в комментариях к разбору, мы постараемся учесть Ваши замечания

Разбор слова по составу.

Состав слова «рощей»:

Приставка слова рощей

Морфемный разбор слова рощей

Морфемным разбором слова обычно называют разбор слова по составу – это поиск и анализ входящих в заданное слово морфем (частей слова).

Морфемный разбор слова рощей делается очень просто. Для этого достаточно соблюсти все правила и порядок разбора.

Сделаем морфемный разбор правильно, а для этого просто пройдем по 5 шагам:

  • определение части речи слова рощей – это первый шаг;
  • второй – выделяем окончание: для изменяемых слов спрягаем или склоняем, для неизменяемых (деепричастие, наречие, некоторые имена существительные и имена прилагательные, служебные части речи) – окончаний нет;
  • далее ищем основу. Это самая легкая часть, потому что для определения основы нужно просто отсечь окончание. Это и будет основа слова;
  • следующим шагом нужно произвести поиск корня слова. Подбираем родственные слова для рощей (еще их называют однокоренными), тогда корень слова будет очевиден;
  • Находим остальные морфемы для рощей путем подбора других слов, которые образованы таким же способом, что и рощей.

Как вы видите, морфемный разбор рощей делается просто. Теперь давайте определимся с основными морфемами слова рощей и сделаем его разбор.

Приставка —

Корень слова рощей

Корень — рощ

Суффикс слова рощей

Суффикс —

Окончание слова рощей

Окончание — ей
рощкорень
аокончание

Сходные по морфемному строению слова

Делаем Карту слов лучше вместе

Привет! Меня зовут Лампобот, я компьютерная программа, которая помогает делать Карту слов. Я отлично умею считать, но пока плохо понимаю, как устроен ваш мир. Помоги мне разобраться!

Спасибо! Я обязательно научусь отличать широко распространённые слова от узкоспециальных.

Насколько понятно значение слова хлористый (прилагательное):

Ассоциации к слову «роща»

Синонимы к слову «роща»

Предложения со словом «роща»

  • Речь шла о такой малости как подлежащая вырубке берёзовая роща на самом краю графства.
  • Рассказывают и о том, как прадед мой извёл прекрасную дубовую рощу, скупивши её за бесценок у какого-то разорившегося помещика.
  • Здесь вековые зелёные оливковые рощи в Parc du Pian, гавань для яхт, сад Jardin des Colombieres.
  • (все предложения)

Цитаты из русской классики со словом «роща»

  • Лошадей привязал кучер к деревьям, в недальнем расстоянии, и задал им овса, которым запасся на дорогу; потом перескочил по камням через речку, пробрался сквозь рощу, в которой, сказали мы, терялась по косогору дорога в Менцен, прополз по обнаженной высоте за крестом и у мрачной ограды соснового леса, к стороне Мариенбурга, вскарабкавшись на дерево, которого вершина была обожжена молниею, привязал к нему красный лоскут, неприметный с холма, где были наши путешественники, но видный вкось на мызе.

Сочетаемость слова «роща»

Какой бывает «роща»

Значение слова «роща»

РО́ЩА , -и, ж. Небольшой, чаще лиственный лес. (Малый академический словарь, МАС)

Отправить комментарий

Дополнительно

Значение слова «роща»

РО́ЩА , -и,

ж. Небольшой, чаще лиственный лес.

Предложения со словом «роща»:

Речь шла о такой малости как подлежащая вырубке берёзовая роща на самом краю графства.

Рассказывают и о том, как прадед мой извёл прекрасную дубовую рощу, скупивши её за бесценок у какого-то разорившегося помещика.

Здесь вековые зелёные оливковые рощи в Parc du Pian, гавань для яхт, сад Jardin des Colombieres.

Синонимы к слову «роща»
Ассоциации к слову «роща»
Сочетаемость слова «роща»
Какой бывает «роща»
Морфология

Карта слов и выражений русского языка

Онлайн-тезаурус с возможностью поиска ассоциаций, синонимов, контекстных связей и примеров предложений к словам и выражениям русского языка.

Справочная информация по склонению имён существительных и прилагательных, спряжению глаголов, а также морфемному строению слов.

Сайт оснащён мощной системой поиска с поддержкой русской морфологии.

★ Юный — чечерский район .. Информация

Пользователи также искали:

не юный, юный часть речи, юный или юнный, юный морфемный разбор, юный натуралист, юный правописание, юный разбор по составу, юный синоним, юный, Юный, разбор, не юный, юный разбор по составу, юный морфемный разбор, юный синоним, юный натуралист, юный часть речи, юный правописание, речи, правописание, составу, морфемный, синоним, натуралист, часть, юнный, юный или юнный, чечерский район.

юный,

Как сделать фонетический разбор слова юный?

Этот текст можно озаглавить «Как рождался словарь Даля».

Составим план пересказа этого текста:

  1. Детство, юность, отрочество Даля
  2. Полвека на службе родному языку
  3. Четыре тома словаря
  4. Отношение Пушкина к словарю
  5. Значение словаря в современности.

Выпишем прилагательные, которые в тексте используется с отсутствующим окончанием, вставим нужные формы окончания, укажем определяемые существительные.

Известного толкового Словаря; морским офицером, военным врачом; по родному краю; русского народа.

Русской речи в разнообразных проявлениях; русского языка; в народной речи, меткие русские пословицы, интересные загадки.

Огромный труд, с большим интересом.

Почетное, прочное место.

«Олицетворять» (что делать?) является инфинитивом/неопреде­лённой формой глагола/начальной формой глагола, поэтому его морфемный анализ имеет свою особенность.

Сначала определимся с местом этого слова в словарном гнезде: исходное (непроизводное) или производное.

В словаре А. Тихонова мы обнаруживаем, что глагол «олицетворять» занимает первую позицию и является суффиксальным производным от глагола совершенного вида «олицетворить».

Это важно для выделения основы.

Особый разговор об элементе «-ть», поскольку в разных учебных программах (имею в виду школьный курс русского языка) он определяется по-разному: как окончание инфинитива (УМК Т. Ладыженской, УМК М. Разумовской) или как суффикс инфинитива (УМК В. Бабайцевой). В обоих случаях «-ть» не входит в основу слова, т.к. является формообразующей/форм­ообразовательной морфемой.

Сам морфемный анализ может быть таким:

  • ть — суффикс инфинитива/окончание инфинитива,
  • олицетворя- основа слова,
  • я — суффикс,
  • олицетвор- корень.

Олицетвор/я/ть

Разобрать слово по составу значит выделить в нем приставку , корень , суффикс , окончание и основу слова . В слове Кролик корень слова кролик , окончание нулевое , основа слова кролик. В слове Учитель , корень уч , суффикс и , суффикс тель , окончание нулевое , основа слова учитель. В слове подушка , корень подушк , окончание а , основа слова подушк. В слове Привлекательность , приставка при , корень влек , суффикс а , тель, ность , основа слова привлекательность.

В слове ОБРАЗОВАЛОСЬ в современном языке корень -образ-. Словом ОБРАЗ мы и проверим первую безударную гласную О. Исторически в этом слове корень -раз-. Этот же корень имели раньше слова: БЕЗОБРАЗНЫЙ, РАЗНООБРАЗНЫЙ. Они и будут проверочными для буквы А.

Добрый день. Давайте определим, нужен ли дефис в словосочетание «(темно)голубой».

Предлагаю обратиться к правилам русского языка, но для этого определим часть речи этого слова.

Слово «(темно)голубой» отвечает на вопрос «Какой?», а, следовательно, является прилагательным.

Для этой части речи есть замечательное правило – оттенок цвета пишут через дефис всегда.

Правильный ответ: «темно-голубой».

Пример предложения.

На полу в гостиной лежал в темно-голубой ковролин.

Темно-голубой цвет в данном доме был в фаворитах, где мы его только не видели.

Выбор мы делали между темно-голубым и ярко-синим цветом.

Всем удачи.

Паронимы — определение, классификация, примеры

Паронимы — определение, классификация, примеры

Словарь паронимов русского языка

Определение

Паронимы (от греч. para «возле, рядом» + onyma «имя») — слова, схожие по звучанию, близкие по произношению, лексико-грамматической принадлежности и по родству корней, но имеющие разное значение. Паронимы в большинстве случаев относятся к одной части речи. Например: одеть и надеть, абонент и абонемент, мудреть и мудрить. Иногда паронимы также называют ложными братьями.

Паронимов в современном русском языке насчитывается сравнительно немного (О. В. Вишняковой составлено около 1000 паронимических рядов), но их роль нельзя недооценивать, необходимо верно понимать значение и смысл слов из паронимической пары, чтобы избегать речевых ошибок. Лексические значения компонентов пары всегда разграничены, нельзя заменять любой пароним его парным компонентом. Ошибочная взаимозамена делает контекст бессмысленным или относящимся к иной предметной области. Паронимы можно встретить в разговорной речи, художественной литературе, поэзии, научных журналах.

Морфологическое деление

Выделяют три группы паронимов.

Суффиксальные паронимы
Образованы с помощью суффиксов -н-/-лив-, -чат-/-очн-, -ат-/-аст- и друхих. Самая большая и активно пополняемая группа паронимов. Большая часть паронимов из этой группы относится к прилагательным, образованных суффиксами -ическ-/-ичн-, -еск-/-н-.
Примеры: зри́тельский и зри́тельный, изобрета́тельный и изобрета́тельский, цвета́стый и цвети́стый.
Префиксальные паронимы
Образуются за счёт присоединения к корню созвучных префиксов: о-/от-, по-/про- и других. Образованные однокорневые созвучные слова имеют ударение на том же слоге.
Примеры: опеча́тать и отпеча́тать, поглоти́ть и проглоти́ть, опи́ски и отпи́ски.
Корневые паронимы
Созвучные слова, имеющие различные корни. Отсутствует семантическая связь. Незначительная по численности группа паронимов, главным образом состоящая из существительных.
Примеры: вака́нсия и вака́ция, неве́жа и неве́жда, моро́женый и моро́зный.

Лексико-семантическое деление

Корневые паронимы
Разные корни, общая семантическая связь отсутствует, сходство случайное.
Пример: экскаватор и эскалатор.
Аффиксальные паронимы
Общий корень, но разные созвучные аффиксы (приставки, суффиксы).
Пример: экономический и экономный.
Этимологические паронимы
Внимание уделяется происхождению слов. В группу входят одни и те же слова, заимствованные из разных близкородственных языков, многократно заимствованных в разных значениях, сформированных под влиянием народной этимологии.
Пример: ординарный и одинарный.

Примеры паронимов

Наш словарь paronymonline.ru содержит примеры паронимов. Они сгруппированы по буквам, с которых начинаются, и по частям речи. Для просмотра примеров выберите часть речи или букву в алфавитном указателе.

(PDF) Изучение подобия предложений посредством лексической декомпозиции и композиции

3.4 Функция оценки подобия

Функция оценки подобия f

sim

в уравнении. (4)

предсказывает оценку сходства, принимая в качестве входных данных два вектора признаков. Мы используем линейную функцию для суммирования

всех функций и применяем сигмовидную функцию к

, чтобы ограничить подобие в пределах диапазона [0, 1].

3.5 Обучение

Мы обучаем нашу подобную модель предложения, максимизируя вероятность на обучающей выборке.Каждый обучающий экземпляр

в обучающем наборе представлен как тройка

(S

i

, T

i

, L

i

), где S

i

и T

i

— это пара предложений,

и L

i

∈ {0, 1} указывает на сходство между ними

. Мы присваиваем L

i

= 1, если T

i

является перефразированием S

i

для задачи определения перефразирования, или T

i

является правильным ответом

для S

i

для выбора предложения ответа

задача.В противном случае мы присваиваем L

i

= 0. Мы реализуем

математических выражений с помощью Theano (Bastien

et al., 2012) и используем Adam (Kingma and Ba, 2014)

для оптимизации.

4 Эксперимент

4.1 Экспериментальная установка

Мы оцениваем нашу модель по двум задачам: выбор отправителя ответа

и идентификация перефразирования. Задача выбора предложения ответа

состоит в том, чтобы ранжировать список из

ответов кандидата на основе их сходства с предложением вопроса

, а эффективность измеряется

с помощью средней средней точности (MAP) и среднего получателя —

rocal rank (MRR).Мы экспериментируем с двумя наборами данных:

,

QASent и WikiQA. Таблица 2 суммирует статистику —

тиков двух наборов данных, где QASent (Wang et al.,

,

и др., 2007) был создан из трека QA TREC,

и WikiQA (Ян и др., 2015) построен из

.

реальных запроса Bing и Википедии. Задача идентификации фраз из параграфа

состоит в том, чтобы определить, являются ли два предложения

пересказами на основе сходства между ними

. Метрики включают точность

и положительный результат класса F

1

.Мы экспериментируем с

в корпусе Microsoft Research Paraphrase (MSRP)

(Dolan et al., 2004), который включает 2753 истинных и

1323 ложных экземпляра в обучающей выборке, а также 1147

истинных и 578 ложных экземпляров в обучающем наборе. набор тестов. Мы строим

набор разработки, случайным образом выбирая 100 истинных

и 100 ложных экземпляров из обучающего набора. Во всех экспериментах

мы устанавливали размер вектора слова dimen-

sion как d = 300 и предварительно обучили векторы с

Set Questions QA Pairs

QASent

train 1,229 53,417

dev 65 1,117

test 68 1,442

WikiQA

train 2,118 20,360

dev 296 2,733

test 633 6,165

Таблица 2: Статистика наборов данных для выбора предложений ответа.

набор инструментов word2vec (Миколов и др., 2013) на En-

glish Gigaword (LDC2011T07).

4.2 Свойства модели

В нашей модели есть несколько альтернативных вариантов,

, например, функции семантического сопоставления, операции разложения

и типы фильтров. Выбор

из этих опций может повлиять на конечную производительность.

В этом подразделе мы представляем некоторые эксперименты для

, демонстрирующие свойства нашей модели и находим хорошую конфигурацию

, которую мы используем для оценки нашей окончательной модели

. Все эксперименты в этом подразделе были

, выполненными на наборе данных QASent и оцененными на

наборе для разработки.

Сначала мы оценили эффективность различных функций мантического сопоставления. Мы переключили функции сопоставления seman-

на {max, global, local-

l}, где l ∈ {1, 2, 3, 4}, и зафиксировали другие параметры

как: линейное разложение, Типы фильтров включают

{униграмма, биграмма, триграмма} и 500 фильтров по

каждого типа.На рисунке 2 представлены результаты. Мы обнаружили, что функция

работает лучше, чем глобальная функция

как для MAP, так и для MRR. За счет увеличения размера окна

функция local-l получила ряд улучшений, когда размер окна меньше

, чем 4. Но после того, как мы увеличили размер окна до

4, производительность упала. Функция local-3

работала лучше, чем функция max в терминах

MAP, а также получила сопоставимый MRR.Следовательно,

мы используем функцию local-3 в следующих экспериментах:

.

Во-вторых, мы изучили влияние различных операций разложения

позиции. Мы варьировали операцию разложения

на {жесткую, линейную, ортогональную}, а

оставили другие параметры неизменными. На рисунке 3 показана производительность

. Мы обнаружили, что жесткая операция

дала худший результат. Это разумно, потому что

Основанный на грамматике алгоритм семантического сходства для предложений естественного языка

В этой статье представлен алгоритм подобия на основе грамматики и семантического корпуса для предложений естественного языка.Естественный язык, в отличие от «искусственного языка», такого как языки компьютерного программирования, — это язык, используемый широкой публикой для повседневного общения. Традиционные подходы к поиску информации, такие как векторные модели, LSA, HAL, или даже подходы на основе онтологий, которые расширяются и включают сравнение сходства понятий вместо совпадения терминов / слов, не всегда могут определять идеальное соответствие, пока нет очевидной связи или концепции. перекрываются между двумя предложениями на естественном языке.В этой статье предлагается алгоритм подобия предложений, который использует онтологию на основе корпуса и грамматические правила для преодоления решаемых проблем. Эксперименты на двух известных тестах показывают, что предложенный алгоритм имеет значительное улучшение производительности в предложениях / коротких текстах с произвольным синтаксисом и структурой.

1. Введение

Естественный язык, термин, противоположный искусственному языку, — это язык, используемый широкой публикой для повседневного общения.Искусственный язык часто характеризуется самостоятельно созданными словарями, строгой грамматикой и ограниченным идеографическим диапазоном и, следовательно, относится к лингвистической категории, к которой труднее привыкнуть, но не сложно освоить широкой публикой. Естественный язык неотделим от всей социальной культуры и постоянно меняется с течением времени; люди могут легко развить чувство этого первого языка во время взросления. Кроме того, синтаксическая и семантическая гибкость естественного языка позволяет этому типу языка быть естественным для людей.Однако из-за бесконечных исключений, изменений и указаний естественный язык также становится типом языка, который труднее всего освоить.

Обработка естественного языка (NLP) изучает, как позволить компьютеру обрабатывать и понимать язык, используемый людьми в их повседневной жизни, понимать человеческие знания и общаться с людьми на естественном языке. Приложения НЛП включают поиск информации (IR), извлечение знаний, системы вопросов и ответов (QA), категоризацию текста, машинный перевод, помощь в написании, идентификацию голоса, композицию и так далее.Развитие Интернета и массовое производство цифровых документов привело к острой необходимости в интеллектуальной обработке текста, и поэтому теория, а также навыки НЛП стали более важными.

Традиционно методы обнаружения сходства между текстами сосредоточены на разработке моделей документов. В последние годы было создано несколько типов моделей документов, таких как логическая модель, векторная модель и статистическая вероятностная модель.Булевская модель обеспечивает охват ключевых слов с помощью пересечения и объединения множеств. Логический алгоритм склонен к неправильному использованию, и поэтому метод поиска, приближенный к естественному языку, является направлением для дальнейшего улучшения. Солтон и Леск впервые предложили поисковую систему модели векторного пространства (VSM) [1–3], которая была не только методом двоичного сравнения. Основной вклад этого метода заключался в предложении концепций частичного сравнения и подобия, чтобы система могла вычислять сходство между документом и запросом на основе различных весов терминов индекса и в дальнейшем выводить результат ранжирования поиска.Что касается актуализации векторной модели, запросы и документы первых пользователей в базе данных должны быть преобразованы в векторы в том же измерении. Хотя и документы, и запросы представлены одним и тем же измерением векторного пространства, наиболее распространенной оценкой семантического сходства в многомерном пространстве является вычисление сходства между двумя векторами с использованием косинуса, значение которого должно находиться в диапазоне от 0 до 1. В целом, К преимуществам модели векторного пространства можно отнести следующее. (1) При заданных весах VSM может лучше выбирать характеристики, а эффективность поиска в значительной степени улучшается по сравнению с булевой моделью.(2) VSM предоставляет механизм частичного сравнения, который позволяет находить документы с наиболее похожим распределением. Wu et al. представить систему поиска FAQ на основе VSM. Элементы вектора состоят из сегмента категории вопроса и сегмента ключевого слова [4]. Мера сходства документов на основе фраз предложена Чимом и Денгом [5]. В [5] взвешенные фазы TF-IDF в суффиксном дереве [6, 7] отображаются в многомерное пространство терминов VSM. Совсем недавно Ли и др. [8] представили новую меру вычисления сходства предложений.Их мера, учитывающая семантическую информацию и порядок слов, которая показала хорошие результаты при измерении, в основном представляет собой модель на основе VSM.

В последние годы в области приложений НЛП постепенно возникла потребность в методе семантического анализа более коротких документов или предложений [9]. Что касается приложений в интеллектуальном анализе текста, метод семантического анализа коротких текстов / предложений также может применяться в базах данных в качестве определенного стандарта оценки для поиска неоткрытых знаний [10].Кроме того, метод семантического анализа коротких текстов / предложений может быть использован в других областях, таких как реферирование текста [11], категоризация текста [12] и машинный перевод [13]. Недавно в разрабатываемой концепции подчеркивается, что сходство между текстами — это «скрытый семантический анализ (LSA), который основан на статистических данных лексики в большом корпусе». LSA и гиперпространственный аналог языка (HAL) являются известными корпусными алгоритмами [14–16]. LSA, также известная как латентно-семантическое индексирование (LSI), представляет собой полностью автоматический математический / статистический метод, который анализирует большой корпус текста на естественном языке и представление сходства слов и отрывков текста.В LSA группа терминов, представляющих статью, была извлечена путем оценки из множества контекстов, и была построена матрица термин-документ для описания частоты встречаемости терминов в документах. Пусть будет матрица термин-документ, где element () обычно описывает вес термина TF-IDF в документе. Затем матрица, представляющая товар, делится методом разложения по сингулярным числам (SVD) на три матрицы, включая диагональную матрицу SVD [15]. Посредством процедуры SVD можно исключить меньшие сингулярные значения, а также уменьшить размер диагональной матрицы.Размерность слагаемых, включенных в исходную матрицу, может быть уменьшена путем реконструкции SVD. Посредством процессов декомпозиции и реконструкции LSA может получить сведения о терминах, выраженных в статье. Когда LSA применяется для вычисления сходства между текстами, вектор каждого текста преобразуется в пространство уменьшенной размерности, в то время как сходство между двумя текстами получается путем вычисления двух векторов уменьшенной размерности [14].Разница между векторной моделью и LSA заключается в том, что LSA преобразует термины и документы в скрытое семантическое пространство и устраняет некоторый шум в исходном векторном пространстве.

Одной из стандартных вероятностных моделей LSA является вероятностный скрытый семантический анализ (PLSA), который также известен как вероятностное скрытое семантическое индексирование (PLSI) [17]. PLSA использует смешанную декомпозицию для моделирования слов и документов совпадения, где вероятности получаются выпуклой комбинацией аспектов.LSA и PLSA широко применяются в системах обработки информации и других приложениях [18–24].

Другое важное исследование, основанное на корпусе, — это гиперпространственный аналог языка (HAL) [25]. HAL и LSA имеют очень похожие атрибуты: они оба используют параллельные словари для извлечения значения термина. В отличие от LSA, HAL использует абзац или документ как часть документа для создания информационной матрицы термина. HAL устанавливает оконную матрицу общего термина в качестве основы и сдвигает ширину окна, не выходя за пределы исходного определения оконной матрицы.Окно просматривает весь корпус, используя термины как ширину окна терминов (обычно ширину 10 терминов), и далее формирует матрицу. Когда окно сдвигается и сканирует документы во всем корпусе, элементы в матрице могут записывать вес каждого общего термина (количество вхождений / частота). Размерный вектор термина может быть получен путем объединения строк и строк матрицы, соответствующей термину, а сходство между двумя текстами может быть вычислено с помощью приблизительного евклидова расстояния.Однако при расчете коротких текстов HAL дает менее удовлетворительные результаты, чем LSA.

В заключение, вышеупомянутые подходы вычисляют сходство на основе количества общих терминов в статьях, а не игнорируют синтаксическую структуру предложений. Если применить обычные методы для вычисления сходства между короткими текстами / предложениями напрямую, могут возникнуть некоторые недостатки. (1) Традиционные методы предполагают, что документ имеет сотни или тысячи измерений, переводя короткие тексты / предложения в очень большие размеры. пространство и очень разреженные векторы могут привести к менее точному результату вычислений.(2) Алгоритмы, основанные на общих терминах, подходят для поиска средних и более длинных текстов, которые содержат больше информации. Напротив, информация об общих терминах в коротких текстах или предложениях редка и даже недоступна. Это может привести к тому, что система будет генерировать очень низкую оценку семантического сходства, и этот результат не может быть скорректирован с помощью общей функции сглаживания. (3) Стоп-слова обычно не принимаются во внимание при индексировании обычных IR-систем. Стоп-слова не имеют особого значения при вычислении сходства между более длинными текстами.Однако они являются неизбежными частями в отношении сходства между предложениями, поскольку они предоставляют информацию о структуре предложений, которая в определенной степени влияет на объяснение значений предложений. (4) Подобные предложения могут состоять из синонимов; обильные общие термины не нужны. Текущие исследования оценивают сходство в соответствии с совпадающими терминами в текстах и ​​игнорируют синтаксическую информацию. Предлагаемый алгоритм семантического сходства устраняет ограничения этих существующих подходов за счет использования грамматических правил и онтологии WordNet.Набор грамматических матриц создан для представления отношений между парами предложений. Размер набора ограничен максимальным количеством выбранных грамматических ссылок. Скрытая семантика слов рассчитывается с помощью меры сходства WordNet. Остальная часть этой статьи организована следующим образом. Раздел 2 знакомит с соответствующими технологиями, принятыми в нашем алгоритме. Раздел 3 описывает предлагаемый алгоритм и основные функции. В разделе 4 приведены некоторые примеры, иллюстрирующие наш метод. Результаты экспериментов на двух известных тестах показаны в Разделе 5, а окончательный вывод дает заключение.

2. Справочная информация
2.1. Онтология и WordNet

Проблема семантической осведомленности среди текстов / естественных языков все чаще указывает на технологии семантической паутины в целом и онтологию в частности в качестве решения. Онтология — это философская теория о природе бытия. Исследователи искусственного интеллекта, особенно в области получения и представления знаний, реинкарнируют термин, чтобы выразить « общее и общее понимание некоторой области, которая может передаваться между людьми и прикладными системами » [26, 27].Типичная онтология — это таксономия, определяющая классы в определенной области и их отношения, а также набор правил вывода, обеспечивающих ее функции рассуждений [28]. Онтология теперь признана в семантическом веб-сообществе как термин, который относится к общему пониманию знаний в некоторых областях, представляющих интерес [29–31], которое часто понимается как набор понятий, отношений, функций, аксиом и примеров. Гуарино провел всестороннее исследование для определения онтологии из различных высоко цитируемых работ в сообществе обмена знаниями [32–37].Семантическая сеть — это развивающееся расширение Всемирной паутины, в которой веб-контент может быть выражен на естественных языках и в форме, понятной, интерпретируемой и используемой программными агентами. Элементы семантической сети выражаются в формальных спецификациях, которые включают структуру описания ресурсов [38], различные форматы обмена данными (такие как RDF / XML, N3, Turtle и N-Triples) [39, 40] и такие нотации, как язык веб-онтологий [41] и схема RDF.

В последние годы WordNet [42] стал наиболее широко используемой лексической онтологией английского языка.WordNet был разработан и поддерживается Лабораторией когнитивных наук Принстонского университета в 1990-х годах. Существительные, глаголы, прилагательные и наречия сгруппированы в когнитивные синонимы, называемые «синсеты», и каждый синоним выражает отдельное понятие. Как обычный онлайн-словарь, WordNet перечисляет предметы вместе с объяснениями в алфавитном порядке. Кроме того, он также показывает семантические отношения между словами и понятиями. Последняя версия WordNet — 3.0, которая содержит более 150 000 слов и 110 000 синсетов.В WordNet лексикализованные синсеты существительных и глаголов организованы иерархически с помощью гиперонима / гипернимии и гипонима / гипонимии. Гипонимы — это концепции, которые описывают вещи более конкретно, а гиперонимы относятся к концепциям, которые описывают вещи в более общем плане. Другими словами, это гипероним if every — это разновидность, и гипоним if every — разновидность. Например, птица является гипонимом позвоночное животное , а позвоночное животное является гиперонимом птица .Иерархия понятий WordNet превратилась в полезную основу для открытия и извлечения знаний [43–49]. В этом исследовании мы используем меру сходства Ву и Палмера [50], которая стала своего рода стандартом для измерения сходства между словами в лексической онтологии. Как показано в где — глубина самого нижнего общего гиперонима () в лексической таксономии, и обозначает количество переходов от до и, соответственно.

2.2. Грамматика ссылок

Грамматика ссылок (LG) [51], разработанная Дэви Темперли, Джоном Лафферти и Дэниелом Слейтором, представляет собой синтаксический синтаксический анализатор английского языка, который строит отношения между парами слов.Для данного предложения LG создает соответствующую синтаксическую структуру, которая состоит из набора помеченных ссылок, соединяющих пары слов. Последняя версия LG также создает «составное представление» (дерево фраз в стиле банка Пенна) предложения (словосочетания с существительными, словосочетания с глаголами и т. Д.). Парсер использует словарь из более чем 6000 словоформ и охватывает широкий спектр синтаксических конструкций. LG в настоящее время поддерживается под эгидой проекта Abiword [52]. Основная идея LG — рассматривать слова как блоки с соединителями, которые образуют отношения, или называемые ссылками.Эти ссылки используются не только для определения части речи слов, но и для подробного описания функций этих слов в предложении. LG может объяснить отношения модификации между различными частями речи и рассматривает предложение как последовательность слов и состоит из набора помеченных связей, соединяющих пары слов. Все слова в словаре LG были определены для описания того, как они используются в предложениях, и такая система называется «лексической системой».

Лексическая система может легко построить большую грамматическую структуру, поскольку изменение определения слова влияет только на грамматику предложения, в котором это слово находится.Кроме того, выразить грамматику неправильных глаголов просто, поскольку система определяет каждый из них индивидуально. Что касается грамматики различных структур фраз, связи, которые являются гладкими и соответствуют семантической структуре, могут быть установлены для каждого слова, используя слова грамматики ссылок для анализа грамматики предложения.

Все созданные связи между словами подчиняются трем основным правилам [51]. (1) Планарность: связи не пересекаются друг с другом. (2) Связность: ссылок достаточно, чтобы соединить все слова последовательности вместе.(3) Удовлетворение: ссылки удовлетворяют требованиям связывания каждого слова в последовательности.

В предложении « канадские официальные лица согласились провести дополнительные упражнения по реагированию на угрозы .», Например, есть ссылки AN , соединяющие модификаторы существительного « официальный » с существительным « канадский, » «» упражнение »на« ответ, »и« упражнение »на« угроза », как показано на рисунке 1. Основные слова отмечены« .n »,« .v »,« .a »для обозначения существительных, глаголов и прилагательных. Ссылка A соединяет предыстительные (атрибутивные) прилагательные с существительными. Ссылка D соединяет определители с существительными. Есть много слов, которые могут действовать как определители или словосочетания, такие как « a » (помечены как « Ds »), « many » (« DmC ») и « some ». (« Dm »), и каждый из них соответствует подтипу типа связи D .Ссылка O соединяет переходные глаголы с прямыми или косвенными объектами, в которых Os является подтипом O , который соединяет существительные как единственное число. PP связывает формы «иметь» с причастиями прошедшего времени (« согласовали »), Sp — это подтип S , который связывает множественное число существительных с формами множественного числа глаголов ( S связывает подлежащие-существительные с конечными глаголами. ), и так далее.


Этот простой пример показывает, что связи подразумевают определенную степень семантических корреляций в предложении.LG определяет более 100 ссылок; однако в нашем дизайне семантическое сходство извлекается из специально разработанной матрицы связей и оценивается с помощью меры сходства WordNet; таким образом, зарезервированы только соединительные элементы, содержащие неспецифические существительные и глаголы. Другие ссылки, такие как AL (который связывает несколько определителей со следующими определителями, такими как « и » и « все ») и EC (который связывает наречия и сравнительные прилагательные, например « много более ”), игнорируются.

3. Алгоритм грамматического семантического сходства

В этом разделе подробно показан предлагаемый алгоритм грамматического сходства. Этот алгоритм может быть подключаемым модулем обычных английских систем обработки естественного языка и экспертных систем. Наш подход получает сходство из семантической и синтаксической информации, содержащейся в сравниваемых предложениях естественного языка. Предложение на естественном языке рассматривается как последовательность ссылок вместо отдельных слов, каждое из которых содержит определенное значение.В отличие от существующих подходов, использующих фиксированный набор терминов из словаря, совпадающих терминов [1–3] или даже порядков слов [8], предлагаемый подход напрямую извлекает скрытую семантику из одних и тех же или похожих ссылок.

3.1. Типы ссылок

Предлагаемый алгоритм определяет схожесть двух предложений естественного языка на основе грамматической информации и семантическое сходство слов, содержащихся в ссылках. В таблице 1 показаны выбранные ссылки, подтипы ссылок и соответствующие описания, используемые в нашем подходе.Первый столбец — это выбранные основные типы связи LG . Во втором столбце показаны выбранные подтипы основных типов ссылок. Если были выбраны все подтипы конкретной ссылки, она обозначается «*». Пунктирная линия указывает на то, что ни один подтип не выбран или не существует. Этот метод разделен на три функции. Первая часть — это извлечение типа связывания. Алгоритм 1 принимает предложение и набор выбранных типов связывания и возвращает набор оставшихся типов связывания и соответствующую информацию для каждой ссылки.Это этап предварительной обработки; элементы возвращенного набора — это структуры, которые записывают ссылки, подтипы ссылок, а также существительные или глаголы каждой ссылки.

существительное 9037 переходные глаголы к существительным, местоимениям и словам, которые могут действовать как существительные-фразы или заголовки существительных-фраз, такие как « сказал ему », « видел его ».

Ссылки Подтипы Описания

соединяет такие прилагательные, как еда « черная собака ».

связывает существительные-модификаторы (существительное в единственном числе) с существительными, например « тост с беконом » и « паста с морепродуктами ».


связывает существительное с глаголом в ограничительных относительных придаточных предложениях и используется для обеспечения согласования существительного и глагола в относительных придаточных предложениях подлежащего типа (относительные придаточные предложения без «,»), например как « Он увидит своего сына, который живет в Нью-Йорке ».
используется для слов «* когда-либо », например « независимо от » и « кто угодно, ».
используется для вопросов объектного типа с такими словами, как « which », « what », « who, » и т. Д.

соединяет определители с существительными, соединяет определители единственного числа, такие как « a », « one », с существительными, например « a cat », « one month». »
связывает множественные определители, такие как« некоторый »,« много », со счетными существительными.
связывает определители массы с бесчисленными существительными.

используется для соединения определенных определителей, таких как « the », « his », « my », с числовыми выражениями и прилагательными, действующими как существительные, например, « две мои сестры ».

используется для соединения « the » с именами собственными. выражения времени, такие как « на прошлой неделе, » и « в этот вторник, ». соединяют такие выражения времени, как « следующий », « последний, », с существительными.
связывает выражения времени, такие как « это »,« каждые »на существительные, например« каждое воскресенье ».

связывает выражения, в которых имена собственные представлены существительным нарицательным, например « знаменитый физик Эдвард Виттен ».

связывает предлоги с их объектами. Существительные собственные, нарицательные, местоимения винительного падежа и слова, которые могут действовать как словосочетания, имеют ссылку «».

связывает предлоги, такие как « из » и « вместо », с именами собственными, такими как « WIN7 Microsoft ».

связывает существительные с постноминальными модификаторами, такими как предложные фразы, модификаторы причастия, предлогальные родственники и притяжательные родственники, в которых работает в предложных фразах, модифицирующих существительные.

позволяет некоторым предлогам изменять имена собственные, например, приведенное выше предложение.

связывает существительные с модификаторами постноминальных существительных, окруженных запятыми, например, « учитель , who …»

используется для соединения существительных с относительными придаточными предложениями, такими как « Человек, который …».

связывает подлежащие существительные с конечными глаголами. Подтип соединяет слова существительных единственного числа с глаголами единственного числа, например « Она очень хорошо поет, ».
связывает множественное число существительных с формами множественного числа глаголов, например: « Обезьяны съели эти яблоки. »
используется для вопросительных слов, которые действуют как словосочетания-существительные в предметных вопросах, например« Кто там. »

используется в инверсии подлежащее-глагол, например« Какой из них вы хотите. »

используется с существительными, которые одновременно удовлетворяют требованию определителя и требованию субъекта-объекта, например« Мы проверяем это в час. »

соединяет фразы« , когда »с временными существительными, такими как« В этом месяце, когда я был в Тайбэе

72… »
соединяет формы множественного числа существительных, оканчивающиеся на « s », с «», например, « Родители учащихся. »

INPUT :, / * — входное предложение и набор выбранных типов связывания * /
OUTPUT :
(1) link_grammar 378 () (2) ДЛЯ ВСЕХ DO
(3) IF . тип THEN
(4)
(5) END IF
(6) END FOR

После предварительной обработки алгоритм 2 вычисляет показатель семантического сходства входных предложений. Алгоритм принимает два предложения и набор выбранных типов ссылок и возвращает показатель семантического сходства, который формализован до 0 ~ 1.В алгоритме 2 строки 1 и 2 вызывают алгоритм 1 для записи ссылок и информации слов предложений и в наборах и. Если, это означает, что существуют некоторые общие или похожие связи между и, которые можно рассматривать как корреляции фраз между двумя предложениями. В нашем проекте общие основные ссылки с похожими подтипами образуют матрицу с именем Grammar_Matrix ( GM ). Каждый GM подразумевает определенную степень корреляции между фразами; значение каждого члена в GM вычисляется с помощью алгоритма Ву и Палмера.Алгоритм 3 отображает детали процесса оценки. В алгоритме 3 GM был составлен из общих ссылок. Поскольку количество подтипов варьируется от каждой ссылки, мы устанавливаем ссылки с меньшим количеством подтипов в качестве строк, а другие в качестве столбцов. Для каждой строки был зарезервирован максимальный термин, который составляет Grammar_Vector ( GV ), который представляет максимальное семантическое включение конкретной связи между и.

INPUT :,, / * наборы отношений предложений A , B * /
OUTPUT :
LinkingTypes (,)
(2) LinkingTypes (,)
(3) ДЛЯ ВСЕХ . тип . тип DO
(4) + GrammarMatrix (·, ·)
(5) КОНЕЦ ДЛЯ
(7) ВОЗВРАТ
) КОНЕЦ ДЛЯ Pow ()
INPUT :, / * наборы вложенных отношений предложений A , B OUTPUT : / * элементы вектора грамматики предложений A , B в типе связывания i * /
(1) COL MAX (,)
(2) РЯД МИН (,)
(3) ДЛЯ ВСЕХ COL DO
(4) ДЛЯ ВСЕХ 1 РЯД DO
(5) MAX ([ x ], Wu_Palmer (,))
(6) КОНЕЦ ДЛЯ
(8) ДЛЯ 0 К
(9) +
(10) КОНЕЦ ДЛЯ
(12) ВОЗВРАТ

На рисунке 2 показана структура GMs и G и сравниваются первые предложения общая ссылка и, и так далее, являются подтипами и.Каждый GM представляет собой корреляцию определенных фраз, поскольку в предложении может существовать несколько похожих подссылок, в которых соответствующий GV количественно определяет информацию и извлекает скрытую семантику между этими фразами. Алгоритм 1 вызывает функцию LG и создает связи, как показано на рисунках 3, 4 и 5.





3.2. Работа с примером

В этом разделе дается пример, демонстрирующий предложенный алгоритм подобия.Пусть A = « Выручка в первом квартале года упала на 15 процентов по сравнению с тем же периодом годом ранее. », B = « Со скандалом, нависшим над компанией Стюарта, выручка за первый квартал года упала на 15 процентов по сравнению с тем же периодом годом ранее. », и C . Результатом является общий пакет, который обеспечит значительный экономический рост для наших сотрудников в течение следующих четырех лет ». Этот пример взят из Microsoft Research Paraphrase Corpus (MRPC) [53], который будет представлен более подробно в следующем разделе.В этом примере мы сравниваем семантическое сходство между A-B , A-C и B-C . Алгоритм 1 сначала генерирует соответствующие связи для каждого предложения, и результаты показаны на рисунках 3–5. Всего имеется 17, 26 и 20 исходных ссылок, созданных LG . После этапа предварительной обработки оставшиеся связи (подробная структура данных здесь опущена), и, соответственно. В алгоритме 2 сравниваемая пара предложений была отправлена ​​в матрицу грамматики (т.е., алгоритм 3) в соответствии с их общими типами связывания, и каждый тип связывания со своими подтипами образует Grammar_Matrix . Таблицы 2, 3 и 4 показывают GMs и их дословное сходство пар A-B , A-C и B-C . В таблице 2 типы связи: Wd , S , Mp , D и J ; следовательно, в паре A-B имеется пять GM . Первый GM представляет собой матрицу с и, второй GM также является матрицей с и, третий GM представляет собой матрицу с и, четвертый GM представляет собой матрицу с и и т. Д.На шаге 5 алгоритма 3 мы оцениваем сходство отдельных слов с помощью онтологии WordNet и метода Wu & Palmer . Результаты также показаны в таблицах 2–4. На этом этапе оценивается вся возможная семантика между похожими ссылками, и очевидно, что слово может быть связано дважды или даже больше в общем случае. Следующая фаза сокращает каждый GM до Grammar_Vector ( GV ), сохраняя максимальное значение каждой строки. Таким образом, в паре A-B ,,,, и.В паре A-C ,,, и,, и в паре B-C . На заключительном этапе все элементы ГВ принимают число мощности элементов для уравновешивания эффектов неоцененных подтипов. Окончательные оценки A против B = 0,987, A против C = 0,817 и B против C = 0,651 соответственно.

9037- 9038 —2727272727


доход от доход-
упал
доход-
из
с
скандал
9037 9037 9037 90-90 —
период
the-
скандал
‘s-
компания
the-
период

выручка 1-9037

выручка-
упала
1

выручка — вход 1 — 9037
квартал 0.33
период ранее 0,33 — 0,33 — 0,33 — 0,33 — 0,33 —

внутри квартала 0,3883 0,91
начальный период 0,33 0,33 0,36 0,9
годовой 0,31 0,77 1 0,91
квартал 0.33 0,67 0,91
годовой
0,31
0,31
0,31
0,31

год
9 0382 0.31 903855

результат для сотрудников дополнительные годы результат ан-пакет

31

внутри квартала — начальный период 0,18 0,91
год 0,22 0,9
квартал 0.4 0,4
годовой 0,33 0,55


Подтипы и слова с-
скандал
над-
компания
из-
год
из-
период
the-
скандал
‘s-
компания

период

результат

для сотрудников 0,22 0,11
старше 0,31 0,33 0,991

результат 0,5 0,33
an-package 0,33 0,55 0,4

4. Эксперименты
4.1. Эксперимент с тестом Li’s Benchmark

Основываясь на понятии семантической и синтаксической информации, способствовавшей пониманию предложений естественного языка, Li et al. [8] определили меру сходства предложений как линейную комбинацию, основанную на сходстве семантического вектора и порядка слов. Предварительный набор данных был построен Ли и др. с оценками человеческого сходства, предоставленными 32 добровольцами, которые являются носителями английского языка.В наборе данных Ли использовалось 65 пар слов, которые первоначально были предоставлены Рубенштейном и Гуденафом [60] и были заменены определениями из словаря Collins Cobuild [61]. Словарь Collins Cobuild был построен на основе большого корпуса, содержащего более 400 миллионов слов. Каждая пара была оценена по шкале от 0,0 до 4,0 в соответствии с их смысловым сходством. Мы использовали подмножество из 65 пар, чтобы получить более равномерное распределение по диапазону сходства. Это подмножество содержит 30 пар из исходных 65 пар, из которых 10 пар были взяты из диапазона 3 ~ 4, 10 пар из диапазона 1 ~ 3 и 10 пар из диапазона 0 ~ 1.Мы перечисляем полный набор данных Ли в Таблице 7. Таблица 5 показывает оценки человеческого сходства вместе с Ли и др. [8], подход на основе LSA, описанный O’Shea et al. [54], STS Meth. предложенный Islam и Inkpen [55], SyMSS, основанная на синтаксисе мера, предложенная Oliva et al. [56], Омиотис, предложенный Цацаронисом и соавт. [57], и наша семантическая мера, основанная на грамматике. Результаты показывают, что наш подход, основанный на грамматике, обеспечивает лучшую производительность в парах предложений с низким и средним сходством (уровни 0 ~ 1 и 1 ~ 3).Среднее отклонение от человеческих суждений на уровне 0 ~ 1 составляет 0,2, что лучше, чем у большинства подходов. (Ли и др. Среднее значение = 0,356, среднее значение LSA = 0,496 и среднее значение SyMSS = 0,266). Среднее отклонение на уровне 1 ~ 3 составляет 0,208, что также лучше, чем у Li et al. и LSA. Результат показывает, что наша мера семантического сходства на основе грамматики достигла достаточно хороших результатов, и наблюдение состоит в том, что наш подход пытается идентифицировать и количественно оценить потенциальную семантическую связь между синтаксисами и словами, хотя общих слов сравниваемых пар предложений мало или даже никто.

903 90366 Эксперимент с Microsoft Research Paraphrase Corpus

Для дальнейшей оценки производительности предложенного подхода на основе грамматики с большим набором данных мы используем Microsoft Research Paraphrase Corpus [53].Этот набор данных состоит из 5801 пары предложений, включая 4076 обучающих пар и 1725 тестовых пар, собранных из тысяч источников новостей в Интернете за 18 месяцев. Каждую пару проверяли 2 человека-судьи, чтобы определить, являются ли два предложения в паре семантически эквивалентными пересказами или нет. Согласие между экспертами между аннотаторами составляет примерно 83%. В этом эксперименте мы используем разные пороги сходства в диапазоне от 0 до 1 с интервалом 0,1, чтобы определить, является ли пара предложений пересказом или нет.Для этой задачи мы вычислили предложенный подход между предложениями каждой пары в обучающей и тестовой выборках и пометили как парафраз только те пары, значение сходства которых превышает заданный порог. В этой статье сравнивается эффективность предложенного подхода, основанного на грамматике, по нескольким категориям: (1) два базовых метода, подход случайного выбора, который помечает каждую пару как парафраз случайным образом, и традиционная мера сходства на основе VSM-косинуса с взвешиванием TF-IDF; (2) корпусные подходы, PMI-IR, предложенный Терни в 2001 году [62], LSA [54], STS Meth.[55], SyMSS (с двумя вариантами: SyMSS_JCN и SyMSS_Vector) [56] и Omiotis [57]; и (3) подходы, основанные на лексике, включая Jiang and Conrath (JC) в 1997 г. [63], Leacock et al. (LC) в 1998 г. [64], Lin (L) в 1998 г. [65], Resnik (R) [66, 67], Lesk (Lesk) [68], Wu and Palmer (W&P) [50] и Mihalcea et al. al. (M) в 2006 г. [69] и (4) подходы на основе машинного обучения, включая Wan et al. в 2006 г. (Ван и др.) [58], Чжан и Патрик в 2005 г. (Z&P) [70] и Qiu et al. в 2006 г. (Qiu et al.) [59], который представляет собой подход, основанный на SVM [71].

Результаты оценки показаны в таблице 6. Эффективность информационно-поисковой системы обычно измеряется двумя величинами и одним комбинированным показателем, называемым степенью «отзыв» и «точность». В этой статье мы оцениваем результаты с точки зрения точности, и соответствующие показатели точности, отзыва и измерения также показаны в таблице 6. Показатели эффективности определяются следующим образом: TP, TN, FP и FN означают истинно положительное (количество пар, правильно помеченных как перефразирование), истинно отрицательное (количество пар, правильно помеченных как непарафразии), ложноположительное (количество пар, неправильно помеченных как перефразирование) и ложноотрицательные (количество пар, ошибочно помеченных как непарафразы) соответственно.Напоминание в этом эксперименте определяется как количество истинно положительных результатов, деленное на общее количество пар, которые фактически принадлежат к положительному классу, точность — это количество истинных положительных результатов, деленное на общее количество пар, помеченных как принадлежащие к положительному классу, точность — это количество истинных результатов (истинно положительный + истинно отрицательный), деленное на количество всех пар, а -measure — это среднее геометрическое значение отзыва и точности. После оценки наилучший порог точности равен 0.6. Результаты показывают, что подход, основанный на грамматике, превосходит все базовые, основанные на лексике и большинство подходов на основе корпусов с точки зрения точности и меры. Мы должны отметить, что результаты каждого из перечисленных выше подходов основывались на наилучшей точности для всех пороговых значений, а не на одном и том же пороге сходства. STS Meth. [55] достигли наилучшей точности 72,64 с порогом сходства 0,6, SyMSS_JCN и SyMSS_Vector были двумя вариантами SyMSS [56], которые достигли наилучшей производительности при пороге сходства 0.45, и, кроме того, лучшие пороги сходства Omiotis [57], Mihalcea et al. [69], случайный выбор и меры сходства на основе VSM-косинуса составляли 0,2, 0,5, 0,5 и 0,5, соответственно. Во всех подходах, основанных на лексике и корпусе, STS Meth. Ссылка [55] получает наилучшую оценку сходства 72,64, и порог подобия 0,6 также является разумным, кроме только STS Meth. В [55] приведены подробные данные о воспроизведении, прецизионности, точности и измеренных значениях с различными пороговыми значениями. Ниже приводится сравнение нашего подхода, основанного на грамматике, с STS Meth.[55] в порогах 0 ~ 1. На рис. 6 показаны кривые зависимости точности от порога подобия для STS Meth. и основанный на грамматике метод для одиннадцати различных пороговых значений сходства. На рисунках 7, 8 и 9 показаны кривые отзыва, точности и -мера в зависимости от порогового значения сходства для STS Meth. и грамматический метод соответственно.


Номер R&G Human Li_McLean LSA STS Meth. SyMSS Omiotis LG

1 0,01 0,33 0,51 0,06 0,29 0.53 0,11 0,28 0,10 0,06
9 0,01 0,21 0,51 0,07 0,27 9037 9037 9037 9037 0,108 0,10 0,53 0,16 0,27 0,30 0,32
17 0,13 0,36 0,58 0,26 0.42 0,30 0,41
21 0,04 0,51 0,53 0,16 0,37 0,24 0,44 0,44
0,53 0,30 0,07
29 0,01 0,34 0,51 0,12 0,31 0,11 0.20
33 0,15 0,59 0,81 0,29 0,43 0,49 0,07
37 0,13 0,13 0,07
41 0,28 0,43 0,58 0,09 0,38 0,11 0,02
47 038235 0,72 0,72 0,30 0,24 0,22 0,25
48 0,36 0,64 0,62 0,34 0,62 0,34 0,34 0,62 0,34 9037 0,29 0,74 0,54 0,15 0,39 0,57 0,38
50 0,47 0,69 0.68 0,49 0,35 0,55 0,07
51 0,14 0,65 0,73 0,28 0,31 0,52 0,31 0,52 0,48 0,70 0,32 0,54 0,60 0,84
53 0,48 0,39 0,83 0,44 0.52 0,5 0,18
54 0,36 0,52 0,61 0,41 0,33 0,43 0,32
0,32
0,33 0,43 0,38
56 0,59 0,76 0,78 0,47 0,43 0,93 0.62
57 0,63 0,7 0,75 0,26 0,50 0,61 0,82
58 0,59 0,59 0,59 0,94
59 0,86 1 1 0,94 1 1 1
60 0,58 0,83 0,6 0,63 0,93 0,89
61 0,52 0,66 0,63 0,29 0,39 0,29 0,39 0,29 0,39 0,73 0,74 0,51 0,75 0,73 0,94
63 0,59 0,64 0,87 0.52 0,78 0,79 0,95
64 0,96 1 1 0,93 1
90

Категория Метрическая Точность Точность Отзыв-Измерение

70.20 95.20 81.00
LSA 68.40 69.70 95.20 80.50
STS Meth. 72,64 74,65 89,13 81,25
SyMSS_JCN 70,87 74.70 84,17 79,0244
Omiotis 69,97 70,78 93,40 80,52

На основе лексики 9037 9037 9037 9037 9037 9037 9037 9037 9037 9037 69,50 72,40 87,00 79,00
Леск 69,30 72,40 86,60 78,90
69.30 71.60 88.70 79.20
W&P 69.00 70.20 92.10 80.00
R 9037 9037 9037 9037 9037 9037 9037 9037 9037 9037 9037 9037 70,30 69,60 97,70 81,30

На основе машинного обучения Wan et al. [58] 75.00 77.00 90.00 83.00
Z&P 71.90 74.30 88.20 80.70
Qiu et al. [59] 72.00 72.50 93.40 81.60

Базовые линии Случайные 51.30 68.30 51.30 68.30 5038240 71.60 79.50 75.30

LG 71.02 73.90 91.07 81,58
Число Пара слов Необработанные предложения Human Sim.

1 шнур: улыбка () Шнур прочный, шнурок толстый.
() Улыбка — это выражение вашего лица, когда вы довольны или веселы, или когда вы ведете себя дружелюбно.
0,0100

2 петух: рейс () Петух — это взрослый цыпленок-самец.
() Путешествие — это долгое путешествие на корабле или в космическом корабле.
0,0050

3 полдень: строка () Полдень — это 12 часов в середине дня.
() Веревка — это тонкая веревка из скрученных ниток, используемая для связывания вещей или связывания свертков.
0,0125

4 плод: печь () Фрукт или фрукт — это то, что растет на дереве или кусте и содержит семена или косточки, покрытые веществом, которое можно есть .
() Печь — это контейнер или замкнутое пространство, в котором разжигается очень горячий огонь, например, для плавления металла, сжигания мусора или производства пара.
0,0475

5 автограф: берег () Автограф — это подпись известного человека, которая специально написана для поклонников.
() Берег моря, озера или широкой реки — это земля вдоль их края.
0,0050

6 автомобиль: волшебник () Автомобиль есть автомобиль.
() В легендах и сказках волшебник — это человек, обладающий магическими способностями.
0,0200

7 курган: печь () Курган чего-то — это большая округлая кучка.
() Печь — это оборудование, которое обеспечивает тепло либо для приготовления пищи, либо для обогрева комнаты.
0,0050

8 ухмылка: орудие (Улыбка — это широкая улыбка.
() Орудие — это инструмент или другое оборудование.
0.0050

9 приют: фрукты () Приют — это психиатрическая больница.
() Плод или плод — это то, что растет на дереве или кусте и содержит семена или косточку, покрытые веществом, которое можно есть.
0,0050

10 приют: монах () Приют — это психиатрическая больница.
() Монах — член мужской религиозной общины, которая обычно отделена от внешнего мира.
0,0375

11 кладбище: сумасшедший дом () Кладбище — это участок земли, иногда возле церкви, где хоронят умерших.
() Если вы описываете место или ситуацию как сумасшедший дом, вы имеете в виду, что оно полно неразберихи и шума.
0,0225

12 стекло: маг () Стекло — это твердое прозрачное вещество, которое используется для изготовления окон и бутылок.
() Маг — это человек, который развлекает людей, выполняя фокусы.
0,0075

13 мальчик: петух () Мальчик — это ребенок, который вырастет и станет мужчиной.
() Петух — взрослый цыпленок-самец.
0,1075

14 подушка: jewel () Подушка — это тканевый футляр, наполненный мягким материалом, который вы кладете на сиденье, чтобы было удобнее.
() Драгоценный камень — это драгоценный камень, которым украшают ценные вещи, которые вы носите, например кольца или ожерелья.
0,0525

15 монах: раб () Монах — член мужского религиозного сообщества, которое обычно отделено от внешнего мира.
() Раб — это тот, кто является собственностью другого человека и должен работать на этого человека.
0,0450

16 приют: кладбище () Приют — это психиатрическая больница.
() Кладбище — это место, где захоронены тела умерших людей или их прах.
0,0375

17 побережье: лес () Побережье — это участок земли, который находится рядом с морем.
() Лес — это большая территория, где деревья растут близко друг к другу.
0,0475

18 ухмылка: парень () Улыбка — это широкая улыбка.
() Парень — это молодой человек или мальчик.
0,0125

19 берег: лесной массив () Берег или берег моря, озера или широкой реки — это земля вдоль ее края.
() Лесная местность — это земля с множеством деревьев.
0,0825

20 монах: оракул () Монах — член мужского религиозного сообщества, которое обычно отделено от внешнего мира.
() В древние времена оракулом был жрец или жрица, который делал заявления о будущих событиях или об истине.
0,1125

21 мальчик: мудрец () Мальчик — это ребенок, который вырастет и станет мужчиной.
() Мудрец — это человек, которого считают очень мудрым.
0,0425

22 автомобиль: подушка () Автомобиль есть автомобиль.
() Подушка — это тканевый чехол, наполненный мягким материалом, который вы кладете на сиденье, чтобы было удобнее.
0,0200

23 курган: берег () Курган чего-то — это большая округлая кучка.
() Берег моря, озера или широкой реки — это земля вдоль их края.
0,0350

24 парень: волшебник () Парень — это молодой человек или мальчик.
() В легендах и сказках волшебник — это человек, обладающий магическими способностями.
0,0325

25 лес: кладбище () Лес — это большая территория, где деревья растут близко друг к другу.
() Кладбище — это участок земли, иногда возле церкви, где хоронят мертвых.
0,0650

26 еда: петух () Еда — это то, что едят люди и животные.
() Петух — взрослый цыпленок-самец.
0.0550

27 кладбище: лесной массив () Кладбище — это место, где захоронены тела умерших или их прах.
() Лесная местность — это земля с множеством деревьев.
0,0375

28 берег: рейс () Берег или берег моря, озера или широкой реки — это земля вдоль ее края.
() Путешествие — это долгое путешествие на корабле или в космическом корабле.
0,0200

29 птица: лесной массив () Птица — это существо с перьями и крыльями, самки откладывают яйца, и большинство птиц умеют летать.
() Лесная местность — это земля с множеством деревьев.
0,0125

30 побережье: холм () Побережье — это участок земли, который находится рядом с морем.
() Холм — это участок земли, который выше земли, которая его окружает.
0,1000

31 печь: орудие () Печь — это контейнер или замкнутое пространство, в котором разжигается очень горячий огонь, например, для плавления металла, сжигания мусора или производства пара .
() Орудие — это инструмент или другое оборудование.
0,0500

32 кран: петух () Кран — это большая машина, которая перемещает тяжелые предметы, поднимая их в воздух.
() Петух — взрослый цыпленок-самец.
0,0200

33 холм: лесной массив () Холм — это участок земли, который выше земли, которая его окружает.
() Лесная местность — это земля с множеством деревьев.
0,1450

34 автомобиль: поездка () Автомобиль — это автомобиль, в котором достаточно места для небольшого количества пассажиров.
() Когда вы путешествуете, вы путешествуете из одного места в другое.
0,0725

35 кладбище: курган () Кладбище — это место, где захоронены тела умерших или их прах.
() Кучка чего-то — это большая округлая кучка.
0,0575

36 стекло: драгоценный камень () Стекло — это твердое прозрачное вещество, которое используется для изготовления таких вещей, как окна и бутылки.
() Драгоценный камень — это драгоценный камень, которым украшают ценные вещи, которые вы носите, например кольца или ожерелья.
0,1075

37 маг: оракул () Маг — это человек, который развлекает людей, выполняя фокусы.
() В древние времена оракулом был жрец или жрица, который делал заявления о будущих событиях или об истине.
0,1300

38 кран: орудие () Кран — это большая машина, которая перемещает тяжелые предметы, поднимая их в воздух.
() Орудие — это инструмент или другое оборудование.
0,1850

39 брат: парень () Ваш брат — мальчик или мужчина, у которого такие же родители, как и вы.
() Парень — это молодой человек или мальчик.
0,1275

40 мудрец: волшебник () Мудрец — это человек, которого считают очень мудрым.
() В легендах и сказках волшебник — это человек, обладающий магическими способностями.
0,1525

41 оракул: мудрец () В древние времена оракулом был священник или жрица, который делал заявления о будущих событиях или об истине.
() Мудрец — это человек, которого считают очень мудрым.
0,2825

42 птица: журавль () Птица — это существо с перьями и крыльями, самки откладывают яйца, и большинство птиц умеют летать.
() Кран — это большая машина, которая перемещает тяжелые предметы, поднимая их в воздух.
0,0350

43 птица: петух () Птица — это существо с перьями и крыльями, самки откладывают яйца, и большинство птиц умеют летать.
() Петух — это взрослый цыпленок-самец.
0,1625

44 еда: фрукты () Еда — это то, что едят люди и животные.
() Плод или плод — это то, что растет на дереве или кусте и содержит семена или косточку, покрытые веществом, которое можно есть.
0,2425

45 брат: монах () Ваш брат — мальчик или мужчина, у которого те же родители, что и вы.
() Монах — член мужской религиозной общины, которая обычно отделена от внешнего мира.
0,0450

46 приют: сумасшедший дом () Приют — это психиатрическая больница.
() Если вы описываете место или ситуацию как сумасшедший дом, вы имеете в виду, что оно полно неразберихи и шума.
0,2150

47 печь: печь () Печь — это контейнер или замкнутое пространство, в котором разжигается очень горячий огонь, например, для плавления металла, сжигания мусора или производить пар.
() Печь — это оборудование, которое обеспечивает тепло либо для приготовления пищи, либо для обогрева комнаты.
0,3475

48 маг: волшебник () Маг — это человек, который развлекает людей, выполняя фокусы.
() В легендах и сказках волшебник — это человек, обладающий магическими способностями.
0,3550

49 холм: холм () Холм — это участок земли, который выше земли, которая его окружает.
() Кучка чего-то — это большая округлая кучка.
0,2925

50 шнур: шнур () Шнур прочный, шнурок толстый.
() Веревка — это тонкая веревка из скрученных ниток, используемая для связывания вещей или связывания свертков.
0,4700

51 стекло: стакан () Стекло — это твердое прозрачное вещество, которое используется для изготовления таких вещей, как окна и бутылки.
() Стакан — это стакан с прямыми стенками.
0,1375

52 ухмылка: улыбка () Улыбка — это широкая улыбка.
() Улыбка — это выражение вашего лица, когда вы довольны или веселы, или когда вы ведете себя дружелюбно.
0,4850

53 крепостной: раб () В прежние времена крепостные были классом людей, которые должны были работать на земле определенного человека и не могли уехать без его разрешения.
() Раб — это тот, кто является собственностью другого человека и должен работать на этого человека.
0,4825

54 путешествие: рейс () Когда вы совершаете путешествие, вы путешествуете из одного места в другое.
() Путешествие — это долгое путешествие на корабле или в космическом корабле.
0,3600

55 автограф: подпись () Автограф — это подпись известного человека, которая специально написана для поклонника.
() Ваша подпись — это ваше имя, написанное вашим собственным характерным способом, часто в конце документа, чтобы указать, что вы написали документ или что вы согласны с тем, что в нем написано.
0,4050

56 побережье: берег () Побережье — это участок земли, который находится рядом с морем.
() Берег моря, озера или широкой реки — это земля вдоль их края.
0,5875

57 лес: лесной массив () Лес — это большая территория, где деревья растут близко друг к другу.
() Лесная местность — это земля с множеством деревьев.
0,6275

58 орудие: инструмент () Орудие — это инструмент или другое оборудование.
() Инструмент — это любой инструмент или простое оборудование, которое вы держите в руках и используете для выполнения определенного вида работы.
0,5900

59 петух: петух () Петух — это взрослый цыпленок-самец.
() Петух — взрослый цыпленок-самец.
0,8625

60 мальчик: парень () Мальчик — это ребенок, который вырастет и станет мужчиной.
() Парень — это молодой человек или мальчик.
0,5800

61 подушка: подушка () Подушка — это тканевый чехол, наполненный мягким материалом, который вы кладете на сиденье, чтобы было удобнее.
() Подушка — это прямоугольная подушка, на которую вы кладете голову, когда лежите в постели.
0,5225

62 кладбище: кладбище () Кладбище — это место, где захоронены тела умерших или их прах.
() Кладбище — это участок земли, иногда возле церкви, где хоронят мертвых.
0,7725

63 автомобиль: автомобиль () Автомобиль есть автомобиль.
() Автомобиль — это автомобиль, в котором достаточно места для небольшого количества пассажиров.
0,5575

64 полдень: полдень () Полдень — 12 часов в середине дня.
() Полдень — это 12 часов дня.
0,9550

65 драгоценный камень: драгоценный камень () Драгоценный камень — это драгоценный камень или камень, который используется в ювелирных изделиях.
() Драгоценный камень — это драгоценный камень, которым украшают ценные вещи, которые вы носите, например кольца или ожерелья.
0,6525





Как признается Ислам и Инкпен [55] и Корли и Михалча [72] мера семантического сходства необходимый шаг в задаче распознавания перефразирования, но не всегда достаточный.В Microsoft Research Paraphrase Corpus пары предложений, признанные непарафразами, могут по-прежнему существенно перекрываться по информационному содержанию и даже по формулировкам. Например, корпус Microsoft Research Paraphrase Corpus содержит следующие пары предложений.

Пример 1. ( 1) « Принято в 1999 году, но так и не вступило в силу, закон сделал бы незаконным зажигание для посетителей баров и ресторанов».
( 2) « Закон о курении, принятый в 1999 году, но так и не вступивший в силу, не позволил бы посетителям баров и ресторанов зажигать, но освободил частные клубы от действия правила .”

Пример 2. ( 1) « Хотя из-за того, что более медленные расходы заставили 2003 год выглядеть лучше, многие из расходов фактически будут произведены в 2004 году ».
( 2) « Хотя из-за того более медленного расходования средств 2003 год выглядел лучше, многие из расходов фактически будут произведены в 2004 году, что усугубит дефицит в этом году ».

Предложения в каждой паре сильно связаны друг с другом общими словами и синтаксисами, однако они не считаются пересказами и помечаются в корпусе цифрой 0 (парафразы помечаются как 1).По этой причине мы считаем, что количество ложноположительных (FP) и истинно отрицательных (TN) не совсем правильное и может повлиять на правильность точности, измерения, но на точность и отзыв. Результат показывает, что предлагаемый подход на основе грамматики превосходит результат Ислама и Инкпена [55] с порогами 0,6 ~ 1,0 (0,91 против 0,89 и 0,88 против 0,68 отзыва с порогами 0,6 и 0,7; 0,71 против 0,72, 0,70 против 0,68 и 0,59 против 0,57 точности при порогах 0,6, 0,7 и 0.8, соответственно), что является разумным диапазоном для определения того, является ли пара предложений пересказом или нет.

5. Выводы

В данной статье представлен алгоритм подобия, основанный на грамматике и семантическом корпусе, для предложений на естественном языке. Традиционные ИК-технологии не всегда могут определить идеальное соответствие без очевидной связи или пересечения концепций между двумя предложениями на естественном языке. Некоторые подходы решают эту проблему путем определения порядка слов и оценки семантических векторов; однако их было трудно применять для сравнения предложений со сложным синтаксисом, а также длинных предложений и предложений с произвольными шаблонами и грамматиками.Предлагаемый подход использует онтологию корпусов и грамматические правила для решения этой проблемы. Вклад этой работы можно резюмировать следующим образом: (1) насколько нам известно, предложенный алгоритм является первой мерой семантического сходства между предложениями, которая объединяет дословную оценку с грамматическими правилами, (2) специально разработанный Grammar_Matrix будет количественно определять корреляции между фразами вместо того, чтобы рассматривать общие слова или порядок слов, и (3) использование семантических деревьев, предлагаемых WordNet, увеличивает шансы найти семантическую связь между любыми существительными и глаголами, и (4) Результаты показывают, что предложенный метод очень хорошо показал себя как с точки зрения сходства предложений, так и с точки зрения распознавания парафраз.Наш подход обеспечивает хорошее среднее отклонение для 30 пар предложений и превосходит результаты, полученные Li et al. [8] и LSA [54]. Для задачи распознавания перефразирования наш метод, основанный на грамматике, превосходит большинство существующих подходов и ограничивает лучшую производительность в разумном диапазоне пороговых значений.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов в отношении публикации данной статьи.

Изучение подобия предложений посредством лексической декомпозиции и композиции

1 Введение

Сходство предложений — это фундаментальный показатель для измерения степени правдоподобия между парой предложений.Он играет важную роль для множества задач как в НЛП, так и в IR сообществах. Например, в задаче идентификации перефразирования, Сходство предложений используется, чтобы определить, являются ли два предложения перефразированием или нет [Yin and Schütze2015, He et al.2015] . Для ответов на вопросы и задач поиска информации, сходство предложений между парами запрос-ответ используется для оценки релевантности и ранжирование всех ответов кандидатов [Severyn and Moschitti2015, Wang and Ittycheriah3015] .

E1 Исследование [не имеет отношения] к нерки.
E2 Исследование [не связано] с лососем.
E3 Исследование относится к лососю.
E4 Исследование касается нерки «вместо кижуча».
E5 Исследование касается нерки «не только камбалы».
Таблица 1: Примеры изучения сходства предложений. «Кижуч» и «нерка» относятся к семейству лососевых, а «камбала» — нет.

Однако изучение сходства предложений имеет следующие проблемы:

  1. существует лексический разрыв между семантически эквивалентными предложениями. Возьмем, например, E1 и E2 в таблице 1

    , они имеют одинаковое значение, но с разными лексиконами.

  2. Семантическое сходство

    следует измерять на разных уровнях детализации (на уровне слов, на уровне фраз и на уровне синтаксиса). Например, «не имеет отношения» в E2 — неделимая фраза при сопоставлении с «нерелевантным» в E1. (показаны в квадратных скобках).

  3. несходство (показано в угловых скобках) между двумя предложениями также является важным ключом к разгадке. [Qiu et al., 2006] . Например, судя по разным частям, мы можем легко идентифицировать что E3 и E5 имеют схожее значение «Исследование посвящено лососю», потому что «нерка» относится к семейству лососевых, а «камбала» — нет. В то время как значение E4 сильно отличается от E3, в котором подчеркивается: «Исследование посвящено красной (особой разновидности) лосося», потому что и «нерка», и «кижуч» относятся к семейству лососевых.Другой вопрос, как мы можем извлечь и использовать эту информацию.

Для решения вышеперечисленных проблем исследователи долгое время работали над алгоритмами сходства предложений. Чтобы преодолеть лексический пробел (проблема 1), были предложены некоторые метрики сходства слов для совпадать с разными, но семантически связанными словами. Примеры включают метрики, основанные на знаниях [Resnik1995] и показатели на основе корпуса [Jiang and Conrath2997, Yin and Schütze2015, He et al.2015]

. Чтобы измерить сходство предложений с различной степенью детализации (проблема 2), исследователи изучили особенности, извлеченные из

н-граммов, непрерывных фраз, прерывистые фразы и деревья синтаксического анализа [Yin and Schütze2015, He et al., 2015, Heilman and Smith3010] . Раньше третий вопрос не привлекал особого внимания, единственная связанная работа qiu2006paraphrase исследовали различие между предложениями в паре для задачи идентификации перефразирования, но им нужны человеческие аннотации для обучения классификатора, и их производительность по-прежнему ниже современного уровня.

В этой статье мы предлагаем новую модель для совместного решения всех этих проблем. путем декомпозиции и составления лексической семантики по предложениям. Учитывая пару предложений, модель представляет каждое слово как вектор малой размерности (проблема 1), и вычисляет вектор семантического соответствия для каждого слова на основе всех слов в другом предложении (проблема 2). Затем на основе вектора семантического соответствия каждый вектор слов разбивается на две составляющие: подобный компонент и непохожий компонент (выпуск 3).Мы используем похожие компоненты всех слов, чтобы представить похожие части пары предложений, и несходные компоненты каждого слова для явного моделирования несходных частей. После этого выполняется двухканальная операция CNN, чтобы объединить похожие и разнородные компоненты в вектор признаков (вопросы 2 и 3). Наконец, составной вектор признаков используется для прогнозирования сходства предложений. Результаты экспериментов по двум задачам показывают, что наша модель современного выполнения задачи выбора предложения ответа, и достигает сопоставимого результата в задаче идентификации перефразирования.

В следующих частях мы начнем с краткого обзора нашей модели (Раздел 2), за которыми следуют детали нашей сквозной реализации (раздел 3). Затем мы оцениваем нашу модель по выбору предложения ответа. и перефразируйте задачи идентификации (Раздел 4).

2 Обзор модели

На рисунке 1 показан обзор нашей модели подобия предложений. Для пары предложений S и T наша задача — вычислить оценку подобия sim (S, T) в следующие шаги:

Рисунок 1: Обзор модели.

Представление слов. Вложение слова mikolov2013efficient — эффективный способ справиться с проблемой лексического пробела в задаче на сходство предложений, поскольку он представляет каждое слово с распределенным вектором, и слова, встречающиеся в схожих контекстах, как правило, имеют схожие значения [Миколов и др., 2013] . С помощью этих предварительно обученных встраиваний мы преобразуем S и T в матрицы предложений S = [s1, …, si, …, sm] и T = [t1, …, tj, …, tn], где si и tj — d -мерные векторы соответствующих слов, а m и n — длина предложения S и T соответственно.tj), на два компонента: аналогичный компонент s + i (или t + j) и разный компонент s − i (или t − j). Формально мы определяем функцию разложения как:

Состав. Учитывая аналогичную матрицу компонентов S + = [s + 1, …, s + m] (или T + = [t + 1, …, t + n]) и разная матрица компонентов S — = [s − 1, …, s − m] (или T — = [t − 1, …, t − n]), наша цель на этом этапе — как использовать эту информацию. Помимо предположения из парафраза qiu2006 о том, что значение только несходных частей между двумя предложениями имеет большое влияние на их сходство, мы также думаем, что разнородные и похожие компоненты имеют сильные связи.Например, в таблице 1 если мы смотрим только на непохожую или похожую часть, трудно судить, какой из E4 или E5 больше похож на E3. Мы можем легко определить, что E5 больше похож на E3, если рассматривать как похожие, так и несходные части. Таким образом, наша модель состоит из одинаковой матрицы компонентов и разнородной матрицы компонентов. в вектор признаков → S (или → T) с композиционной функцией:

→ S = fcomp (S +, S−) → T = fcomp (T +, T−) (3)

Оценка сходства.На заключительном этапе мы объединяем два вектора признаков (→ S и → T) и прогнозируем окончательную оценку сходства:

sim (S, T) = fsim (→ S, → T) (4)

5 Связанные работы

Функции семантического сопоставления в подразделе 3.1

созданы на основе нейронного машинного перевода на основе внимания

[Bahdanau et al., 2014, Luong et al., 2015] . Однако большая часть предыдущей работы использовала механизм внимания только в моделях LSTM.В то время как наша модель вводит механизм внимания в модель CNN. Похожая работа — это модель CNN, основанная на внимании, предложенная yin2015abcnn. Сначала они создают матрицу внимания для пары предложений, а затем непосредственно принимают матрицу внимания как новый канал модели CNN. Иными словами, наша модель использует матрицу внимания (или матрицу сходства) для разложения исходной матрицы предложения на аналогичную матрицу компонентов и несходную матрицу компонентов, а затем передает эти две матрицы в двухканальную модель CNN.Затем модель может сосредоточиться на взаимодействии между похожими и разными частями пары предложений.

6 Заключение

В этой работе мы предложили модель для оценки сходства предложений путем декомпозиции и составления лексической семантики. Чтобы устранить проблему лексического разрыва, наша модель представляет каждое слово с его вектором контекста. Чтобы извлечь черты как из сходства, так и из несходства пары предложений, мы разработали несколько методов разложения вектора слова на аналогичный компонент и несходный компонент.Чтобы извлечь функции на нескольких уровнях детализации, мы использовали двухканальную модель CNN и оснастили ее несколькими типами фильтров ngram. Экспериментальные результаты показывают, что наша модель достаточно эффективна как в задаче выбора предложения ответа, так и в задаче идентификации перефразирования.

Сходство

слов с использованием spacy

Введение:

В алгоритмах интеллектуального анализа текста, а также при моделировании данных на основе nlp сходство слов является очень распространенной особенностью.Сходство слов в контексте nlp относится к семантическому сходству между двумя словами, фразами или даже двумя документами. Мы обсудим, как вычислить сходство слов с помощью библиотеки spacy.

что такое сходство в НЛП и как оно рассчитывается?

В НЛП под лексическим сходством между двумя текстами понимается степень, в которой тексты имеют одинаковое буквальное и семантическое значение. т.е. насколько похожи тексты; рассчитывается по метрикам сходства в НЛП.

Есть много разных способов создать признаки сходства слов; но основная логика в основном одинакова во всех случаях.Основная логика во всех этих случаях — создать два репрезентативных вектора двух элементов; с использованием либо универсальных векторов, созданных из предварительно обученных моделей, таких как word2vec, glove, fasttext, bart и другие; или используя настоящий документ и используя различные методы, такие как соответствие tf-idf, процедуры ранжирования страниц и т.д. Наиболее распространенной процедурой сравнения является косинусное сходство, но менее популярные методы включают рассмотрение различных разновидностей косинусного сходства, корреляции и других сложных методов.

Обычно сходство слов находится в диапазоне от -1 до 1 или может быть также нормализовано от 0 до 1. Меньшие значения означают низкую релевантность; и по мере увеличения релевантности увеличивается семантическое сходство между словами.

Теперь давайте посмотрим, как spacy решает эту очень распространенную проблему вычисления сходства между словами / документами.

Вычисление подобия с использованием spacy:

Здесь и далее я предполагаю, что читатели знают базовые техники spacy; и если вы не знакомы с этим, пожалуйста, прочтите это введение в spacy и продолжайте.

Прежде всего, давайте просто вспомним тот факт, что в пространстве есть 3 типа словарных объектов; (1) документы (2) токены и (3) промежутки. Документы относятся к объектам документов, созданным из текстов, аналогичных абзацам или полным документам; в то время как токены относятся к подобным словам фрагментам, которые представляют собой наиболее атомарные части документа. промежутки — это непрерывный список этих токенов; т.е. аналог фразы.

Теперь каждый из этих объектов, doc, token и span имеет метод подобия () , который позволяет нам вычислить их сходство с любым другим типом текстового объекта.См. Фрагмент ниже:

Обратите внимание на предупреждение. Это предупреждение говорит о том, что, поскольку мы загрузили небольшую просторную модель; поэтому здесь не загружен действительный вектор, и мера сходства создается с использованием тегов ner, pos и подобных знаков. Причина этого в том, что для оптимизации использования памяти spacy не загружает встраивание реальных слов для словаря, который он использует при загрузке меньших моделей. Следовательно, чтобы использовать фактические векторы и получить лучшую точность, нам нужно загрузить либо модель среды i.е. en_core_web_md или большая модель, например en_core_web_lg . Большая модель содержит очень большой словарный запас с уникальными векторами для более чем миллиона слов.

Теперь, используя большую модель, можно загружать векторы напрямую. В таком случае атрибуты doc.vector , span.vector и token.vector предоставляют векторы длиной 300 векторов, которые используются внутри пространства для вычисления подобия. Посмотрите на следующий пример, где мы загружаем большую модель en_core_web_lg и видим вектор документа.

Есть векторы для большинства употребительных слов. Но для необычных слов и слов, для которых нет обученного вектора, в этой настройке им присваивается нулевой вектор. т.е. это означает, что они слишком необычны и в смысле похожести ни на кого не похожи.

Есть еще несколько атрибутов, например token.vector_norm , который дает норму L2 для нормализации вашего вектора; token.has_vector , который сообщает вам, прикреплен ли реальный вектор или нет, и так далее.Также token.oov , т.е. вне словаря, сообщает вам, находится ли текущий токен за пределами назначенного словаря модели или нет.

Существуют способы настройки векторов слов и использование различных методов для создания этих пользовательских векторов для большего удобства использования. Это несколько выходит за рамки данной статьи. Об этом мы поговорим в другой статье. Вы можете прочитать его на официальном сайте для дальнейшего понимания.

Итак, в заключение, чтобы вычислить сходство с использованием spacy для двух частей текста, вы должны создать из них документы, используя nlp (текст), а затем использовать doc1.подобие (doc2) , чтобы получить подобие. Таким образом, Spacy действительно упрощает вычисление подобия. Спасибо за прочтение! Следите за новостями, чтобы увидеть больше интересных статей о нлп.

Анализ семантического сходства текста с помощью TensorFlow Hub и Dataflow

Эта статья является второй из серии, в которой описывается, как выполнять документ анализ семантического сходства с использованием встраивания текста. Вложения извлечен с помощью модуля tf.Hub Universal Sentence Encoder в масштабируемый конвейер обработки с использованием Dataflow и tf.Преобразовать . Извлеченные вложения затем сохраняются в BigQuery, где Косинусное сходство вычисляется между этими вложениями, чтобы получить максимально семантически похожих документов. Код реализации находится в связанный Репозиторий GitHub.

Подробнее о концепциях встраивания и вариантах использования см. Обзор: извлечение и обслуживание встроенных функций для машинного обучения.

Введение

Чтобы найти связанные документы в коллекции, вы можете использовать различные поиск информации техники.Один из подходов — извлекать ключевые слова и сопоставлять документы на основе количество общих терминов в документах. Однако этот подход не учитывает документы, в которых используются похожие, но не идентичные термины.

Другой подход — анализ семантического сходства, который обсуждается в этом статья. С помощью анализа схожести текстов вы можете получить релевантные документы, даже если у вас нет подходящих ключевых слов для поиска. Вместо этого вы можете найти статьи, книги, статьи и отзывы клиентов с помощью поиска через представителя документы.

Эта статья посвящена анализу сходства текстов на основе встраиваний. Однако вы также можете использовать аналогичный подход для других типов контента, например изображения, аудио и видео, если вы можете преобразовать целевое содержимое в вложения.

В этой статье объясняется следующее:

  • Использование Apache Beam и tf.Transform для обработки текстовых файлов.
  • Использование TensorFlow Hub ( tf.Hub ) Универсальный кодировщик предложений модуль для извлечения встраивания текста из заголовков и из содержания статьи.
  • Запуск конвейера обработки текста в масштабе с помощью Dataflow.
  • Хранение обработанных изделий и их вложений в BigQuery.
  • Поиск похожих статей в BigQuery с помощью косинуса подобие SQL-скрипта.

Архитектура решения

На рисунке 1 показана общая архитектура анализа текстового сходства. решение. Для текстовых данных решение использует Reuters-21578, который является сборник общедоступных статей. Набор данных описан в разделе Набор данных Reuters позже в этой статье.Примеры документов загружены в облачное хранилище. В конвейер обработки реализован с использованием Apache Beam и tf.Transform , а также масштабируется на Dataflow.

Рисунок 1. Архитектура решения высокого уровня для анализа схожести текста

В конвейере документы обрабатываются для извлечения заголовка каждой статьи, темы и содержание. Конвейер обработки использует универсальный кодировщик предложений. модуль в tf.Hub для извлечения вложений текста как для заголовка, так и для содержимого каждой статьи.Эти значения вместе с извлеченными вложениями сохраняются. в BigQuery. Хранение статей и их вложений в BigQuery позволяет изучить похожие статьи используя метрику косинусного сходства между вложениями заголовков и содержание.

Ключевые концепции

В следующем списке поясняются концепции, показанные на Рисунке 1.

Облачное хранилище
Облачное хранилище позволяет хранить и извлекать любые количество данных в любое время.Вы можете использовать облачное хранилище для ряда сценариев, в том числе раздача больших файлов данных для обработки и аналитика. В этом решении исходные документы статьи хранятся в Корзина Cloud Storage, которая считается озером данных для необработанных документы. Кроме того, версия обработанных данных (то есть коллекция извлеченных вложений) хранится в виде набора файлов TFRecord в Облачное хранилище, которое будет использоваться для обучения моделей машинного обучения позже.
Apache Beam
Apache Beam — это унифицированная модель программирования с открытым исходным кодом, которая запускает как задания потоковой и пакетной обработки данных.Это решение использует Apache Beam для реализовать конвейер извлечения, преобразования, загрузки (ETL): 1) читать необработанные данные из облачного хранилища, 2) обрабатывать статьи и извлекать вложения, и 3) хранить статьи и вложения в BigQuery.
тс Трансформ
TensorFlow Transform — это библиотека для предварительной обработки данных с TensorFlow. Это решение использует tf.Transform в качестве контекст для вызова модуля tf.Hub для извлечения встраиваемого текста.
Поток данных
Dataflow — это полностью управляемая, бессерверная, надежная служба для масштабного запуска конвейеров Apache Beam в Google Cloud.Поток данных используется для масштабирования обработки входного текста и извлечения вложений, чтобы сохранить их в BigQuery.
Вложения текста
В машинном обучении (ML) встраивание текста — это вектор признаков с действительным знаком. который представляет семантику слова (например, используя Word2vec) или предложение (например, используя Универсальный кодировщик предложений). Вложения могут быть предварительно обучены в общих контекстах. или обучены конкретным задачам.Вложения текста используются для представления функции текстового ввода в модели машинного обучения, такие как классификация, регрессия, и кластеризация.
тф. Ступица
TensorFlow Hub — это библиотека многоразовых модулей машинного обучения. Эти модули могут быть предварительно обученными моделями или вложениями, извлеченными из текста, изображения и так далее. В этом решении используется универсальный кодировщик предложений. предварительно обученный модуль встраивания текста для преобразования заголовка и содержимого каждой статьи в числовой вектор признаков (встраивание). Затем этот вектор признаков может быть используется для вычисления сходства между разными статьями.
BigQuery
BigQuery — это полностью управляемый, петабайтный и недорогой хранилище данных аналитики. Это решение хранит статьи и их извлеченные вложения в BigQuery, чтобы их можно было запрашивать позже.
Косинус похож на
Косинусное сходство — это мера сходства между двумя ненулевыми векторами. внутреннего пространства продукта на основе косинуса угла между ними. Он используется в этом решении для вычисления сходства между двумя статьями, или сопоставить статью на основе поискового запроса на основе извлеченных вложения.Если два вектора вложения текста похожи, косинус сходство между ними дает значение, близкое к 1.

Набор данных Reuters

Решение, описанное в этой статье, использует Рейтер-21587, Распространение 1.0, который представляет собой сборник общедоступных новостных статей. В статьи из набора данных появились в ленте новостей Рейтер в 1987 году. собраны и проиндексированы по категориям по персоналу Reuters Ltd. и Carnegie Group, Inc. в 1987 году. В 1990 году документы были предоставлены Reuters и CGI для исследовательских целей в Лабораторию поиска информации Кафедра компьютерных и информационных наук Университета Массачусетс в Амхерсте.

Полное описание набора данных можно найти в коллекции файл readme.txt. Ключевые атрибуты набора данных следующие:

  • Всего статей: 21,578
  • Количество файлов: 22
  • Формат файлов: Стандартный обобщенный язык разметки (SGML) в .sgm файлах
  • Количество статей в файле: 1000, кроме последнего файла, который содержит 578 статей

Из нескольких тегов для каждой статьи решение извлекает следующее:

  • Заголовок : Заголовок статьи
  • Тело : Полное содержание статьи
  • Темы : одна или несколько категорий, к которым принадлежит статья

Создание конвейера ETL с Apache Beam

Код конвейера находится в трубопровод.ру Модуль Python в репозитории GitHub для этого решения. Конвейер ETL состоит из следующих общих шагов, которые подробно описаны ниже. разделы:

  1. Прочтите исходные файлы из облачного хранилища.
  2. Извлечь объекты статьи из файлов.
  3. Проанализируйте каждый объект статьи, чтобы сгенерировать заголовок, темы и содержание.
  4. Сгенерировать вектор встраивания для заголовка статьи.
  5. Сгенерировать вектор встраивания для содержания статьи.
  6. Записывать вывод каждой статьи в BigQuery.

Чтение и анализ файлов статей

Как отмечалось ранее, исходные данные состоят из нескольких файлов .sgm , каждый из которых который включает в себя несколько статей. Первая задача — прочитать эти файлы, разобрать содержимое SGML и извлеките объекты статьи. Следующий код показывает первые три ступени конвейера Beam:

  трубопровод = балка. Трубопровод (options = pipeline_options)

с имп.Контекст (known_args.transform_temp_dir):
    статьи = (
        трубопровод
        | 'Получить пути' >> beam.Create (get_paths (known_args.file_pattern))
        | 'Получить статьи' >> beam.Map (get_articles)
        | 'Получить статью' >> beam.FlatMap (лямбда x: x)
    )
  

Метод get_articles принимает путь к файлу и возвращает PCollection статей. Последующий метод FlatMap отвечает за выравнивание возвращенный сборник статей.Как уже говорилось, цель get_articles метод состоит в том, чтобы проанализировать файл .sgm и вернуть объект статьи (точнее, словарь), который включает заголовок, темы (через запятую) и содержание. Это показано в следующем коде:

  def get_articles (путь к файлу):
  импорт bs4
  импортировать тензорный поток как tf

  data = tf.gfile.GFile (путь_к_файлу) .read ()
  soup = bs4.BeautifulSoup (данные, "html.parser")
  статьи = []
  для raw_article в soup.find_all ('reuters'):
    article = {
        'title': get_title (raw_article),
        'контент': get_content (raw_article),
        'темы': get_topics (raw_article),
    }
    если None отсутствует в статье.значения():
      если [] нет в article.values ​​():
        article.append (статья)
  вернуть статьи
  

Это решение использует Python Красивый суп (bs4) библиотека для анализа файлов .sgm .

Реализация метода preprocess_fn

После того, как статьи были прочитаны, проанализированы и извлечены, следующий шаг в Beam Конвейер ETL предназначен для создания встраиваемого текста для заголовка и содержимого каждого статья. В этом решении логика преобразования реализована в preprocess_fn метод.Этот метод вызывается с использованием tf. Преобразуйте API в конвейер Beam с использованием метода AnalyzeAndTransformDataset , как показано на следующий код:

  набор данных = (статьи, get_metadata ())

transformed_dataset, transform_fn = (
    набор данных
    | 'Анализировать и преобразовывать набор данных' >> impl.AnalyzeAndTransformDataset (preprocess_fn)
)
  

Метод preprocess_fn принимает словарь входных функций, которые Тензоры TensorFlow, сгенерированные из полей набора данных, созданных в предыдущий шаг.В этом примере входные функции включают заголовок , разделов и содержание . В этом методе создаются вложения для заголовка и контент, вызвав методы get_embed_title и get_embed_content , соответственно, как показано в следующем коде:

  def preprocess_fn (input_features):
  импортировать tensorflow_transform как tft

  title_embed = tft.apply_function (get_embed_title, input_features ['название'])
  content_embed = tft.apply_function (get_embed_content, input_features ['контент'])
  output_features = {
      'темы': input_features ['темы'],
      'title': input_features ['title'],
      'content': input_features ['content'],
      'title_embed': title_embed,
      'content_embed': content_embed,
  }
  вернуть output_features
  

Методы get_embed_ * используют tf.Hub для создания вложений. (Следующий раздел содержит более подробную информацию об этом шаге). Метод preprocess_fn выводит входные функции вместе с title_embed и content_embed , которые — два вектора признаков с действительным знаком.

Преимущества использования tf.Transform для реализации преобразования в этом Apache Лучи конвейера для обработки текста следующие:

  • Простота . Вызов модуля встраивания текста tf.Hub (описан в более подробно в следующем разделе) требуется контекст TensorFlow. То есть вам нужно будет создать объект tf.Graph , добавить tf.placeholder тензоры, создайте tf.session объектов и так далее, чтобы вызвать tf.Концентратор модуль. Однако в tf.Transform работает функция preprocess_fn в неявном контексте TensorFlow, в котором вы можете вызвать любой Операции TensorFlow (включая вызов модуля tf.Hub ) без накладных расходов на выполнение всех подробных шагов.

  • Расширяемость . Решение использует встраивание текста как функцию представления текста для выполнения анализа сходства между статьи. Однако для подготовки текстовых данных для других задач, включая классификацию текста и анализ тем, другие функции представления могут быть полезны, в том числе n-граммы для мешок слов (BOW), частота термина (TF) и частота термина — обратная частота документа (TF-IDF).(Подробнее см. Как мы представляем текстовые данные алгоритму, который ожидает числовой ввод в руководствах по машинному обучению Google.) Эти типы представлений требуется преобразование набора данных с полным проходом, для которого tf.Transform разработан; библиотека tf.Transform включает реализация этих преобразований и другие. Таким образом, если вы хотите расширить этот ETL конвейер с другими полнопроходными преобразованиями, вы можете легко добавить их в функция preprocess_fn .

Подробнее о предварительной обработке данных и преобразовании TensorFlow см. Предварительная обработка данных для машинного обучения: варианты и рекомендации а также Предварительная обработка данных для машинного обучения с использованием TensorFlow Transform в документации Google Cloud.

Создание вложений с использованием TensorFlow Hub

Как обсуждалось ранее в разделе «Основные понятия», tf.Hub включает набор предварительно обученных моделей TensorFlow, которые позволяют генерировать векторы признаков (вложения) с действительным знаком для текста и изображений.Этот решение использует Универсальный кодировщик предложений модуль встраивания текста. Модуль принимает предложение и возвращает 512-мерное значение. числовой вектор, представляющий вложение для данного предложения.

Следующий код для метода get_embed_title показывает, как сгенерировать и встроить вектор в заголовок данной статьи.

  def get_embed_title (название,
    module_url = 'https: //tfhub.dev/google/universal-sentence-encoder/2'):

  импортировать тензорный поток как tf
  импортировать tensorflow_hub как концентратор

  модуль = концентратор.Модуль (module_url)
  embed = module (название)
  возврат встраивать
  

Чтобы сгенерировать вектор встраивания для содержания данной статьи, код делает следующее:

  1. Разбивает статью на предложения.
  2. Создает встраивание для каждого предложения с помощью модуля кодирования предложений.
  3. Вычисляет среднее из сгенерированных вложений всех предложений.

Код создает один вектор признаков для представления встраивания для данного содержание, независимо от того, сколько предложений в содержании статья.Это показано в следующем коде для get_embed_content функция.

  def get_embed_content (content, delimiter = '\ n',
    module_url = 'https: //tfhub.dev/google/universal-sentence-encoder/2'):

  импортировать тензорный поток как tf
  импортировать tensorflow_hub как концентратор

  module = hub.Module (module_url)

  def _map_fn (t):
    t = tf.cast (t, tf.string)
    t = tf.string_split ([t], разделитель) .values
    е = модуль (t)
    e = tf.reduce_mean (e, ось = 0)
    вернуть tf.squeeze (e)

  embed = tf.map_fn (_map_fn, контент, dtype = tf.float32)
  возврат встраивать
  

Запись вывода в BigQuery

Последним шагом в конвейере Beam ETL является запись вывода предыдущего шаг обработки в таблицу BigQuery. Это показано в следующий код:

  преобразованные_данные, преобразованные_метаданные = преобразованный_данный
(
        преобразованные_данные
        | 'Преобразовать во вставляемые данные' >> beam.Map (to_bq_row)
        | «Записать в таблицу BigQuery» >> beam.io.WriteToBigQuery (
            project = known_args.bq_project,
            dataset = known_args.bq_dataset,
            table = known_args.bq_table,
            schema = get_bigquery_schema (),
            create_disposition = beam.io.BigQueryDisposition.CREATE_IF_NEEDED,
            write_disposition = beam.io.BigQueryDisposition.WRITE_TRUNCATE)
)
  

Конвейер создает таблицу, если не существует, и усекает таблицу, если таблица включает предыдущие данные. (Вы можете изменить это поведение, установив балка.io.BigQueryDisposition параметров)

Для создания таблицы BigQuery решению требуется TableSchema объект. В этом примере схема выходных данных выглядит следующим образом:

  • title : строка, допускающая значение NULL
  • содержимое : строка, допускающая значение NULL
  • тем : строка, допускающая значение NULL
  • title_embed : float, повторяется (потому что это массив из 512 элементов)
  • content_embed : float, повторяется (потому что это массив из 512 элементов)

В следующем коде показано, как создать объект TableSchema для BigQuery.

  def get_bigquery_schema ():

  из apache_beam.io.gcp.internal.clients импортировать bigquery

  table_schema = bigquery.TableSchema ()
  columns = (('темы', 'строка', 'допускающие значение NULL'),
             ('заголовок', 'строка', 'допускающий значение NULL'),
             ('содержимое', 'строка', 'допускающее значение NULL'),
             ('title_embed', 'float', 'повторяется'),
             ('content_embed', 'float', 'повторяется'))

  для столбца в столбцах:
    column_schema = bigquery.TableFieldSchema ()
    column_schema.name = столбец [0]
    column_schema.тип = столбец [1]
    column_schema.mode = столбец [2]
    table_schema.fields.append (схема_столбца)

  вернуть table_schema
  

Запустить конвейер в потоке данных

Чтобы запустить конвейер Beam ETL, вам нужно выполнить только main.py модуль с необходимыми аргументами и установите для аргумента --runner значение DataflowRunner . Основная программа выполняет метод run_pipeline в pipeline.py модуль. А сценарий в репозитории GitHub показано, как установить конфигурацию (например, параметр переменные среды) и как запустить конвейер.Следующий список показывает типичная команда для запуска конвейера.

  питон main.py \
  --file_pattern = $ FILE_PATTERN \
  --bq_project = $ ПРОЕКТ \
  --bq_dataset = $ DATASET \
  --bq_table = $ ТАБЛИЦА \
  --transform_temp_dir = $ TRANSFORM_TEMP_DIR \
  --transform_export_dir = $ TRANSFORM_EXPORT_DIR \
  --enable_tfrecord \
  --tfrecord_export_dir $ TFRECORD_EXPORT_DIR \
  --enable_debug \
  --debug_output_prefix = $ DEBUG_OUTPUT_PREFIX \
  --project = $ PROJECT \
  --runner = $ RUNNER \
  --region = $ REGION \
  --staging_location = $ STAGING_LOCATION \
  --temp_location = $ TEMP_LOCATION \
  --setup_file = $ (pwd) / настройка.ру \
  --job_name = $ JOB_NAME \
  --worker_machine_type = n1-highmem-2
  

На рисунке 2 показано выполнение конвейера потока данных в Облачная консоль.

Рисунок 2. График выполнения потока данных конвейера tf.Transform

Изучите похожие статьи в BigQuery

После запуска конвейера и загрузки выходных данных Reuters обработки статьи, вы найдете набор данных с именем reuters в BigQuery с таблицей вложений . 2}}} $$

Здесь n — количество элементов в векторе.(В этом примере вложение вектор имеет 512 измерений.) Эта формула косинусного подобия может быть реализована в сценарий BigQuery SQL, чтобы найти статью, которая больше всего похожа на данный. Например, возможно, вы хотите чаще всего находить статьи Reuters. аналогично названному «Сильный ветер удерживает суда в ловушке во льдах Балтийского моря». Ты найти 10 самых похожих статей на основе вложений заголовков ( title_embed ) с помощью следующего запроса:

  #standardSQL

ВЫБРАТЬ
  c.k1 как input_article_title,
  c.k2 как Similar_article_title,
  СУММ (vv1 * vv2) / (SQRT (SUM (POW (vv1,2))) * SQRT (SUM (POW (vv2,2)))) КАК сходство
ИЗ
(
  ВЫБРАТЬ
    a.key k1, a.val v1, b.key k2, b.val v2
  ИЗ
  (
    ВЫБЕРИТЕ ключ заголовка, title_embed val
    ОТ reuters. Embeddings
    ГДЕ название КАК "Сильный ветер удерживает суда, застрявшие в балтийском льду"
    ПРЕДЕЛ 1

   ) а
  КРЕСТНОЕ СОЕДИНЕНИЕ
  (
    ВЫБЕРИТЕ ключ заголовка, title_embed val
    ОТ reuters. Embeddings
  ) б
) c
, UNNEST (c.v1) vv1 со смещением ind1 JOIN UNNEST (c.v2) vv2 со смещением ind2 ON (ind1 = ind2)
ГРУППА ПО c.k1, c.k2
ЗАКАЗАТЬ ПО сходству DESC
ПРЕДЕЛ 10
  

Вы видите результаты, подобные листингу на Рисунке 4.

Рисунок 4. Результаты запроса при использовании вложений заголовков для сравнения сходства

Если вы используете content_embed вместо title_embed , вы найдете 10 самых популярных похожие статьи, основанные на встраивании содержания, а не на заголовках. На рисунке 5 показаны результаты.

Рисунок 5. Результаты запроса при использовании встраивания контента для сравнения сходства

Как показано в результатах, хотя заголовок ввода не включал слово «корабль» или «шторм», по запросу были найдены статьи о кораблях и аварии, потому что они относятся к терминам «сильный ветер», «суда» и «в ловушке» в заголовке ввода.

Что дальше

Прикладные науки | Бесплатный полнотекстовый | Пополнение базы знаний шаблоном дерева синтаксического анализа и семантическим фильтром

1. Введение

Всемирная паутина содержит обширные знания благодаря вкладу большого числа пользователей, и эти знания используются в различных областях. Поскольку обычные пользователи Интернета обычно используют естественный язык в качестве основного представления для генерации и приобретения знаний, неструктурированные тексты составляют огромную часть Интернета.Хотя люди естественно относятся к неструктурированным текстам, такие тексты не позволяют машинам обрабатывать или понимать содержащиеся в них знания. Следовательно, эти неструктурированные тексты должны быть преобразованы в структурное представление, чтобы позволить их машинную обработку.

Цель пополнения базы знаний состоит в том, чтобы превратить небольшую исходную базу знаний в большую. В общем, база знаний состоит из троек: субъект, объект и их отношение. Существующие базы знаний несовершены в двух отношениях — отношениях и троек (экземплярах).Обратите внимание, что даже обширная база знаний, такая как DBpedia, freebase или YAGO, не идеальна для описания всех отношений между сущностями в реальном мире. Однако эта проблема часто решается путем ограничения целевых приложений или областей знаний [1,2]. Еще одна проблема — отсутствие троек. Хотя существующие базы знаний содержат огромное количество троек, они все еще далеки от совершенства по сравнению с бесконечным количеством фактов из реального мира. Решить эту проблему можно только бесконечным созданием троек. В частности, согласно работе Paulheim [3], стоимость изготовления тройки вручную в 15-250 раз дороже, чем стоимость автоматического метода.Таким образом, очень важно автоматически генерировать тройки.

Как упоминалось выше, база знаний использует тройное представление для выражения фактов, но новые знания обычно приходят из неструктурированных текстов, написанных на естественном языке. Таким образом, обогащение знаний направлено на извлечение как можно большего количества пар сущностей для конкретного отношения из неструктурированных текстов. С этой точки зрения обогащение знаний на основе шаблонов является одним из самых популярных методов среди различных реализаций обогащения знаний.Его популярность объясняется тем, что он может управлять различными типами отношений, а шаблоны можно легко интерпретировать. При обогащении знаний на основе шаблонов, когда отношение и пара сущностей, связанных этим отношением, задаются как начальные знания, предполагается, что предложение, в котором упоминается пара исходных сущностей, содержит лексическое выражение для отношения, и это выражение становится образцом для извлечение новых знаний для отношений. Поскольку на качество вновь извлеченных знаний сильно влияет качество шаблонов, важно создавать высококачественные шаблоны.

Качество шаблонов зависит в первую очередь от метода, используемого для извлечения токенов в предложении и для измерения уверенности кандидатов в шаблоны. Многие предыдущие исследования, такие как NELL [4], ReVerb [5] и BOA [6], используют информацию о лексической последовательности для генерации паттернов [7,8]. То есть, когда исходное знание выражается как тройка из двух сущностей и их отношения, промежуточная лексическая последовательность между двумя сущностями в предложении становится кандидатом в образец. Сообщалось, что такие лексические шаблоны демонстрируют разумную работу во многих системах обогащения знаний [4,6].Однако у них есть очевидные ограничения: (i) они не могут обнаружить зависимости между словами в предложении на большом расстоянии и (ii) лексическая последовательность не всегда передает правильное значение отношения. Предположим, что предложение «Ева — дочь» Селены и Майкла ». дано. Простой генератор лексических шаблонов, такой как BOA, извлекает из этого предложения шаблоны, показанные в таблице 1, путем извлечения лексической последовательности между двумя объектами. Первый шаблон предназначен для отношения childOf и подходит для выражения значения отношения родитель-потомок.Таким образом, его можно использовать для извлечения новых троек для childOf из других предложений. Однако второй шаблон «{arg1} и {arg2}» не может передать смысл отношения spouseOf. Чтобы передать правильное значение spouseOf, необходимо создать образец «дочь {arg1} и {arg2}». Поскольку фраза «дочь» происходит от слов «Селена» и «Майкл», такой образец не может быть получен из предложения. Следовательно, необходимо более эффективное представление шаблонов для выражения зависимостей слов, которые не находятся внутри сущностей.

Обычно пара сущностей может иметь более двух отношений. Таким образом, предложение, в котором упоминаются обе сущности в исходной тройке, может выражать другие отношения, отличные от отношения исходной тройки. Затем паттерны, извлеченные из таких предложений, становятся бесполезными для сбора новых знаний об отношении семенной тройки. Например, предположим, что тройная Ева, workFor, Селена дана как семя знания. Поскольку при создании паттернов учитываются только сущности, «{arg1} является дочерью {arg2}» из предложения «Ева — дочь Селены и Майкла.”Становится образцом для отношения workFor, в то время как образец вообще не передает значения workFor. Следовательно, для генерации высококачественных шаблонов важно отфильтровать кандидатов в шаблоны, которые не передают смысл отношения в исходной тройке.

Одним из возможных решений этой проблемы является определение достоверности кандидата в шаблон в соответствии с родством между кандидатом в шаблон и целевым отношением. Статистическая информация, такая как частота кандидатов в шаблоны или информация о совместном появлении кандидатов в шаблоны и некоторых предопределенных функций, обычно использовалась в качестве достоверности шаблона в предыдущей работе [6,9].Однако такая основанная на статистике достоверность не отражает напрямую семантическую связь между шаблоном и целевым отношением. То есть, даже когда две сущности очень часто встречаются вместе, чтобы выразить значение отношения, может быть также много случаев, в которых сущности имеют другие отношения. Следовательно, чтобы определить, правильно ли семантически выражает шаблон отношение значение отношения, следует исследовать семантическую взаимосвязь между шаблоном и отношением.

В этой статье мы предлагаем новую, но простую систему для начальной загрузки базы знаний, выраженной в троек, из большого объема неструктурированных документов.В частности, мы показываем, что зависимости между сущностями и семантической информацией могут улучшить производительность по сравнению с предыдущими подходами без особых усилий. Для преодоления ограничений шаблонов лексической последовательности система выражает шаблон как дерево синтаксического анализа, а не как лексическую последовательность. Поскольку дерево синтаксического анализа предложения представляет собой глубокий лингвистический анализ предложения и легко выражает зависимости на большом расстоянии, использование шаблонов дерева синтаксического анализа приводит к более высокой производительности в обогащении знаний, чем лексические последовательности.Кроме того, использование семантической уверенности для шаблонов дерева синтаксического анализа позволяет отфильтровывать нерелевантные кандидаты в шаблоны.

Семантическая достоверность между шаблоном и отношением в исходных знаниях определяется как среднее сходство между словами шаблона и словами отношения. Среди различных измерений сходства мы применяем два общих семантических измерения сходства: сходство на основе WordNet и сходство встраивания слов. Как правило, подобие WordNet дает правдоподобные результаты, но иногда возникает проблема отсутствия словарного запаса (OOV) [10].Поскольку шаблоны могут содержать много слов, не перечисленных в WordNet, сходство дополняется сходством слов в пространстве для встраивания слов. Таким образом, последнее сходство слов — это сочетание сходства по WordNet и в пространстве встраивания слов. В конечном итоге семантическая достоверность между шаблоном и отношением в исходных знаниях определяется как среднее сходство между словами шаблона и словами отношения.

3. Общая структура обогащения знаний

На рисунке 1 изображена общая структура предлагаемой системы обогащения знаний.Для каждого отношения r в исходной базе знаний мы сначала генерируем набор шаблонов P (r) для отношения r. Когда исходное знание задано как тройка e1, r, e2 с двумя объектами (e1 и e2) и отношением (r), шаблон для исходных знаний определяется как поддерево дерева синтаксического анализа предложения, которое содержит оба e1 и e2. Чтобы получить P (r), сначала выбираются предложения, в которых одновременно упоминаются e1 и e2. Поскольку наш шаблон представляет собой дерево синтаксического анализа, выбранные предложения анализируются синтаксическим анализатором естественного языка, а затем преобразуются в шаблоны дерева синтаксического анализа.Затем мы исключаем шаблоны дерева синтаксического анализа, которые не передают значение отношения r. После фильтрации таких нерелевантных шаблонов дерева оставшиеся становятся P (r).

После подготовки P (r) он используется для создания новых троек для r из набора документов. Если предложение в наборе документов совпадает с шаблоном дерева синтаксического анализа в P (r), новая тройка, извлеченная из предложения, добавляется в исходную исходную базу знаний. Поскольку шаблон имеет древовидную структуру, все предложения в наборе документов также заранее анализируются анализатором естественного языка.Новая тройка извлекается из дерева синтаксического анализа, когда шаблон точно соответствует дереву синтаксического анализа. Наконец, в базу знаний добавляются новые тройки.

5. Извлечение новых знаний

После того, как P (r), набор шаблонов для отношения r, подготовлен, новые тройки извлекаются из большого набора документов с помощью P (r). Когда дерево синтаксического анализа предложения полностью совпадает с шаблоном для r, из предложения создается новая тройка для r. Алгоритм 2 объясняет, как создаются новые тройки. В качестве входных данных алгоритм принимает предложение s из набора документов, целевое отношение r и образец p∈P (r).Для простого сопоставления деревьев шаблон p преобразуется в строковое представление Strp функцией ConvertToString. Эта функция преобразует дерево в длинную одиночную строку, просматривая дерево по порядку. Метки ребер рассматриваются как узлы, поскольку они играют важную роль в передаче смысла отношения. Давайте, например, рассмотрим паттерны на рисунках 2b и 3b. Образец на рисунке 2b выражается в виде строки [Тема] ← nsubj ← [дочь] → подготовка → [Объект], тогда как на рисунке 3b шаблон становится [Тема] ← nsubj ← [работает] → подготовка → [компания ] → возможно → [Объект].
Алгоритм 2: Извлечение новых знаний

Предложение s преобразовано в дерево синтаксического анализа t синтаксическим анализатором естественного языка, и все объекты в s извлекаются в E. Для каждой комбинации (es, eo) пар сущностей в E, поддерево p ‘t, которое включает в себя пару сущностей, сопоставляется с шаблоном p. Если p ‘соответствует p, p’ рассматривается как дерево синтаксического анализа, которое имеет то же значение, что и p.

Для сопоставления p ‘и p узлы, соответствующие es и eo в t, сначала идентифицируются как n1 и n2.Затем поддерево p ‘, которое включает n1 и n2, извлекается функцией subtree_extract, используемой в алгоритме 1. После этого p’ также преобразуется в строковое представление Strp ‘с помощью ConvertToString. Если Strp и Strp ‘одинаковы, тройка es, r, eo, как полагают, соответствует значению шаблона p. Таким образом, он добавляется в набор знаний K как новая тройка для отношения r.

6. Эксперименты

Чтобы оценить предложенный метод, мы проводим эксперименты с двумя наборами данных. Первый набор данных состоит из Википедии и DBpedia.Онтология DBpedia используется как база знаний, а корпус Википедии используется как корпус для генерации шаблонов и извлечения новых троек знаний. Для количественной оценки принят эталонный набор данных QALD-3 (задача лексикализации онтологий), где набор данных состоит из 30 предикатов, которые являются подмножеством DBpedia. Второй набор данных — это набор эталонных данных NYT (New York Times Corpus), который был принят во многих предыдущих исследованиях [36].

В эксперименте с Википедией и DBpedia вспомнить шаблоны и новые тройки невозможно рассчитать, потому что нет ответов золотого стандарта на шаблоны и новые тройки в корпусе.Таким образом, измеряется только точность (прецизионность) шаблонов и троек. Однако, чтобы косвенно показать взаимосвязь между отзывом и точностью, используется точность (прецизионность) в точке K по отношению к ранжированным тройным спискам. Все оценки выполняются вручную двумя оценщиками. В каждом суждении правильными считаются только те прогнозы, которые оба эксперта определили как истинные. С другой стороны, в эксперименте с NYT мы также представляем точность высочайшего качества, которая автоматически оценивается с помощью тестовых данных.

Предложенный метод оценен с помощью четырех экспериментов. Цель первых двух экспериментов — показать эффективность нашего шага генерации паттернов. В первом эксперименте предложенный шаблон дерева синтаксического анализа сравнивается с шаблоном лексической последовательности, а эффективность предложенного семантического фильтра исследуется во втором эксперименте. Новые тройки, извлеченные с помощью наших шаблонов дерева синтаксического анализа, оцениваются в третьем эксперименте. В заключительном эксперименте предложенный метод сравнивается с предыдущими исследованиями с использованием другого набора контрольных данных, NYT.

6.1. Оценка шаблонов дерева синтаксического анализа

Мы показываем превосходство представления шаблонов в виде дерева синтаксического анализа, сравнивая его с лексическим представлением. Для оценки паттернов из 30 отношений выбираются десять наиболее часто встречающихся отношений. Десять используемых отношений: художник, доска, кресты, место смерти, поле, местоположение, издатель, религия, супруга и команда. Хотя используется только треть отношений DBpedia, десять отношений могут охватывать большинство кандидатов в шаблоны.То есть 63 704 уникальных кандидата в шаблоны генерируются из 30 отношений, но 75% из них охватываются десятью отношениями.

Все тройки онтологии DBpedia, соответствующие десяти предикатам, используются как начальные тройки. Чтобы сгенерировать оба типа шаблонов, из корпуса Википедии случайным образом выбирается 100 предложений для каждого отношения. Поскольку один шаблон генерируется из предложения, каждое отношение имеет 100 шаблонов для представления дерева синтаксического анализа и лексического представления соответственно.Чтобы получить шаблоны лексической последовательности, которые использовались в предыдущих работах, таких как BOA или OLLIE, мы следуем только этапу поиска шаблонов BOA. Правильность каждого шаблона оценивают два человека-оценщика. Для каждого образца отношения оценщики определяют, точно ли слова в образце передают значение отношения. Наконец, правильными считаются только те модели, с которыми оба эксперта согласны как истинные.

На рисунке 4 показан результат сравнения дерева синтаксического анализа и шаблонов лексической последовательности.Ось X этого рисунка представляет отношения, а ось Y — точность шаблонов. Предлагаемые шаблоны дерева синтаксического анализа показывают более высокую точность, чем шаблоны лексической последовательности для всех отношений. Средняя точность шаблонов дерева синтаксического анализа составляет 68%, в то время как точность шаблонов лексической последовательности составляет всего 52%. Максимальная разница в точности между двумя представлениями паттернов составляет 35% для издателя отношения. Поскольку деревья синтаксического анализа представляют отношения зависимости между словами и, таким образом, могут выявить зависимости между словами, не входящими в состав слов, более точные шаблоны генерируются деревьями синтаксического анализа.

После исследования всех 1000 (= 100 шаблонов · 10 отношений) шаблонов дерева синтаксического анализа было обнаружено, что около 34% слов, встречающихся в шаблонах, являются неперемешивающимися словами, а около 45% шаблонов содержат по крайней мере одно непереходящее слово. Тот факт, что многие шаблоны содержат неперемешивающиеся слова, подразумевает, что предложенный шаблон дерева синтаксического анализа эффективно представляет зависимости между словами на большом расстоянии. Например, рассмотрим следующее предложение и тройной FloatingintotheNight, artist, JuleeCruise.

В частности, он спродюсировал и написал тексты для первых двух альбомов Джули Круз,

Floating into the Night (1989) и The Voice of Love (1993).

Из этого предложения лексический образец извлекает первые два альбома (ы) как образец, а образец содержит бессмысленные слова, такие как первый и два. Однако следующий образец дерева синтаксического анализа исключает такие непересекающиеся слова.

[Тема] ← appos ← [альбом] → возможности → [Object].

6.2. Производительность семантического фильтра

Предлагаемый семантический фильтр основан на совокупном подобии подобия на основе WordNet и подобия встраивания слов.Таким образом, мы сравниваем составное подобие с каждым базовым подобием, чтобы увидеть превосходство семантического фильтра. Кроме того, многие представления шаблонов лексической последовательностью удаляют нерелевантные шаблоны на основе частоты шаблонов. Таким образом, частотный фильтр также сравнивается с предложенным семантическим фильтром.

Для каждого отношения шаблоны дерева синтаксического анализа генерируются с использованием всех исходных троек и корпуса Википедии. В результате сгенерировано 47 390 шаблонов дерева синтаксического анализа. Таким образом, одно отношение имеет в среднем 4739 паттернов.Затем были применены четыре фильтра для сортировки паттернов по их сходству или частоте. Поскольку нецелесообразно исследовать правильность 47 390 паттернов вручную, проверяется правильность 100 лучших паттернов по каждому фильтру. На рис. 5 показаны средние значения точности top-K для четырех фильтров. На этом рисунке «WordNet + Word Embedding» — это предлагаемый семантический фильтр, «WordNet Only» и «Word Embedding Only» — два базовых фильтра, а «Frequency-Based» — частотный фильтр, используемый в OLLIE [9].«Встраивание WordNet + Word» превосходит все другие фильтры для всех k. Кроме того, разница между «встраиванием WordNet + Word» и другими фильтрами увеличивается с увеличением k. Эти результаты означают, что предложенный семантический фильтр сохраняет высококачественные паттерны и эффективно удаляет нерелевантные паттерны. Среди десяти отношений результаты для deathPlace показывают самую низкую точность. Как показано на рисунке 6a, точность deathPlace ниже 50% для всех фильтров. В базе знаний понятия Person и Location обычно используются как область и диапазон deathPlace соответственно.Однако они часто используются для многих других отношений, таких как место рождения и национальность. Таким образом, даже если ряд паттернов генерируется из предложений с Человеком в качестве субъекта и Местоположение в качестве объекта, многие из них вообще не связаны с deathPlace. Например, шаблон дерева синтаксического анализа

[Тема] ← nsubj ← [live] → подготовка → [Объект].

образовано из предложения «Каспар Хаузер жил в Ансбахе с 1830 по 1833 год». с семенной тройкой KasparHauser, deathPlace, Ansbach. Этот паттерн высоко ценится в нашей системе, но его значение — «Субъект живет в объекте».Таким образом, он не передает значение места смерти. Когда сходство встраивания слов сравнивается со сходством на основе WordNet, оно оказывается более точным, чем сходство на основе WordNet. Как видно на рисунке 5, его точность всегда выше, чем точность подобия на основе WordNet для всех k. Однако его точность чрезвычайно низка для родственников, как показано на рисунке 6b. Такая крайне низкая точность бывает, когда похожие слова отношения в пространстве вложения слов не являются синонимами отношения.Подобные слова супруга в WordNet являются его синонимами, такими как «жена» и «муж», но в месте вложения слова используются «ребенок» и «бабушка и дедушка». Даже если «ребенок» и «дедушка и бабушка» подразумевают семейные отношения, они не соответствуют супругу. Поскольку предлагаемый семантический фильтр использует комбинацию подобия на основе WordNet и подобия внедрения слов, проблема пространства для встраивания слов компенсируется подобием на основе WordNet. На рисунках 7 и 8 показаны точности Top-K для всех отношений, кроме deathPlace и супруга.Для большинства отношений оценка на основе семантики обеспечивает более высокую производительность, чем оценка на основе частоты.
6.3. Оценка недавно извлеченных знаний

Чтобы исследовать, создают ли шаблоны дерева синтаксического анализа и семантические фильтры точные новые тройки, тройки, извлеченные с помощью шаблонов «дерево синтаксического анализа + семантический фильтр», сравниваются с образцами, извлеченными с помощью «лексического + частотного фильтра», « лексический + семантический фильтр »и шаблоны« дерево синтаксического анализа + частотный фильтр ». Поскольку корпус Википедии чрезмерно велик, из корпуса случайным образом выбираются 15 миллионов предложений, а из предложений извлекаются новые тройки.

Таблица 2 показывает подробную статистику количества совпадающих шаблонов и троек, извлеченных вместе с шаблонами. Согласно этой таблице количество совпадающих шаблонов лексической последовательности составляет 255, а количество шаблонов дерева синтаксического анализа — 713. В результате количество новых троек, извлеченных шаблонами лексической последовательности и шаблонами дерева синтаксического анализа, составляет 32 113 и 104 311 соответственно. Хотя шаблоны лексической последовательности и шаблоны дерева синтаксического анализа генерируются из идентичного набора данных и применяются к нему, шаблоны дерева синтаксического анализа извлекают на 72198 троек больше, чем шаблоны лексической последовательности, что означает, что охват шаблонов дерева синтаксического анализа намного шире, чем охват шаблонов лексических последовательностей. .При оценке новых троек для каждого отношения выбираются 100 лучших троек в соответствии с рангами, а правильность 4000 (= 100 троек · 10 отношений · 4 типа образцов) троек проверяется вручную двумя экспертами. Как и в предыдущих экспериментах, правильными считаются только тройки, отмеченные обоими экспертами как истинные. Таблица 3 суммирует точность троек, извлеченных с помощью шаблонов «дерево синтаксического анализа + семантический фильтр» и троек с помощью шаблонов «лексический + частотный фильтр», «лексический + семантический фильтр» и «дерево синтаксического анализа + частотный фильтр».Тройки, извлеченные с помощью шаблонов «дерево синтаксического анализа + семантический фильтр», достигают 60,1% точности, тогда как тройки, полученные с помощью шаблонов «дерево синтаксического анализа + частотный фильтр», «лексический + семантический фильтр» и «лексический + частотный фильтр», достигают 53,9%, 38,2% и 32,4% точности соответственно. Тройки, извлеченные с помощью шаблонов «дерево синтаксического анализа + семантический фильтр», превосходят аналогичные по шаблонам «лексический + частотный фильтр» на 27,7%. Они также на 21 превосходят тройки, извлеченные с помощью шаблонов «лексический + семантический фильтр» и «дерево синтаксического анализа + частотный фильтр».9% и 6,2% соответственно. Эти результаты доказывают, что обогащение знаний значительно улучшается при использовании шаблонов дерева синтаксического анализа и предлагаемого семантического фильтра.

Большинство неправильных троек по образцам дерева синтаксического анализа происходят из трех отношений: место смерти, поле и религия. Точность новых троек без соотношений достигает 74,0%. Причина, по которой deathPlace производит много неправильных троек, объяснена выше. Для отношений поля и религии было обнаружено, что несколько неправильных шаблонов, которые высоко ранжируются семантическим фильтром, порождают большинство новых троек.Поэтому решать проблемы — это наша будущая работа.

После создания всех возможных кандидатов дерева шаблонов нерелевантные кандидаты удаляются с помощью уравнения (1). θr каждого отношения r, используемого для фильтрации нерелевантных кандидатов, приведены в таблице 4. В среднем 71 шаблон каждого отношения сопоставляется с предложениями Википедии, но только 37 шаблонов остаются после семантической фильтрации. Затем из 104 311 троек тройки, извлеченные из удаленных шаблонов, исключаются из результатов.В результате 12 522 новых тройки извлекаются и добавляются к семенным знаниям.
6.4. Сравнение с предыдущей работой
Чтобы показать правдоподобность предлагаемого метода, мы проводим дополнительный эксперимент с новым набором данных тестов, NYT, который генерируется с помощью отношений Freebase и корпуса New York Times [36]. Сущности и отношения Freebase согласованы с предложениями корпуса в 2005–2006 годах. Тройки, сгенерированные этим выравниванием, считаются обучающими данными, а тройки, согласованными с предложениями 2007 года, считаются тестовыми данными.Обучающие данные содержат 570 088 экземпляров с 63 428 уникальными сущностями и 53 отношениями со специальным отношением «NA», которое указывает на отсутствие связи между сущностями субъекта и объекта. Тестовые данные содержат 172 448 экземпляров с 16 705 объектами и 32 отношениями, включая «NA». Обратите внимание, что «NA» используется для обозначения отрицательных случаев. Таким образом, тройки с отношением «NA» фактически не несут никакой информации. Без троек с отношением «NA» остается 156 664 и 6444 троек в обучающих и тестовых данных.Таблица 5 показывает простую статистику по набору данных NYT. Предлагаемый метод сравнивается с четырьмя вариантами PCNN (кусочно-сверточной нейронной сети), которые использовали набор данных NYT для их оценки [19,20,21,22]. Эти модели перечислены в таблице 6, в которой ATT подразумевает метод внимания, предложенный Lin et al. [19], nc и cond_opt обозначают преобразователь шума и условный оптимальный селектор Wu et al. [20] soft-label означает метод soft-label по Liu et al. [21], а ATT_RA и BAG_ATT — это метод внимания внутри пакета с учетом отношений и метод внимания между пакетами, предложенный Ye et al.[22]. Мы измеряем точность top-K ([email protected] K), где K равно 100, 200 и 300. В таблице 6 приведены результаты сравнения производительности набора данных NYT. Согласно этой таблице, предлагаемый метод достигает производительности, сопоставимой с методами на основе нейронных сетей. PCNN + ATT_RA + BAG_ATT показывает наивысшую среднюю точность 84,8%, в то время как предлагаемый метод достигает 79,2%. Таким образом, разница между ними составляет всего 5,6%. Предлагаемый метод, однако, не противоречит изменению K. Все методы на основе нейронных сетей показывают разницу примерно в 10% между K = 100 и K = 300.С другой стороны, разница в предлагаемом методе составляет всего 5,4%, что означает, что предложенный подход к генерации шаблонов и оценке подходит для этой задачи. Кроме того, шаблоны, созданные с помощью предлагаемого метода, можно легко интерпретировать, и, таким образом, ошибки рисунка могут быть исправлены без особых усилий.

7. Выводы и дальнейшая работа

Генерация точных шаблонов является ключевым фактором обогащения знаний на основе шаблонов. В этой статье были предложены шаблон дерева синтаксического анализа и семантический фильтр для удаления нерелевантных кандидатов в шаблоны.Преимущество использования представления дерева синтаксического анализа для шаблонов состоит в том, что зависимости слов на большом расстоянии хорошо выражаются деревом синтаксического анализа. Таким образом, шаблоны дерева синтаксического анализа содержат много слов, которые не расположены между двумя словами сущности. Кроме того, преимуществом семантического фильтра является то, что он находит нерелевантные шаблоны более точно, чем частотный фильтр, поскольку он напрямую отражает смысл отношений.

Преимущества нашей системы были эмпирически подтверждены экспериментами с использованием онтологии DBpedia и корпуса Википедии.Предложенная система достигла 68% точности генерации шаблонов, что на 16% выше, чем у лексических шаблонов. Кроме того, знания, извлеченные заново с помощью шаблонов дерева синтаксического анализа, показали точность 60,1%, что на 27,7% выше, чем точность данных, извлеченных с помощью лексических шаблонов и статистической оценки. Хотя по сравнению с предыдущими методами, основанными на нейронных сетях, предложенный метод не смог обеспечить современную производительность, он показал отличную производительность, учитывая простоту модели.В частности, это доказывает, что предлагаемый нами подход надежно подходит для задачи обогащения знаний. Эти результаты означают, что предлагаемый метод обогащения знаний эффективно заполняет новые знания.

В качестве нашей будущей работы мы найдем более подходящую метрику сходства между шаблоном и отношением. В ходе нескольких экспериментов мы показали, что WordNet и встраивание слов подходят для этой задачи без дополнительных огромных усилий. Тем не менее, есть еще кое-что для улучшения производительности.Таким образом, мы исследуем новое семантическое сходство, чтобы хорошо уловить взаимосвязь между отношением и шаблоном в будущем. Еще одна слабость предлагаемого метода состоит в том, что он не может обрабатывать невидимые отношения. Очень важно обнаруживать невидимые отношения, чтобы сделать базу знаний как можно более совершенной. Недавно встраивание баз знаний на основе переводов показало некоторый потенциал для поиска отсутствующих связей [37,38]. Поэтому в будущем мы будем исследовать способ обнаружения отсутствующих отношений и обогащения базы знаний, применяя их к базе знаний.

python — Вычислить косинусное сходство по 2 строкам предложений

Короткий ответ: «нет, это невозможно сделать принципиальным способом, который работал бы даже удаленно». Это нерешенная проблема в исследовании обработки естественного языка, а также тема моей докторской работы. Я очень кратко резюмирую, где мы находимся, и укажу вам несколько публикаций:

Значение слов

Наиболее важным предположением здесь является то, что можно получить вектор, который представляет каждое слово в предложении в вопросе.Этот вектор обычно выбирается для захвата контекстов, в которых может появляться слово. Например, если мы рассматриваем только три контекста «есть», «красный» и «пушистый», слово «кошка» может быть представлено как [98, 1 , 87], потому что, если бы вы прочитали очень-очень длинный отрывок текста (несколько миллиардов слов — не редкость по сегодняшним стандартам), слово «кошка» очень часто появлялось бы в контексте «пушистый» и «съесть». , но не так часто в контексте «красных». Таким же образом, «собака» может быть представлена ​​как [87,2,34], а «зонтик» — как [1,13,0].Представляя эти векторы как точки в трехмерном пространстве, «кошка» явно ближе к «собаке», чем к «зонтику», поэтому «кошка» также означает нечто более похожее на «собаку», чем на «зонтик».

Это направление работ исследовалось с начала 90-х (например, эта работа Греффенстетта) и дало несколько удивительно хороших результатов. Например, вот несколько случайных записей в тезаурусе, который я недавно построил, прочитав на моем компьютере википедию:

  теория -> анализ, концепция, подход, идея, метод
голос -> вокал, тон, звук, мелодия, пение
Джеймс -> Уильям, Джон, Томас, Роберт, Джордж, Чарльз
  

Эти списки похожих слов были получены полностью без вмешательства человека — вы вводите текст и возвращаетесь через несколько часов.

Проблема с фразами

Вы можете спросить, почему мы не делаем то же самое для длинных фраз, таких как «рыжие лисы любят фрукты». Это потому, что у нас не хватает текста. Чтобы мы могли точно определить , на что похож X, нам нужно увидеть много примеров того, как X используется в контексте. Когда X — это одно слово, такое как «голос», это не так уж сложно. Однако по мере того, как X становится длиннее, шансы найти естественные вхождения X экспоненциально снижаются.Для сравнения: в Google есть около 1 млрд страниц, содержащих слово «лиса», и ни одна страница не содержит «имбирные лисы любят фрукты», несмотря на то, что это совершенно правильное английское предложение, и все мы понимаем, что оно означает.

Состав

Чтобы решить проблему разреженности данных, мы хотим выполнить композицию, то есть взять векторы для слов, которые легко получить из реального текста, и соединить их таким образом, чтобы уловить их значение. Плохая новость в том, что до сих пор никому не удавалось добиться этого.

Самый простой и очевидный способ — сложить или умножить отдельные векторы слов вместе. Это приводит к нежелательному побочному эффекту: «кошки преследуют собак» и «собаки преследуют кошек» будут означать то же самое для вашей системы. Кроме того, если вы умножаете, вы должны быть особенно осторожны, иначе каждое предложение будет представлено в виде [0,0,0, …, 0], что лишает смысла.

Дополнительная литература

Я не буду обсуждать более сложные методы композиции, которые были предложены до сих пор.Предлагаю вам прочитать книгу Катрин Эрк «Векторные пространственные модели значения слов и значений фраз: обзор». Это очень хороший обзор высокого уровня, который поможет вам начать работу. К сожалению, его нет в свободном доступе на веб-сайте издателя, напишите автору напрямую, чтобы получить копию. В этой статье вы найдете ссылки на многие другие конкретные методы. Более понятные — Митчел и Лапата (2008) и Барони и Зампарелли (2010).

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

2024 © Все права защищены.