Разбор по составу слова мгновенно: «мгновенно» — корень слова, разбор по составу (морфемный разбор слова)

Слова «мгновенно» морфологический и фонетический разбор

1. проворно

2. разом

3. сразу

4. кратко

5. моментально

6. быстро

7. молниеносно

8. вмиг

9. мигом

10. непродолжительно

11. быстротечно

12. махом

13. кратковременно

14. недолговременно

15. скоротечно

16. секундно

17. моментом

18. в мгновение

19. в мгновение ока

20. в минуту

21. в момент

22. в один миг

23. в один момент

24. в одно мгновение

25. в одну минуту

26. в два счета

27. с быстротою молнии

28. искрометно

29. скоро

30. без лишних слов

31. не теряя времени

32. не теряя времени даром

33. не тратя времени

34. не тратя времени даром

35. за короткое время

36. за короткий срок

37. в короткий срок

38. немедленно

39. тотчас

40. тотчас же

41. тут же

42. сразу же

43. в ту же минуту

44. в ту же секунду

45. сейчас

46. сейчас же

47. в тот же миг

48. не откладывая

49. без промедления

50. без задержки

51. не долго думая

52. не раздумывая

53. без дальних разговоров

54. без дальних слов

55. без лишних разговоров

56. как по волшебству

57. как по команде

58. как по мановению волшебного жезла

59. как по мановению волшебной палочки

60. словно по волшебству

61. словно по мановению волшебного жезла

62. словно по мановению волшебной палочки

63. точно по волшебству

64. точно по мановению волшебного жезла

65. точно по мановению волшебной палочки

66. незамедлительно

67. немедля

68. мимолетно

69. раз-раз

70. в два приема

71. живой ногой

72. живой рукой

73. живым манером

74. оглянуться не успеешь

75. ахнуть не успеешь

76. глазом моргнуть не успеешь

77. одним духом

78. единым духом

79. одним пыхом

80. раз-два и готово

81. моменталом

82. оперативно

83. не мешкая

84. в один присест

85. за один присест

86. за один прием

87. в один прием

88. одним приемом

89. одним разом

90. внезапно

91. гульк

What does npm exec do? What is the difference between «npm exec» and «npx»?

What are the building blocks of OWL ontologies?

Learn more about «RDF star», «SPARQL star», «Turtle star», «JSON-LD star», «Linked Data star», and «Semantic Web star».

The Hadamard gate is one of the simplest quantum gates which acts on a single qubit.

Learn more about the bra–ket notation.

Progressive Cactus is an evolution of the Cactus multiple genome alignment protocol that uses the progressive alignment strategy.

The Human Genome Project is an ambitious project which is still underway.

What are SVMs (support vector machines)?

Find out more in Eckher’s article about TensorFlow.js and linear regression.

On the importance of centralised metadata registries at companies like Uber.

Facebook’s Nemo is a new custom-built platform for internal data discovery. Learn more about Facebook’s Nemo.

What is Data Commons (datacommons.org)? Read Eckher’s introduction to Data Commons (datacommons.org) to learn more about the open knowledge graph built from thousands of public datasets.

Learn more about how Bayer uses semantic web technologies for corporate asset management and why it enables the FAIR data in the corporate environment.

An introduction to WikiPathways by Eckher is an overview of the collaboratively edited structured biological pathway database that discusses the history of the project, applications of the open dataset, and ways to access the data programmatically.

Eckher’s article about question answering explains how question answering helps extract information from unstructured data and why it will become a go-to NLP technology for the enterprise.

Read more about how document understanding AI works, what its industry use cases are, and which cloud providers offer this technology as a service.

Lexemes are Wikidata’s new type of entity used for storing lexicographical information. The article explains the structure of Wikidata lexemes and ways to access the data, and discusses the applications of the linked lexicographical dataset.

The guide to exploring linked COVID-19 datasets describes the existing RDF data sources and ways to query them using SPARQL. Such linked data sources are easy to interrogate and augment with external data, enabling more comprehensive analysis of the pandemic both in New Zealand and internationally.

The introduction to the Gene Ontology graph published by Eckher outlines the structure of the GO RDF model and shows how the GO graph can be queried using SPARQL.

The overview of the Nobel Prize dataset published by Eckher demonstrates the power of Linked Data and demonstrates how linked datasets can be queried using SPARQL. Use SPARQL federation to combine the Nobel Prize dataset with DBPedia.

Learn why federated queries are an incredibly useful feature of SPARQL.

What are the best online Arabic dictionaries?

How to pronounce numbers in Arabic?

List of months in Maori.

Days of the week in Maori.

The list of country names in Tongan.

The list of IPA symbols.

What are the named entities?

What is computational linguistics?

Learn how to use the built-in React hooks.

Learn how to use language codes in HTML.

Learn about SSML.

Browse the list of useful UX resources from Google.

Where to find the emoji SVG sources?.

What is Wikidata?

What’s the correct markup for multilingual websites?

How to use custom JSX/HTML attributes in TypeScript?

Learn more about event-driven architecture.

Where to find the list of all emojis?

How to embed YouTube into Markdown?

What is the Google Knowledge Graph?

Learn SPARQL.

Explore the list of coronavirus (COVID-19) resources for bioinformaticians and data science researchers.

Sequence logos visualize protein and nucleic acid motifs and patterns identified through multiple sequence alignment. They are commonly used widely to represent transcription factor binding sites and other conserved DNA and RNA sequences. Protein sequence logos are also useful for illustrating various biological properties of proteins. Create a sequence logo with Sequence Logo. Paste your multiple sequence alignment and the sequence logo is generated automatically. Use the sequence logo maker to easily create vector sequence logo graphs. Please refer to the Sequence Logo manual for the sequence logo parameters and configuration. Sequence Logo supports multiple color schemes and download formats.

Sequence Logo is a web-based sequence logo generator. Sequence Logo generates sequence logo diagrams for proteins and nucleic acids. Sequence logos represent patterns found within multiple sequence alignments. They consist of stacks of letters, each representing a position in the sequence alignment. Sequence Logo analyzes the sequence data inside the user’s web browser and does not store or transmit the alignment data via servers.

Te Reo Maps is an online interactive Maori mapping service. All labels in Te Reo Maps are in Maori, making it the first interactive Maori map. Te Reo Maps is the world map, with all countries and territories translated into Maori. Please refer to the list of countries in Maori for the Maori translations of country names. The list includes all UN members and sovereign territories.

Phonetically is a web-based text-to-IPA transformer. Phonetically uses machine learning to predict the pronunciation of English words and transcribes them using IPA.

Punycode.org is a tool for converting Unicode-based internationalized domain names to ASCII-based Punycode encodings. Use punycode.org to quickly convert Unicode to Punycode and vice versa. Internationalized domains names are a new web standard that allows using non-ASCII characters in web domain names.

My Sequences is an online platform for storing and analyzing personal sequence data. My Sequences allows you to upload your genome sequences and discover insights and patterns in your own DNA.

Словообразовательный словарь «Морфема» дает представление о морфемной структуре слов русского языка и слов современной лексики. Для словообразовательного анализа представлены наиболее употребительные слова современного русского языка, их производные и словоформы. Словарь предназначен школьникам, студентам и преподавателям. Статья разбора слова «сладкоежка» по составу показывает, что это слово имеет два корня, соединительную гласную, суффикс и окончание. На странице также приведены слова, содержащие те же морфемы. Словарь «Морфема» включает в себя не только те слова, состав которых анализируется в процессе изучения предмета, но и множество других слов современного русского языка. Словарь адресован всем, кто хочет лучше понять структуру русского языка.

Разбор слова «кормушка» по составу.

Разбор слова «светить» по составу.

Разбор слова «сбоку» по составу.

Разбор слова «шиповник» по составу.

Разбор слова «народ» по составу.

Разбор слова «впервые» по составу.

Разбор слова «свежесть» по составу.

Разбор слова «издалека» по составу.

Разбор слова «лесной» по составу.

Сложное предложение (Упражнения и тест)

Упражнение 1.

Подготовьтесь к чтению вслух (расставьте логические ударения; определите место пауз; вспомните, что является сигналом конца предложения).
Как доказать, что перед нами одно сложное предложение? Запишите его.

В каких случаях вы можете лишь указать место, где нужен знак, но ещё не знаете, как обосновать его выбор?

Уж небо осенью дышало, уж реже солнышко блистало, короче становился день, лесов таинственная сень с печальным шумом обнажалась, ложился на поля туман, гусей крикливых караван тянулся к югу: приближалась довольно скучная пора; стоял ноябрь уж у двора.
(А. Пушкин)

Упражнение 2.

Из данных простых предложений составьте сложные, используя союз И. Запишите полученные предложения, применяя нужное правило пунктуации.

О чём мы узнаём из первого сложного предложения дополнительно к содержанию простых, вошедших в его состав? А из второго? Опираясь на проведённые наблюдения, докажите, что содержание сложного предложения богаче содержания составляющих его простых.

I.1) Пошёл дождь. 2) Полеводы облегчённо вздохнули.
II. 1) Пошёл дождь. 2) Полеводы начали беспокоиться.

Упражнение 3.

Найдите сложные предложения, подчеркните грамматические основы.
Укажите средства связи входящих в сложные простых предложений. Запишите, обозначая вид сложного предложения.


1) Нет счастья вне родины, каждый интонация пускай корни в родную землю. (И. Тургенев) 2) Я люблю Россию до боли сердечной и даже не могу помыслить себя где-либо, кроме России. (М. Салтыков-Щедрин) 3) Я изъездил почти всю страну, видел много мест, удивительных и сжимающих сердце, но ни одно из них не обладало такой внезапной лирической силой, как Михайловское. (К. Паустовский) 4) Истоки сыновнего чувства к отчизне лежат там, где мы рождаемся и живём. (В. Песков)


Упражнение 4.

Из данных простых составьте сложные предложения, используя подходящее средство связи и устраняя повтор слов.
Запишите полученные предложения, расставляя знаки препинания.
Объясните, какие новые оттенки значения появились в сложных предложениях по сравнению с простыми, из которых они составлены.


1) В этом году мы начинаем изучать историю русской литературы. Знать историю русской литературы — потребность каждого культурного человека. 2) С именем М. В. Ломоносова мы могли бы встретиться не только на уроках химии, физики, астрономии, литературы, но и на уроках русского языка. М. В. Ломоносов — автор первой русской грамматики. 3) «Слово о полку Игореве» написано на древнерусском языке. Мы читаем «Слово о полку Игореве» в переводе.

Упражнение 5.

Придумайте бессоюзные сложные предложения, в которых смысловые отношения между их частями опирались бы на лексические значения таких слов и словосочетаний:

плохая погода — несостоявшаяся прогулка; словарь — правописание слов; весна — цветы; жаркая погода — пляж; билет на поезд — командировка

Упражнение 6.

Запишите предложения, расставляя недостающие знаки препинания. Укажите вид сложных предложений.
Назовите пунктуационные правила, которые нашли применение в записанных вами предложениях.
Составьте схемы предложений, выделенных для синтаксического разбора, чтобы объяснить расстановку знаков препинания.

1) Я узнал что осень смешала все чистые краски, какие существуют на земле, и нанесла их как на холст на далёкие пространства земли и неба. 2) Я видел листву не только золотую и пурпурную но и алую фиолетовую коричневую чёрную серую и почти белую. 3) Краски казались особенно мягкими из-за осенней мглы неподвижно висевшей в воздухе.4 4) А когда шли дожди мягкость красок сменялась блеском.4 5) В сосновых чащах дрожали от холода берёзы осыпанные сусальной позолотой. 6) Деревья начинали желтеть снизу: я видел осины красные внизу и совсем ещё зелёные на верхушках. 7) Я уверил себя что эта осень первая и последняя в моей жизни.

(К. Паустовский)

Упражнение 7.

Прочитайте, найдите простые и сложные предложения. Укажите в них грамматические основы. Определите вид каждого сложного предложения и расскажите, как связаны в нем простые. Начертите схемы 1-го и 3-го предложений.

1) Стоял апрель, мы жили в Ялте, бездельничали после девяти месяцев отчаянной трепки в зимнем океане. 2) Мы жили в гостинице на набережной, и по ночам над нашими окнами шумело море, иногда перехлестывая через парапет. 3) Я все думал, что вот строил человек дом, хотел тихо пожить, чай пить, глядеть на море, вообще как-то побыть самому, писать там что-нибудь, думать. 4) Отчего нам было скучно, мы не знали. 5) Забавин оглянулся и через три-четыре секунды увидел высокую белую звезду маяка, окруженную сиянием, вспыхнувшую на мгновение ярким светом в ночи и снова погасшую. 6) Потом звезда опять вспыхнула и погасла, и так повторялось все время, и было странно и приятно видеть этот мгновенный немой свет. 7) Иногда лыжникам попадался лисий след, который ровной и в то же время извилистой строчкой тянулся от былья к былью, от кочки к кочке. 8) Потом след поворачивал и пропадал в снежном сиянии. 9) Лыжники шли дальше, и им попадались уже заячьи следы или беличьи в осиновых и березовых рощах. 10) Окна были холодны и прозрачны, но лавки с печками источали сухое тепло, и хорошо было смотреть на солнечные снега за окнами и слушать быстрое мягкое постукивание колес внизу.

(По Ю. П. Казакову.)

Упражнение 8.

Прочитайте. Определите грамматические основы и начертите схемы предложений.

1) Ягненок дрожал мелкой дрожью и валился с ножек, когда его внесли в избу и опустили на пол. 2) Солнце всходило, но вместе с ним с востока шли облака, и как-то не светлело. 3) Изредка блеснет на солнце серебристой чешуйкой летучая рыбка, покажет черную спину играющий кит и шумно выпустит фонтан воды, высоко реет в воздухе темный фрегат (морская птица) или белоснежный альбатрос. 4) Убеждения внушаются теорией, поведение же формируется примером. 5) Если бы я мог сбросить со счетов еще лет десять, то мне хватило бы времени написать еще и вторую повесть. 6) Даша прощалась с ним так, как прощаются навсегда.


Упражнение 9.

Спишите предложения, соблюдая орфографические и пунктуационные нормы. Вставьте вместо пропуска слова хищный или хищнический. Составьте схемы сложных предложений. Выполните синтаксический разбор простых предложений.

1) Эпитет «простоватый» ознчал (не)столько умстве(н, нн)ую бедность сколько отсу_ствие … накло(н, нн)остей. (М. Салтыков-Щедрин) 2) Пулей выт_нув шею несё(тся, ться) чирок над ним (не)отст_вая падая и примеряясь пр_ворный … сокол. (А. Н. Толстой) 3) Ст_ратели портят по словам учё(н, нн)ых лучшие места своею … выработкой золотонос(?)-ного песка. (Д. Мамин-Сибиряк) 4) Он п_спешно разв_зал уз_лок ст_раясь уверну(тся, ться) от … рук вырывавших его и сунул в чью(то) руку яблоко которое ему м_шало. (А. Куприн)

Упражнение 10.

Спишите, соблюдая орфографические и пунктуационные нормы. Составьте схемы сложных предложений. Определите их вид.

Все м_лились о снеге и вот наконец пошли косич(?)ки по небу мороз н_чал сдавать. Ветер опять утих и бл_годатный снег начал медле(н, нн)о опуска(тся, ться) на землю. Радос(?)но смотрели крест(?)яне на п_рхающие в воздухе пушистые снежинки которые опускались на землю. Что(бы) насл_ди(тся, ться) этой к_ртиной я вышел в поле. Чудное зрел_ще открылось глазам моим: всё безгр_ничное пр_странство (во)круг меня предст_вляло вид снежного потока. Мне к_залось буд(то) небеса разверзлись ра(с, сс)ьшались снежным пухом н_полняя весь воздух дв_жением и пор_зительной тиш_ной. Наступали дли(н, нн)ые зимние сум_рки и пад_ющий снег нач_нал закрывать все предметы и белым мраком од_вал землю. (По С. Аксакову)

Упражнение 11.

Спишите текст. Подчеркните грамматическую основу предложений.

Я шел вместе со своей тенью по росистой, радужной траве поляны, входил в пестрый сумрак аллеи, ведущей к пруду, и луна покорно следовала за мной. Я шел, оглядываясь, — она, зеркально сияя и дробясь, катилась сквозь черный и местами ярко блестящий узор ветвей и листьев. Я стоял на росистом скате к полноводному пруду, широко сиявшему своей золотой поверх¬ностью возле плотины вправо. Я стоял, глядел — и луна стояла, глядела. Возле берега, подо мной, была зыбкая, темно-зеркальная бездна подводного неба, на которой висели, чутким сном спали, спрятав под крыло голову и глубоко отражаясь в ней, утки… Какое молчание — так может молчать только что-нибудь живое!.. (И. Бунин.)


Упражнение 12.

Расставьте знаки препинания. Определите, двусоставной или односоставной является каждая часть сложного предложения, определите тип односоставной предикативной конструкции (безличная, неопределенно-личная и т.п.)

1) Я должен был нанять быков чтоб втащить мою тележку на эту проклятую гору потому что была уже осень и гололедица. (М. Лермонтов.) 2) Сделалось так темно что в каюте и салонах зажгли электричество. (В. Катаев.) 3) Когда я читаю или слышу об ухе с дымком меня непременно посещает одно и то же но очень радостное воспоминание как одноглазый мой дед Павел лупил меня палкой за уху пахнущую дымом потому что она может пахнуть только по причине разгильдяйства. (В. Астафьев.)

Упражнение 13.

Расставьте знаки препинания в сложных предложениях. Найдите предикативные конструкции в сложных предложениях. Найдите слова, которые не позволяют употребить предикативные конструкции как простые предложения.

1) Он вскочил со скамейки и проворно удалился прежде чем Литвинов успел промолвить слово. (И. Тургенев.) 2) …Как только черт спрятал в кармане свой месяц вдруг по всему миру сделалось так темно что не всякий бы нашел дорогу в шинок. (Н. Гоголь.) 3) Я раскаиваться начал что поехал в Сушково но дрогнуло затрепыхалось сердце когда возле одиноко и плоско стоявшего на берегу барака увидел я косматенького уже седого человека. (В. Астафьев.) 4) Когда ночная роса и горный ветер освеж.ли мою горящую голову и мысли пришли в обычный порядок то я понял что гнаться за погибшим счастьем бесполезно и безрассуАно. (М. Лермонтов.)

 

Тест по теме «Сложное предложение»

1. Дайте верную характеристику следующего предложения.
У Берсенева в комнате стояло фортепьяно, небольшое и не новое, но с мягким и приятным, хоть и не совсем чистым тоном. (И.С. Тургенев)

1) простое осложнённое
2) сложносочинённое
3) сложноподчинённое
4) сложное бессоюзное   

2. Сколько грамматических основ содержится в следующем предложении?

Давно уже отмечено умными людьми, что счастье как здоровье: когда оно налицо, его не замечаешь. (М. Булгаков)

3. В каком случае дано сложное предложение?

1) Каждый язык принадлежит обществу, известному общественному союзу.
2) Подруга думы праздной, чернильница моя, мой век разнообразный тобой украсил я.
3) Есть терпение, будет и умение.
4) Подъезжая к крыльцу, заметил он выглянувшие из окон почти в одно и то же время два лица: женское в чепце, узкое и длинное, как огурец, и мужское, круглое, широкое, как молдаванские тыквы.

4. Какое сложное предложение состоит из трех простых?

1) Жизнь страшна и чудесна, а потому, какой страшный рассказ ни расскажи на Руси, как ни украшай его разбойничьими гнездами, длинными ножичками и чудесами, он всегда отзовется в душе слушателя былью.
2) Некоторые магазины залиты светом, и кажется, что люди в них плавают, точно рыбы в воде аквариумов.
3) Я помню, что, когда вы, бывало, приезжали к нам на каникулы или просто так, то в доме становилось как-то свежее и светлее, точно с люстры чехлы снимали.
4) Кончался лес, и, распахнувшись до дальнего синего неба, ударила в глаза росистая ярость лугов.

5. Какое сложное предложение состоит из четырех простых?

1) Увидеть и услышать писателя для меня, провинциала, — я тогда работал в Сибири — было бы необычайным, ослепительным счастьем, на которое я не мог и надеяться.
2) Я заметил, что, куда ни пойдешь, найдешь что-нибудь замечательное.
3) Мне захотелось броситься отцу на шею и, как учила Анисья, поклониться ему в ноги, но вид дачи с готическими окнами удержал меня.
4) Камю пришел в литературу с осознанием того, что жизнь бессмысленна, а небо пусто, и это в известной мере парализовало его гуманистические устремления.

6. Какое предложение является сложносочиненным?

1) Гейне создал «Зимнюю сказку» в Париже, там же Тургенев писал «Отцы и дети».
2) Едва начался декабрьский рассвет, Аночка вышла на улицу.
3) Глушь и дичь в пуще, однако чистые просеки делятся на правильные нумерованные квадраты.
4) Как он добрался сюда — уж этого никак не мог он понять.

7. Укажите номера двух сложносочинённых предложений. (Знаки препинания не расставлены.)

1) Как все русские дворяне он в молодости учился музыке и как почти все русские дворяне играл плохо. (И.С. Тургенев)
2) В это мгновение донёсся голос супруги и повернувшись Василиса столкнулся с ней. (М. Булгаков)
3) В томленьях грусти безнадежной в тревогах шумной суеты звучал мне долго голос нежный и снились милые черты. (А.С. Пушкин)
4) Пока не требует поэта к священной жертве Аполлон в заботах суетного света он малодушно погружён. (А.С. Пушкин)

8. Какое предложение является сложноподчиненным?

1) Я вам отвечу очень просто, поскольку мы уже друзья.
2) По обе стороны — высокие, до пяти метров высоты, неприступные стены камыша, издавна получившие название крепей, глухие же чащи зеленых дремучих зарослей называют Каспийскими джунглями.
3) Нежнейшие оттенки цветов — красного, малинового, желтого и зеленого — раскрашивали облако, лучи каждое мгновение тоже меняли свою окраску.
4) То раздавались удары, то пели колеса.

9. Укажите номера трёх сложноподчиненных предложений.
(Знаки препинания не расставлены.)

1) Я уже заметил что на свете помимо лета есть ещё осень зима весна когда из дому можно выходить только изредка. (И.А.Бунин)
2) Когда вы бродили по лесу вы были смелы и прекрасны. (В.Хлебников)
3) Так стоял он загораживая дверь огромный и чёрный и говорил Иисус и громко вторило его словам прерывистое и сильное дыхание Петра. (Л. Андреев)
4) В третьем классе я сказал директору дерзость за которую меня едва не исключили из гимназии. (И. Бунин)

10. Какое предложение является сложным бессоюзным?

1) Я не знаю, будет ли свидание.
2) Раз эти стихи написаны, я смотрю на них как на товар.
3) Как ни тепел был дождь, мы начали зябнуть.
4) Растительность песков богаче глинистых пустынь, поэтому пески издавна используются для выпаса овечьих отар.

11. Укажите номера трёх сложных бессоюзных предложений. (Знаки препинания не расставлены.)

1) Снова тучи надо мною собралися в тишине рок завистливой бедою угрожает снова мне. (А.С. Пушкин)
2) Обед продолжался довольно долго Берсенев разговаривал с Еленой об университетской жизни о своих намерениях и надеждах. (И.С. Тургенев)
3) Все двадцать четыре года моей жизни я прожил в городе и думал что вьюга воет только в романах. (М. Булгаков)
4) Цели нет передо мною сердце пусто празден ум. (А.С. Пушкин)

12. Какое предложение является сложным с разными видами связи?

1) Истину нельзя рассказать так, чтобы ее поняли; надо, чтобы в нее поверили.
2) Не стоит сейчас даже и мечтать об этом, а то еще, пожалуй, начнешь страдать черной меланхолией.
3) Едва уехал командир дивизии, как началась стрельба из малокалиберных пушек, что было совершенной неожиданностью.
4) Зверя и всякую птицу обмануть можно: покричи раненым зайцем — на этот крик лиса прибежит.

13. Выпишите цифры, обозначающие в сложном предложении запятые между частями, связанными сочинительной связью.

Пространства стали доступней, (1) дороги сократились во времени. Однажды в течение одного дня мне пришлось побывать в столицах трех европейских государств, (2) а вечером я еще успел поглазеть на публику в Марсельском порту, (3) но за день из-за утомления и спешки почти ничего не осталось в моей памяти…
Многим кажется, (4) что чем больше человек изъездит, (5) тем культурнее он будет и тем шире станет его кругозор.

14. Выпишите цифры, обозначающие запятые между частями сложноподчиненного предложения.

Было время, (1) когда ночной сторож в усадьбе звонил в колокол, (2) отбивая вечернюю и утреннюю зарю. Звон вырывался за околицу, (3) стлался над рекой Соротью, (4) озерами и затухал в михайловских рощах. Одни краски сменялись другими, (5) одни звуки поглощались или, (6) наоборот, (7) усиливались. Все это и еще многое другое было тем, (8) из чего складывалась жизнь пушкинской усадьбы.

15. Выпишите цифры, обозначающие знаки препинания между частями бессоюзного предложения.

Задумывались ли вы над тем, (1) сколько слов в русском языке, (2) можно ли их сосчитать? Очевидно, (3) установить точное количество слов русского языка, (4) да и любого другого, (5) абсолютно невозможно хотя бы потому, (6) что лексика находится в постоянном движении: (7) одни слова уходят из языка, (8) другие закрепляются в нем.
                                                  

                                     Ответы:

Вычислительная модель, основанная на конкурентном торможении и лексической грамматике

Чарняк, Э. (1997). Статистические методы анализа естественного языка. Журнал AI, 18, 33-44.

Чейтер, Н., и Кристиансен, М. Х. (1999). Коннекционизм и обработка естественного языка. В С. Гаррод,

и М. Дж. Пикеринг. Языковая обработка. Хоув: Psychology Press.

Кристиансен, М. Х. и Чейтер, Н. (1999). К коннекционистской модели рекурсии в языковом поведении человека

.Когнитивная наука, 23, 157-205.

Корли С. (1998). Статистическая модель устранения неоднозначности лексических категорий человека. Кандидат наук. Диссертация.

Эдинбург: Эдинбургский университет.

Крокер М. В. (1992). Логическая модель компетенции и производительности человеческого процессора предложений.

к.э.н. Тезис. Эдинбург: Эдинбургский университет.

Делл, Г., Бургер, Л. К., и Свек, В. Р. (1997). Языковая продукция и серийный заказ: функциональный анализ

и модель.Психологическое обозрение, 104, 123-147.

Даффи, С. А., Моррис, Р. К., и Рейнер, К. (1988). Лексическая двусмысленность и время изменения при чтении. Журнал

памяти и языка, 27, 429 ± 446.

Эльман, Дж. Л. (1991). Распределенное представление, простые рекуррентные сети и грамматическая структура.

Машинное обучение, 7, 195 ± 225.

Фрейзер, Л., и Клифтон, К. (1996). Конструктивная. Кембридж. МА: MIT Press.

Фрейзер, Л., и Фодор, Дж. Д. (1978).Колбасная машина: новая модель двухэтапного разбора. Познание, 6,

291 ± 325.

Фрейзер, Л., и Рейнер, К. (1982). Создание и исправление ошибок при понимании предложений: око

движения при анализе структурно неоднозначных предложений. Когнитивная психология, 14, 178 ± 221.

Friederici, A. D. (1999). Нейробиология понимания речи. В А. Д. Фридеричи. Язык

Понимание: биологическая перспектива. Берлин: Springer.

Гаррод, С., & Пикеринг, М. (1999). Языковая обработка. Хоув: Psychology Press.

Гибсон, Э. (1991). Вычислительная теория лингвистической обработки человека: ограничения памяти и сбой обработки

. Кандидат наук. Тезис. Питтсбург, Пенсильвания: Университет Карнеги-Меллона.

Гибсон, Э. (1998). Лингвистическая сложность: локальность синтаксических зависимостей. Познание, 68, 1-76.

Горрелл П. (1995). Синтаксис и парсинг. Кембридж: Издательство Кембриджского университета.

Хаарманн, Х.Дж. И Колк, Х. Х. Дж. (1991). Компьютерная модель временного хода понимания аграмматических предложений

: влияние вариации суровости и сложности предложения. Когнитивный

Наука, 15, 49 ± 87.

Хаарманн, Х. Дж., Джаст, М. А., и Карпентер, П. А. (1997). Понимание афазных предложений как ресурс

de®cit: вычислительный подход. Мозг и язык, 59, 76 ± 120.

Хагоорт, П., Браун, К., & Остерхаут, Л. (1999). Нейропознание синтаксической обработки.В C. Brown,

& P. ​​Hagoort, Neurocognition of language. Оксфорд: Издательство Оксфордского университета.

Hemforth, B., Konieczny, L., & Strube, G. (1993). Стратегии инкрементной синтаксической обработки и синтаксического анализа.

Труды 15-й ежегодной конференции Общества когнитивных наук. Хиллсдейл, Нью-Джерси: Эрлбаум.

Хендерсон Дж. (1994). Парсинг на основе описания в сети коннекционистов. Кандидат наук. Тезис. Филадельфия,

PA: Университет Пенсильвании.

Hyo

na

È, J., & Hujanen, H. (1997). Влияние регистрационных знаков и порядка слов на синтаксический анализ предложений на финском языке:

анализ взгляда. Ежеквартальный журнал экспериментальной психологии, 50A, 841 ± 858.

Джурафски, Д. (1996). Вероятностная модель лексико-синтаксического доступа и разрешения неоднозначности. Когнитивный

Наука, 20, 137 ± 194.

Джаст, М. А., и Карпентер, П. А. (1992). Емкость теории понимания: индивидуальные различия в

оперативной памяти.Психологическое обозрение, 99, 122 ± 149.

Камиде, Ю., и Митчелл, Д. К. (1999). Инкрементальное прикрепление pre-head в японском парсинге. Язык

и когнитивные процессы, 14, 631 ± 662.

Каплан Р. М. (1972). Расширенные переходные сети как психологические модели понимания предложений. Искусственный интеллект, 3, 77 ± 100.

Кемпен Г. (1996). Вычислительные модели синтаксической обработки в понимании человеческого языка. В

А. Дейкстра и К.Де Смедт, Компьютерная психолингвистика: символические и субсимволические модели языковой обработки

. Лондон: Тейлор и Фрэнсис.

Кемпен Г. (2000). Грамматическое кодирование человека. Представлена ​​рукопись книги, Лейденский университет.

Kempen, G., & Vosse, T. (1989). Построение инкрементного синтаксического дерева в обработке человеческих предложений: a

T. Vosse, G. Kempen / Cognition 75 (2000) 105 ± 143 141

Источники знаний для составного синтаксического анализа немецкого языка, морфологически богатого и менее конфигурируемого языка | Компьютерная лингвистика

Большая часть методологии синтаксического анализа при обработке естественного языка была разработана для английского языка, и большинство публикаций по синтаксическому анализу посвящено синтаксическому анализу английского языка.Английский — это язык с сильной конфигурацией. Почти вся синтаксическая информация, необходимая любому приложению НЛП, может быть получена с помощью конфигурационного анализа (например, с помощью правильного составного синтаксического анализа).

Многие другие языки мира принципиально отличаются от английского в этом отношении. На другом конце конфигурационно-неконфигурационного спектра мы находим такой язык, как венгерский, который имеет очень мало фиксированной структуры на уровне предложения.Не говоря уже о внутренней структуре NP, большая часть синтаксической информации на уровне предложений в венгерском языке передается посредством морфологии, а не конфигурации.

В этой статье мы обращаемся к немецкому языку, третьему типу языка, который занимает промежуточное положение между английским и венгерским. Немецкий язык имеет сильные конфигурационные ограничения (например, главные предложения — это глагол-секунда), а также богатую деривационную и флективную морфологию, все из которых должны быть смоделированы для высококачественного синтаксического анализа.Промежуточный статус немецкого поднимает ряд интересных вопросов при синтаксическом анализе, которые особенно важны для смешанного конфигурационно-морфологического языка, но, как мы будем утверждать, имеют общее значение для морфологически богатых языков. Частично это так потому, что существует несколько языков (если таковые вообще имеются), являющихся архетипами чисто конфигурационных и чисто неконфигурационных (например, морфология также важна для английского языка, и даже венгерский язык имеет конфигурационные ограничения). Из-за отсутствия лучшего термина мы называем промежуточные языки, типизированные немецким языком, как MR&LC для морфологически богатых и менее конфигурационных .

Частично мотивация для этого специального выпуска заключается в том, что большая часть работы по синтаксическому анализу на сегодняшний день была сделана на английском, морфологически простом языке. По мере того, как компьютерная лингвистика выходит за пределы английского, становится важным использовать более общий подход к синтаксическому анализу, который может обрабатывать языки, которые типологически сильно отличаются от английского. Богатая морфология (RM) — одна из важнейших характеристик языка, которая влияет на разработку методов синтаксического анализа.Мы утверждаем, что есть два других свойства языков, которые имеют отношение к обсуждению синтаксического анализа языков RM: синкретизм и конфигурационность. Эти два свойства типологически коррелированы с RM и поэтому должны приниматься во внимание, когда мы обращаемся к синтаксическому анализу языков RM. 1

Сначала мы определяем три свойства и объясняем их значение для синтаксического анализа. Большое количество языков, для которых сохраняется эта корреляция, можно упорядочить по одному измерению, которое можно интерпретировать как степень морфологической сложности.Мы приводим примеры для ряда языков, которые расположены в разных точках этой шкалы. Наконец, мы утверждаем, что точно так же, как языки, которые находятся на противоположном конце спектра от английского (прототипные примеры морфологического богатства, такие как венгерский), требуют методов синтаксического анализа, которые могут сильно отличаться от оптимальных для английского языка, то же самое верно и для такого языка, как Немецкий язык находится в середине спектра — и то, что требуется, в некоторых отношениях отличается от того, что является оптимальным для одной крайности (английский) или другой (венгерский).

Три взаимосвязанных свойства: богатая морфология, синкретизм и конфигурация. Морфологическое богатство можно приблизительно измерить количеством различных морфологических форм, которые может иметь слово определенной синтаксической категории; например, типичное английское существительное имеет две формы (единственное и множественное число), типичное немецкое существительное имеет восемь форм (единственное и множественное число в четырех разных падежах), а типичное венгерское существительное имеет несколько сотен форм.Синкретизм относится к тому факту, что разные морфологические формы имеют идентичную реализацию поверхности; например, форма Mann («человек» на немецком языке) может быть именительным, дательным или винительным падежом единственного числа от Mann в зависимости от контекста. Конфигурация относится к степени, в которой расположение слов и фраз определенной синтаксической функции в предложении фиксировано. Английский язык очень конфигурационен: он имеет ограниченную гибкость в выборе основных фраз в предложении (подлежащее, глагол, прямой объект, косвенный объект и т. Д.) можно заказать. Венгерский и латинский языки очень гибкие: несмотря на прагматические ограничения, в принципе большое количество возможных порядков является грамматическим. Немецкий язык менее конфигурационный. Он имеет некоторые строгие ограничения (второй глагол в главном предложении, глагол final в придаточных предложениях), но также некоторые свойства неконфигурационного языка; например, порядок фраз в mittelfeld (часть основного предложения, заключенная между двумя частями глагольного комплекса) очень гибок.

Очевидно, почему конфигурация и богатая морфология типологически (отрицательно) коррелированы. Богатая морфология определяет синтаксическую роль фразы в предложении, поэтому фиксация позиции не требуется, и поэтому многие морфологически богатые языки не фиксируют позицию. И наоборот, простая морфология дает мало конкретной информации о роли слов и фраз в предложении. Одним из приемов, часто используемых морфологически простыми языками для решения этой проблемы и уменьшения широко распространенной неоднозначности, является исправление порядка слов и фраз в предложении.

Синкретизм имеет эффект, подобный упрощению сложной морфологии. Простая морфология неспецифична в отношении грамматической функции, поскольку использует небольшое количество морфологических категорий. Синкретизм неспецифичен в отношении грамматической функции, потому что он страдает высокой степенью двусмысленности. Несмотря на то, что число различных морфологических категорий потенциально велико, синкретические формы объединяют многие из этих категорий, так что эти формы гораздо менее полезны для определения грамматической функции, чем формы несинкретичного языка с тем же числом категорий.Опять же, чтобы противодействовать коммуникативным трудностям, которые может создать отсутствие морфологической специфичности, синкретические языки часто используют более строгие ограничения на упорядочение и конфигурацию.

Мы использовали английский и венгерский как примеры крайних значений, а немецкий — как середину диапазона. Приведем примеры других языков и их положение на шкале. Голландский похож на немецкий в том, что он также является вторым глаголом в главном предложении и окончательным глаголом в придаточных предложениях.Однако порядок аргументов в миттельфельде гораздо более ограничен, чем в немецком. В то же время голландская морфология за последние столетия стала намного более упрощенной, чем немецкая морфология. Это хорошо подтверждает корреляцию между RM и конфигурацией. Таким образом, голландский язык находится по шкале между английским и немецким языками.

Классический арабский язык чем-то похож на немецкий: количество различных морфологических форм примерно сравнимо с немецким, и это позволяет использовать несколько разных порядков слов.Тем не менее, современные носители стандартного арабского языка редко отмечают падеж, по крайней мере, не в спонтанной речи. В то же время говорящие на современном стандартном арабском языке используют порядок SVO гораздо чаще и последовательнее, чем в случае с классическим арабским языком. Таким образом, классический арабский язык находится примерно на том же месте, что и немецкий по шкале, тогда как разговорный современный стандартный арабский язык может быть более сопоставим с голландским.

Наконец, новогреческий — это язык, промежуточный между немецким и венгерским.У него более богатая морфология, чем у немецкого, но он имеет изрядную долю синкретизма и, следовательно, большую морфологическую двусмысленность, чем венгерский. SVO — преобладающий порядок слов в современном греческом языке, но можно использовать и другие порядки слов. Порядок в именной фразе более гибкий, чем в немецком: прилагательные могут предшествовать существительному или следовать за ним.

В приведенных нами примерах количество информации, передаваемой морфологической формой, отрицательно коррелирует с объемом информации, передаваемой конфигурацией.Если морфология передает много информации (из-за большого количества различий и отсутствия синкретизма), то порядок слов более свободный и передает меньше информации. Если морфология передает меньше информации (из-за меньшего количества различий или большего синкретизма), тогда конфигурация фиксирована и предоставляет больше информации говорящему. Это говорит о том, что RM и конфигурация являются важными переменными, которые следует учитывать при разработке методов синтаксического анализа. В дополнение к рассмотрению крайностей спектра, которые представлены английским и венгерским языками, мы должны также исследовать средние: морфологически (в некоторой степени) богатые языки, которые менее конфигурационны.В этой статье мы рассмотрим на примере немецкого языка.

Один из ключевых вопросов для анализа MR&LC заключается в том, какой тип формализма синтаксического анализа принять, состав или зависимость. Широко распространено мнение, что структуры зависимостей лучше подходят для представления синтаксического анализа морфологически богатых языков, потому что они допускают непроективные структуры (эквивалент прерывистых составляющих при синтаксическом анализе избирательных округов).Как отмечает Царфатый и др. (2010), однако, отмечают, что это не то же самое, что доказывать, что парсеры зависимостей работают лучше, чем парсеры постоянных участников, для синтаксического анализа морфологически богатых языков. Фактически, большинство современных анализаторов зависимостей (McDonald and Pereira 2006; Hall and Nivre 2008; Seeker et al. 2010a) генерируют чисто проективные структуры зависимостей, которые необязательно преобразуются в непроективные структуры на этапе постобработки. . Сопоставимые методы постобработки использовались при синтаксическом анализе англоязычной аудитории (Gabbard, Marcus, and Kulick 2006; Schmid 2006; Cai, Chiang and Goldberg 2011) для выявления прерывистых составляющих и могут также работать для других языков.

В обзорном документе Parsing German Shared Task (Kübler 2008) сообщается о более высокой точности обнаружения грамматических функций с помощью синтаксических анализаторов зависимостей, чем с помощью составных анализаторов, но прямое сравнение нечестно, поскольку оно требует, чтобы границы фраз были правильными на составляющей стороне, в то время как токены были единицей оценки на стороне зависимости. 2 Как провести абсолютно справедливое сравнение двух представлений — все еще остается открытым вопросом исследования. 3

Составные синтаксические анализы часто предоставляют больше информации, чем синтаксические анализы зависимостей. Примером может служить неоднозначность координации у стариков и женщин по сравнению с стариками и детьми . Правильный составной синтаксический анализ для первого выражения содержит координацию на уровне существительного, тогда как синтаксический анализ для второго выражения координируется на уровне NP. С другой стороны, структуры зависимостей обоих выражений обычно идентичны и, таким образом, не могут отразить тот факт, что старый изменяет женщин , но не детей .В принципе возможно закодировать разницу в деревьях зависимостей (см. Rambow 2010), например, путем обогащения меток ребер, но составное представление для этого явления проще.

Наконец, есть некоторые приложения, которым требуется анализ компонентов, а не анализ зависимостей. Например, многие иерархические системы статистического машинного перевода используют синтаксический анализ группы, требуя, чтобы выходные данные анализатора зависимостей преобразовывались в составной синтаксический анализ. 4 Мы пришли к выводу, что нет четких доказательств того, что при анализе языков с помощью RM предпочтение отдается синтаксическому анализу зависимостей, а не синтаксическому анализу, и вместо этого утверждаем, что исследования в обеих структурах важны.

Мы рассматриваем подробное описание системы синтаксического анализа избирательных округов для морфологически богатого языка, системы, которая решает основные проблемы, возникающие при синтаксическом анализе избирательных округов для MR&LC, как один из наших основных вкладов в эту статью.

Первая проблема, которую мы решаем, — это распространение правил структуры фраз в языках MR&LC. Например, в немецком mittelfeld существует большое количество возможных порядков фраз, а многие порядки чрезвычайно редки. Стандартный синтаксический анализатор избирательного округа не может надежно оценить вероятности для соответствующих правил.

Решение, которое мы здесь принимаем, — это марковизация — сложные правила разлагаются на небольшие однонаправленные правила, которые можно моделировать и оценивать более надежно, чем сложные правила.Хотя марковизация сама по себе не нова, мы подчеркиваем ее важность для языков MR&LC и представляем подробный воспроизводимый отчет о том, как мы используем ее для немецкого языка. Марковизация сочетает в себе лучшее из обоих миров для языков MR&LC: предпочтительная конфигурационная информация может быть формализована и использована анализатором без слишком большого снижения производительности из-за проблем с разреженными данными.

Вторая проблема, которую необходимо решить при синтаксическом анализе многих языков MR&LC, — это широко распространенный синкретизм.В основном мы обращаемся к синкретизму с помощью высокопроизводительного морфологического анализатора на основе конечных автоматов. Такой анализатор имеет очевидную важность для любого морфологически богатого языка, потому что продуктивность морфологически богатых языков значительно увеличивает количество неизвестных слов в новом тексте по сравнению с морфологически бедными языками. Таким образом, синтаксический анализатор не может просто запоминать грамматические свойства слов в Treebank, используемом для обучения. Вместо этого мы включаем в наш синтаксический анализатор сложный отгадыватель, который на основе входных данных морфологического анализатора предсказывает грамматические свойства новых слов и (что не менее важно) ненаблюдаемые грамматические свойства известных слов.С преобладающим синкретизмом эта задача намного сложнее, чем в языке, где падеж, пол, число и т. Д. Могут быть детерминированно выведены из морфологии.

Морфологический анализатор основан на (i) конечной формализации немецкой морфологии и (ii) большом лексиконе морфологически проанализированных немецких слов. Мы называем эти два компонента вместе как лексическое знание . Мы показываем, что лексические знания полезны для анализа производительности для языка MR&LC, такого как немецкий.

Помимо лексических знаний, существует второй важный аспект синкретизма, который необходимо рассмотреть в языках MR&LC. Устранение синтаксической неоднозначности в этих языках всегда должно включать обе системы грамматического кодирования, морфологии и конфигурации, действующие вместе. Самый естественный способ сделать это на таком языке, как немецкий, — выполнить эту интеграцию двух источников знаний непосредственно как часть синтаксического анализа.Мы делаем это, аннотируя составляющие метки с грамматической функцией там, где это необходимо. В отличие от синтаксического анализа языков с сильной конфигурацией, таких как английский, синтаксический анализ немецкого языка бесполезен для большинства задач без указания грамматических функций. Невозможно даже получить доступ к базовой подкатегории глагола (такой как определение подлежащего) без грамматических функций. Мы утверждаем, что языки MR&LC, такие как немецкий, всегда следует оценивать по меткам — с грамматической функцией.

Наш последний основной вклад в эту статью касается того факта, что мы считаем, что языки MR&LC вызывают большую двусмысленность, чем языки, которые преимущественно являются конфигурационными или морфологическими. В качестве примера рассмотрим немецкое предложение «Die [the] Katze [cat] jagt [hunts] die [the] Schlange [snake]». По-немецки охотником может быть кошка или змея. Этот тип двусмысленности не встречается ни в сильно конфигурационном языке, таком как английский (где конфигурация определяет грамматические функции), ни в морфологически богатом языке, таком как венгерский, который не имеет синкретизма или почти не имеет (где морфология определяет грамматическую функцию).Хотя морфология и конфигурация в языках MR&LC часто работают рука об руку для полного устранения неоднозначности, существует также много предложений, в которых ни одно из двух не дает необходимой информации для устранения неоднозначности. Мы считаем, что эта отличительная черта языков MR&LC делает необходимым использование дополнительных источников знаний. В этой статье мы рассмотрим два таких источника знаний: одноязычное изменение ранжирования (которое фиксирует глобальные свойства правильно сформированного синтаксического анализа для дополнительного устранения неоднозначности) и двуязычное изменение рейтинга (которое использует параллельный текст на другом языке для устранения неоднозначности).

Для одноязычного изменения рейтинга мы определяем новый набор богатых функций на основе фреймов подкатегории. Мы сравниваем наш компактный набор функций с редким набором функций, разработанным для немецкого языка ранее Versley и Rehbein (2009). Мы показываем, что более обширная основанная на подкатегориях структура для одноязычного перерейтинга эффективна; он имеет сравнимую производительность с редким набором функций — более того, они дополняют друг друга.

Для двуязычного изменения ранжирования мы представляем наш подход к синтаксическому анализу битекста, при котором обнаруживается немецкий синтаксический анализ, минимизирующий синтаксические расхождения с автоматически сгенерированным синтаксическим анализом его английского перевода. Мы придерживаемся этого подхода по ряду причин. Во-первых, одним ограничивающим фактором для синтаксических подходов к статистическому машинному переводу является качество синтаксического анализа (Quirk and Corston-Oliver 2006). Улучшенный синтаксический анализ битекста должен привести к улучшению машинного перевода.Во-вторых, по мере того, как все больше и больше текстов доступно на нескольких языках, будет все чаще и чаще анализироваться текст, который сам является частью битекста. В-третьих, мы надеемся, что улучшенный синтаксический анализ битекста может служить в качестве обучающих данных более высокого качества для улучшения одноязычного синтаксического анализа с использованием процесса, аналогичного самообучению (McClosky, Charniak, and Johnson, 2006a).

Мы показываем, что три различных источника знаний, которые мы используем в этой статье (лексические знания, одноязычные и двуязычные особенности), ценны по отдельности.Мы также показываем, что преимущества двух наборов функций повторного ранжирования (одноязычных и двуязычных) являются аддитивными, предполагая, что они захватывают разные типы информации.

Полученный синтаксический анализатор в настоящее время является лучшим составным синтаксическим анализатором для немецкого языка (с двуязычными функциями или без них). В частности, мы показываем, что базовый синтаксический анализатор без повторного ранжирования конкурирует с предыдущим уровнем техники (синтаксический анализатор Беркли) и что повторное ранжирование может добавить важный выигрыш.

Как и в Schiehlen (2004), мы автоматически дополняем аннотацию Tiger2 дополнительными аннотациями функций. Наш набор аннотаций функций больше, чем у Schiehlen. Помимо аннотаций к функциям, мы также выполняем некоторые преобразования дерева, которые уменьшают сложность грамматики. Во всех оценках мы используем исходные (проективизированные) деревья синтаксического анализа Tiger в качестве золотого стандарта и конвертируем деревья синтаксического анализа, созданные нашим синтаксическим анализатором, в тот же формат, отменяя преобразования и удаляя дополнительные функции.В оставшейся части этого раздела мы объясним использованные нами преобразования деревьев. В следующем разделе описаны аннотации к функциям. 5

Унарные правила ветвления. Tiger Treebank избегает унарных узлов ветвления. NP и другие фразовые категории, которые доминируют только в одном узле, обычно опускаются. Предложение Sie zögern [Они колеблются], например, анализируется как (S-TOP (PPER-SB Sie) (VVFIN-HD zögern)) без явного NP или VP.Отсутствие унарных узлов ветвления увеличивает количество правил, потому что теперь, например, требуется правило S-TOP → PPER-SB VVFIN-HD в дополнение к правилу S-TOP → NP-SB VVFIN-HD.

Чтобы уменьшить проблемы с разреженными данными, мы вставляем унарные узлы ветвления и преобразуем этот синтаксический анализ в (S-TOP (NP-SB (PPER-HD Sie)) (VVFIN-HD zögern)), добавляя узел NP с грамматическим функция (GF) местоимения. GF местоимения, в свою очередь, заменяется на HD (голова).Такие унарные ветвящиеся NP добавляются поверх существительных (NN), местоимений (PPER, PDS, PIS, PRELS), кардиналов (CARD) и сложных имен собственных (PN), в которых преобладают S, VP, TOP или DL . 6 узлов. 7 Преобразование является обратимым, что позволяет восстановить исходную аннотацию.

Добавляя, например, унарный ветвящийся узел NP-SB, мы вводим дополнительное предположение независимости, а именно, мы предполагаем, что расширение подлежащего NP не зависит от других аргументов и дополнений глагола (правдоподобное предположение, что подтверждено улучшением производительности).

Ликвидация НК. Tiger обычно использует грамматическую функцию HD для обозначения заголовка фразы. Однако в случае NP и PP GF головы — это NK (существительное ядро). Тот же GF также относится к прилагательным и определителям именной группы. Заменим NK на HD, чтобы сократить набор символов. 8

Устранение CJ. Tiger аннотирует каждый конъюнкт в координации с меткой специальной грамматической функции CJ. Мы заменяем CJ грамматической функцией согласованной фразы. Это преобразование также обратимо.

Выборочная лексикализация. Мы отмечаем POS-теги частых предлогов в [in], von [from, of], auf [on], durch [через, посредством], unter [under] , um [around, at] и их варианты в отношении использования заглавных букв (например,g., Unter ) и включение артиклей (например, unters , unterm ) с признаком, который идентифицирует предлог. Это можно рассматривать как ограниченную форму лексикализации. Таким же образом мы «лексикализуем» координирующие союзы (KON-CD) sowohl [также], als [as], weder [no], noch [or], entweder [либо], и или [или], если ему предшествует entweder . На рисунке 2 показан пример.

Рисунок 2

Разбор фразы weder в Berlin noch во Франкфурте [ни в Берлине, ни во Франкфурте] до и после выборочной лексикализации предлогов и союзов. В этом примере также показана замена функций грамматических функций CJ и NK, которые обсуждались в предыдущем разделе. Измененные детали напечатаны полужирным шрифтом .

Рисунок 2

Разбор фразы weder в берлинской ноче во Франкфурте [ни в Берлине, ни во Франкфурте] до и после выборочной лексикализации предлогов и союзов.В этом примере также показана замена функций грамматических функций CJ и NK, которые обсуждались в предыдущем разделе. Измененные детали напечатаны полужирным шрифтом .

Пунктуация предложения. Если узел предложения (S) имеет родственный узел, помеченный тегом POS «$.» который доминирует над вопросительным или восклицательным знаком, то узел предложения и тег POS аннотируются с помощью quest или excl , поэтому грамматика моделирует различные типы предложений.

Дополнительное приложение. Адъюнкты часто различаются по предпочтительным сайтам прикрепления. Поэтому мы аннотируем PP и наречия (AVP, ADV, ADJD) одной из функций N, V ​​или 0, которые указывают на номинального родителя (NP или PP), вербального родителя (VP, S) или что-либо еще, соответственно. . В случае наречных фраз (AVP) метка распространяется на головного ребенка.

Особенности относительного предложения. Во многих придаточных предложениях (S-RC) относительное местоимение (PRELS, PRELAT, PWAV, PWS) встроено в другой составной элемент. В этом случае все узлы на пути между местоимением и узлом предложения отмечены признаком rel . Кроме того, мы добавляем признак norel к относительным придаточным предложениям, если относительное местоимение не найдено. На рисунке 3 показан пример.

Рисунок 3

Разбор фразы die Surfen sagen und Freiheit meinen [которые говорят серфинг и имеют в виду свободу ] до и после аннотации с характеристиками относительного предложения.В этом примере также показана функция nosubj , которая будет обсуждаться позже.

Рисунок 3

Разбор фразы die Surfen sagen und Freiheit meinen [кто говорит серфинг и означает свободу ] до и после аннотации с относительными признаками предложения. В этом примере также показана функция nosubj , которая будет обсуждаться позже.

Втч особенности. Подобно признаку rel , присвоенному фразам, которые доминируют над относительным местоимением, мы используем признак wh , который присваивается всем NP и PP, которые непосредственно доминируют над местоимением wh (PWAT, PWS, PWAV). Эта функция лучше ограничивает позиции, в которых могут встречаться такие NP и PP.

Функция последовательности существительных. Если два существительных встречаются вместе в пределах немецкого NP (как в drei Liter Milch [три литра () молока] или Ende Januar [конец (января) января]), то первое существительное обычно является своего рода мерой. существительное.Мы отмечаем его признаком seq .

Фрагменты имен собственных. Некоторые словосочетания с существительными, такие как Frankfurter Rundschau , Junge Union , Die Zeit , используются как имена собственные. В этом случае грамматическая функция NP — PNC. Чтобы ограничить количество существительных и прилагательных, которые могут встречаться внутри таких фрагментов имен собственных, мы помечаем их теги POS характеристикой name .

Предикативные точки доступа. Сложные прилагательные фразы (AP) либо атрибутивно используются как модификаторы существительных внутри NP или PP, либо как предикативно в другом месте. Чтобы лучше смоделировать два типа AP, мы помечаем AP, которые доминируют над предикативным прилагательным (ADJD), с помощью признака pred . 9

Именные головы АП. Иногда главой AP является существительное, например, (AP drei Millionen) Mark [три миллиона марок] или ein (AP politisch Verfolgter) [политически преследуемый человек]. Мы помечаем эти точки доступа характеристикой nom .

Цифры года. Годы, такие как 1998 , могут появляться там, где другие числа не могут. Поэтому теги POS с числами между 1900 и 2019 годами помечены как год . 10

Признак типа предложения для союзов. Тип придаточного предложения и подчинительного союза сильно коррелирован. Немецкие предложения об объектах (S-OC) обычно начинаются с dass [that] или ob [ли]; предложения-модификаторы (S-MO) часто начинаются с wenn [если], weil [потому что] или als [когда]. Мы помечаем подчиненные союзы предложений аргументов (S-OC), предложений-модификаторов (S-MO), подлежащих предложений (S-SB) и смещенных предложений (S-RE) с помощью признака ( OC , MO , SB , или RE ), идентифицирующий тип предложения.Без этой функции, например, предложения-аргументы существительных часто неправильно анализируются как модификаторы основного предложения.

VP особенности. VP, которые начинаются с конечных глаголов, инфинитивов, причастий прошедшего времени, императивов, и zu инфинитивов используются в разных контекстах. Поэтому мы помечаем объектные VP (VP-OC) соответствующим признаком. При разборе предложения Alle Räume mü ssen mehrfach gesäubert und desinfiziert werden [все комнаты должны многократно очищаться и дезинфицироваться; все комнаты должны быть…], эта функция позволяет синтаксическому анализатору правильно координировать два причастия прошедшего времени VP mehrfach gesäubert и desinfiziert вместо причастия прошедшего времени VP mehrfach gesäubert и бесконечного VP desinfiziert werden .

Фразы без головы. У некоторых фраз в корпусе «Тигр» отсутствует голова. Это часто бывает при координации. Все фразы, у которых нет дочернего узла с одной из грамматических функций HD, PNC, AC, AVC, NMC, PH, PD, ADC, UC или DH, помечаются признаком nohead .

Статьи без темы. Мы также помечаем конъюнктивные предложения признаком nosubj , если они не возглавляются повелительным наклонением и не содержат дочерний узел с грамматической функцией SB (подлежащее) или EP (ругательство). Это полезно для правильного анализа координации, в которой субъект опущен во втором конъюнкте.

Tiger Treebank использует довольно плоские структуры, в которых узлы имеют до 25 дочерних узлов.Это вызывает проблемы с разреженными данными, потому что только некоторые из возможных правил такой длины фактически появляются в обучающем корпусе. Проблема разреженных данных решается с помощью марковизации (Collins 1997; Klein and Manning 2003), которая разбивает длинные правила на набор более коротких правил. Более короткие правила генерируют дочерние узлы исходного правила один за другим. Сначала слева направо генерируются левые братья и сестры главного потомка правила, затем справа налево генерируются правые братья и сестры. Наконец, голова сформирована.На рисунке 4 показана марковизация правила NP → NM NN PP PP.

Рисунок 4

Марковизация правила NP → NM NN PP PP.

Рисунок 4

Марковизация правила NP → NM NN PP PP.

Вспомогательные символы, которые здесь используются, кодируют информацию о родительской категории, головном потомке и ранее сгенерированных дочерних элементах.Поскольку все вспомогательные символы кодируют категорию заголовка, заголовок уже выбран первым правилом, но только позже фактически сгенерирован последним правилом.

Общая форма вспомогательных символов: 〈 direction: parent [head] next 〉, где direction — либо L, M, либо R, parent — это символ в левой части правила, head — это заголовок в правой части правила, следующий — это символ, который будет сгенерирован следующим, а предыдущий — это символ, который был сгенерирован ранее.Вспомогательные элементы, начинающиеся с L, генерируют дочерние элементы слева от головы. Вспомогательные элементы, начинающиеся с R, аналогичным образом генерируют дочерние элементы справа от головы и саму голову. Вспомогательный элемент, начинающийся с M, используется для переключения с создания левых дочерних элементов на создание правых дочерних элементов. Каждое правило содержит информацию о родителе, заголовке и (обычно) трех дочерних символах (которые могут включать воображаемый граничный символ). Первое правило кодирует триграмму левой границы NM NN .Второе правило представляет собой исключение, которое кодирует только биграмму NM NN . Третье правило кодирует правую границу триграммы PP PP. Последнее правило, опять же, является исключением и кодирует только NN PP . Не существует правила, охватывающего триграмму, состоящую из головы и двух ее ближайших соседей.

Наша стратегия марковизации преобразует только те правила, которые встречаются в обучающих данных менее 10 раз.Если один из вспомогательных символов, введенных марковизацией (например, 〈L: NP [NN] NN | NM〉), используется менее 20 раз (значения двух пороговых значений были оптимизированы для части данных разработки) в целом, он заменяется более простым символом 〈L: NP [NN] NN〉, который кодирует меньше контекста. Таким образом, мы переключаемся с модели триграммы (где следующий дочерний элемент зависит от двух предшествующих дочерних элементов) к модели биграмм (где он зависит только от предыдущего дочернего элемента), чтобы избежать проблем с разреженными данными. Этот метод похож на стратегию марковизации Кляйна и Мэннинга (2003), за исключением того, что они марковизируют все правила.Мы смоделировали их стратегию, подняв порог частоты правил до большего значения, но получили худшие результаты. Мы также попробовали альтернативную стратегию марковизации, которая генерирует всех дочерних элементов слева направо (вспомогательные символы теперь не имеют флага направления, а правила охватывают все возможные триграммы), но снова получили худшие результаты. Недостатком нашего метода марковизации является ложная двусмысленность. Они возникают потому, что некоторые правила, которые не являются марковизированными, также подпадают под правила марковизации.

По мере того, как мы представляем каждый источник знаний, мы хотели бы сравнить его с вручную аннотированными деревьями. Наша первая оценка показывает, что наш генеративный синтаксический анализатор, представленный в предыдущем разделе, сопоставим с генеративным синтаксическим анализатором Беркли. Прежде чем представить это сравнение в разделе 4.1, мы обсудим оценку точности синтаксического анализа.

В наших оценках мы используем Tiger Treebank (Brants et al.2002) и небольшой Europarl Treebank (Padó and Lapata 2009). Мы берем первые 40 474 предложения Tiger Treebank в качестве обучающих данных (Tiger Train), следующие 5000 предложений как данные для разработки (Tiger dev) и последние 5000 предложений как тестовые данные (Tiger test). Данные Europarl состоят из 662 предложений 15 и либо полностью используются в качестве тестовых данных и не разделяются, либо мы провели семикратные эксперименты с перекрестной проверкой с нашими моделями переориентации.

Все синтаксические анализаторы оцениваются на проективных деревьях синтаксического анализа.Это означает, что мы применяем шаг 1 процесса извлечения грамматики, описанного в разделе 3.1, к тестовым синтаксическим анализам и используем результат в качестве золотого стандарта (за исключением набора Падо, который уже проецируется). Тестовые предложения анализируются, и результирующие деревья синтаксического анализа преобразуются в тот же формат, что и деревья золотого стандарта, путем отмены шагов 2, 3 и 4 раздела 3.1. Это преобразование включает четыре шага:

  • 1.

    Демарковизация удаляет все вспомогательные узлы, введенные марковизацией, и поднимает их дочерние узлы до следующего не вспомогательного узла.

  • 2.

    Добавленные узлы с унарным ветвлением удаляются.

  • 3.

    Восстановлены исходные грамматические обозначения функций NK внутри NP и PP и CJ внутри согласованных фраз.

  • 4.

    Все аннотации к объектам удалены.

Мы используем баллы PARSEVAL (Black et al. 1991) и стандартный инструмент оценки evalb 16 для сравнения преобразованных деревьев синтаксического анализа с деревьями синтаксического анализа золотого стандарта с использованием помеченных F-баллов.Мы сообщаем о точности всех тестовых предложений, а не только предложений длиной до 40. Мы не оцениваем синтаксические анализаторы с помощью POS-тегов золотого стандарта, а вместо этого автоматически выводим их. Эти соображения делают нашу настройку оценки максимально приближенной к реальной.

Мы сообщаем результаты оценок с грамматическими функциями и без них. Мы сообщаем результаты PARSEVAL с грамматическими функциями в скобках после результатов, используя только основные составляющие категории.Мы считаем, что грамматические функции являются важной частью синтаксического анализа для любых последующих приложений на языках с меньшей конфигурацией, таких как немецкий, потому что без них невозможны важные различия (например, различие между субъектом и объектом). Следует отметить, что наши результаты напрямую не сопоставимы с ранее опубликованными результатами по корпусу Tiger2 (Kübler 2008; Versley and Rehbein 2009; Seeker et al. 2010b), поскольку в каждом из предыдущих исследований использовались разные части корпуса и есть различия. в метрике оценки.Доступны преобразованный корпус (в нашем формате для обучения, разработки и тестирования) и оценочные скрипты, которые мы использовали, 17 , которые, как мы надеемся, позволят напрямую сравнить с нашими результатами.

Мы представляем здесь несколько новых основанных на подкатегориях функций для одноязычного перерейтинга. Для этого мы сначала описываем наш алгоритм извлечения информации о подкатегориях (подкатегориях).Мы используем нашу расширенную версию тренировочного набора Tiger2. Чтобы извлечь вербальные кадры подкатегории, мы находим все узлы, помеченные категорией S (пункт) или VP-MO (изменение VP), и извлекаем их аргументы. Аргументы 22 — это узлы категорий, показанных в таблице 2. Аргументы существительных получаются путем поиска узлов NN , в которых преобладает NP или PP и которые принимают следующий узел. категории PP , VP-OC или S-OC в качестве аргумента.

Таблица 2

Аргументы, используемые в извлеченных кадрах подкатегории.

905 OC

наречия, выступающие в качестве прокси PP, такие как daraus [out of this]

NP-SB, PN-SB, CNP-SB, S-SB, VP-SB субъектов
NP-OA, PN-OA, CNP-OA прямой объекты
NP-DA, PN-DA, CNP-DA непрямые объекты
PRF-OA отражающие прямые объекты
PRF-DA Reflexive objects
NP-PD, CNP-PD предикативные NP
ADJD-PD, AP-PD, CAP-PD предикативные прилагательные
пункты аргументов
PP-OP, CPP-OP аргументы PP
VP-OC / zu бесконечные дополнительные предложения
NP-EP ругательства
VP-RE, NP-RE VP / NP, появляющиеся в ругательных конструкциях
905 905 9012 ОК 90 577 аргументов
NP-SB, PN-SB, CNP-SB, S-SB, VP-SB субъектов
NP-OA, PN-OA, CNP-OA прямые объекты
NP-DA, PN-DA, CNP-DA непрямые объекты
PRF-OA отражающие прямые объекты
PRF-DA Reflex80 объекты
NP-PD, CNP-PD предикативные НП
ADJD-PD, AP-PD, CAP-PD предикативные прилагательные
PP-OP, CPP-OP PP аргументы
VP-OC / zu бесконечные дополнительные предложения
PRO в качестве прокси PP, таких как daraus [out of this]
NP-EP ненормативная лексика
VP-RE, NP-RE VP / NP, появляющиеся в ругательных конструкциях

Функциональные возможности, которые мы представляем, в основном лексикализованы.Это означает, что нам нужен доступ к заголовкам аргументов. Заголовки аргументов извлекаются следующим образом: В качестве заголовка NP мы берем последний узел, чья функциональная метка — HD , NK или PH . Если этот узел относится к категории NP или PN , мы рекурсивно выбираем заголовок этого компонента. Точно так же голова AP является последним узлом с функциональной меткой HD . Если это AP , голова ищется внутри него.В случае PP s мы извлекаем две головки, а именно, предлог (или послелог), а также номинальный заголовок PP , который находится с использованием тех же правил, что и для NP s. Также извлекаем корпус номинального напора.

Извлечение словесных голов несколько сложнее. Чтобы получить правильный глагольный заголовок предложения независимо от позиции глагола (verb-first, verb-second, verb-final), мы извлекаем все глаголы, в которых преобладает предложение, и, возможно, пустую последовательность VP-OC Узлы или VP-PD (статически пассивные) и дополнительный узел VZ-HD .Затем мы берем первый не конечный глагол или, альтернативно, первый конечный глагол, если все глаголы были конечными. Чтобы избежать проблем с разреженными данными, вызванными множеством различных флексий немецких глаголов, мы лемматизируем глаголы.

В случае согласованных словосочетаний берется голова первого конъюнкта. Аргументы отсортированы в четко определенном порядке. Примером является то, что при правильном синтаксическом анализе предложения Statt [вместо] Details [подробности] zu [to] nennen [имя], шляпа [has] er [he] unverdrossen [усердно] die [the] «Erfolgsformel» [ формула успеха] wiederholt [повторяется] , что означает «вместо того, чтобы называть детали, он усердно повторял формулу успеха», мы извлекаем два кадра субкадра:

Теперь мы можем описать наши особенности.Функции сосредоточены на кадрах субкадра, взятых из узлов S (VP-MO трактуется как S), и на присоединении предлогов и союзов к существительным. Мы определяем характеристики условной вероятности и взаимной информации (МИ).

Две функции условной вероятности — это ProbPrepAttach и ProbAdverbAttach , которые вычисляют вероятность для каждого предлога или наречия, прикрепленного к своему регулятору, с учетом ярлыка регулятора.Мы оцениваем это на основе данных обучения следующим образом, для примера функции PP. При оценке характеристик мы присваиваем каждому вложению предлога оценку, которая представляет собой отрицательный log10 вероятности p ( lex _ Prep | label _ Governor ) = f ( lex _ Prep , этикетка _ регулятор ) / f ( этикетка _ регулятор ) (с отсечкой 5).

Для всех других одноязычных функций мы используем (отрицательную) точечную взаимную информацию: — log 10 ( p ( a , b ) / p ( a ) p ( b )) (здесь мы используем отсечки 5 и −5).

MI_NounP и MI_NounConj дают оценку предлога или союза, прикрепленного к существительному (с учетом лексикализованного предлога и лексикализованного существительного).

Для функции MI_VSubcat мы используем как a фрейм (без лексикализации), и как b головной глагол. p ( a ) оценивается как относительная частота этого кадра по всем кадрам, извлеченным из поезда Tiger2. MI_VSimpleSubcat — это более простая версия MI_VSubcat . PP исключен из фреймов, потому что PP часто является дополнением, а не аргументом.

Для функции MI_VArg мы используем в качестве a функцию аргумента и заголовочное слово аргумента (например,g., OBJ: Buch, то есть « книга », использованная в качестве объекта). В качестве b мы снова используем головной глагол. Оценка p ( a ) — это частота (OBJ: Buch) / (общее количество извлеченных кадров). 23 Кроме того, эта функция усовершенствована в отдельные функции для различных типов аргументов: MI_VSubj , MI_VObj , MI_VIobj , MI_VPP , MI_VPRF12_VS , MI_VPRF 90_VS и MI_VerbPROAV .Например, MI « lesen, OBJ: Buch » (чтение, объект: книга) будет использоваться для функций MI_VArg и для функции MI_VObj. Для таких функций, как MI_VPP , которые возглавляются как функциональным словом (здесь предлог), так и словом содержимого, используется только функциональное слово (без регистра).

Последняя функция MI — это MI_VParticle . Некоторые немецкие глаголы содержат отделимую частицу, которая также может быть проанализирована как наречие, но тогда будет иметь другое значение.Для предложения « Und [и] фрау [миссис] Künast [(имя собственное)] приносит [приносит] das [that] auch [также] nicht [not] rüber [через] », если « rüber » анализируется как наречие, глагол означает нести / брать / переносить [в другое физическое место], но если рассматривать его как частицу, предложение означает, что фрау Кюнаст не может это объяснить. Функция MI_VParticle помогает в устранении такой неоднозначности.

Мы повторно ранжируем 100 лучших списков из BitPar (Schmid 2004), который использует процедуру извлечения грамматики и лексические ресурсы, представленные в разделе 3.В каждом из экспериментов мы извлекали грамматику из поезда Tiger и использовали ее для получения 100 лучших синтаксических разборов предложений оценочного корпуса.

Мы обучили модели повторного ранжирования на поезде Тигра, как описано в Разделе 6, используя наши функции на основе подкатегорий, набор функций Versley09 и объединение этих двух наборов. Мы оценивали модели на Tiger dev, Tiger test и Europarl. Поскольку домены Tiger и Europarl сильно различаются, помимо этой оценки междоменного парсера (CROSS) мы также провели оценку внутри домена (IN).В последнем мы следовали семикратному подходу перекрестной проверки, то есть модели повторного ранжирования обучались на шести седьмых Europarl. Результаты представлены в таблице 3.

Таблица 3

Оценка PARSEVAL для одноязычных функций для повторного ранжирования синтаксического анализа Europarl (семиступенчатая перекрестная проверка на 662 предложениях) и Tiger2 (наборы для разработки и тестирования).

66577 77,73 (66,95) 77,86 (69,04)

.
Разработчики Tiger
.
Испытание тигра
.
Europarl КРЕСТ
.
Europarl IN
.
Исходный уровень 82,42 (72,36) 76,84 (65,91) 77,13 (66,06)
субкатегория 83,19 (73,63)
Versley09 83.56 (73,89) 78,57 (68,42) 77,82 (66,87) 77,62 (66,05)
подкаталог + Versley09 84,19 (74,96) 78,86 (69,04) (66,75)
66577 77,73 (66,95)

.
Разработчики Tiger
.
Испытание тигра
.
Europarl КРЕСТ
.
Europarl IN
.
Базовый уровень 82,42 (72,36) 76,84 (65,91) 77,13 (66,06)
субкатегория 83,19 (73,63)
Versley09 83,56 (73,89) 78,57 (68,42) 77,82 (66,87) 77,62 (66,05)
84,1996) 78,86 (69,04) 77,76 (66,84) 77,93 (66,75)

Результаты, представленные в таблице 3, показывают, что модели переориентации достигают улучшения по сравнению с базовым анализатором с использованием как нашего, так и набора функций Versley09. Набор функций Versley09 достиг лучших результатов, чем наши одноязычные функции, когда дан обучающий набор данных с достаточным размером (Tiger). С другой стороны, использование наших 16 богатых функций (по сравнению с 117000 разреженных функций) больше подходит для настроек, где доступно только ограниченное количество обучающих примеров (обучающие наборы состоят из 567 предложений Europarl с семикратной перекрестной проверкой) .Модели повторного ранжирования, использующие объединение наборов функций, получают близкую к сумме улучшений двух отдельных наборов функций. Подкатегоризация включает в себя обширную модель нелокальной информации, а мелкозернистые функции хорошо отражают локальные различия, а функции, основанные на корпусе Web, получают доступ к дополнительным знаниям.

Мы провели эксперимент, добавляя по одной функции за раз, и обнаружили, что наиболее эффективными функциями были ProbAdverbAttach , MI_VPP , MI_VPRF , MI_VSubj и MI_VArg .После этого вариация, вызванная числовой нестабильностью, была слишком высокой, чтобы увидеть последовательный прирост от остальных функций. Мы пришли к выводу, что эти функции могут быть надежно оценены и обладают большей отличительной способностью, чем другие, но мы подчеркиваем, что мы использовали все функции в наших экспериментах.

На рисунке 5 показано дерево синтаксического анализа, созданное синтаксическим анализатором BitPar, в котором именная фраза diese Finanzierung неправильно классифицируется как винительный падеж.Одноязычная подкатегория, включающая MI_VSubcat , MI_VSimpleSubcat и MI_VArg , позволяет перераспределителю правильно анализировать именную фразу как подлежащее и перемещать ее с уровня VP на уровень S.

Рисунок 5

Ошибочный синтаксический анализ, произведенный BitPar, который исправляется одноязычными функциями.

Рисунок 5

Ошибочный синтаксический анализ, произведенный BitPar и исправленный одноязычными функциями.

Теперь мы представляем нашу двуязычную структуру переориентации. Это следует за нашей предыдущей работой (Fraser, Wang и Schütze 2009), в которой определены функции функций для повторного ранжирования синтаксического анализа английского языка, но теперь мы будем использовать те же функции функций (и три дополнительные функции функций, введенные для захвата явлений выше в синтаксическом дереве), чтобы повторно проанализируйте немецкие синтаксические конструкции. Интуиция при использовании этого типа функции битекстовой проекции заключается в том, что неоднозначные структуры на одном языке часто соответствуют однозначным структурам на другом.Наши функции функций — это функции для гипотетического синтаксического анализа английского языка e , синтаксического анализа немецкого языка g и выравнивания слов a , и они присваивают оценку (варьирующуюся от 0 до бесконечности), которая измеряет синтаксическое расхождение . Выравнивание пары предложений — это функция, которая для каждого английского слова возвращает набор немецких слов, по которым выравнивается английское слово. Значения функции функции вычисляются либо путем отрицательного логарифма вероятности, либо с помощью эвристической функции, которая масштабируется аналогичным образом. 24

Определенные нами двуязычные функции — это функции, которые измеряют различные типы синтаксического расхождения между синтаксическим синтаксическим анализом на английском и немецком языках. Чарняк и Джонсон (2005) определили современное состояние в области дискриминирующего синтаксического анализа n — лучшего избирательного округа (без использования самообучения). Результат n — лучший результат их генеративного синтаксического анализатора подвергается разборчивому изменению ранжирования с помощью повторного ранжирования.Мы называем это CJRERANK. Мы будем использовать набор функций функций, измеряющих синтаксическое расхождение возможных синтаксических анализов немецкого языка с проекцией синтаксического анализа английского языка, полученного от CJRERANK.

В наших экспериментах мы используем английский текст параллельного Treebank, извлеченный из корпуса Europarl и аннотированный Padó and Lapata (2009). Есть 662 немецких предложения, которые выровнены с отдельными английскими предложениями; это тот набор, который мы используем.Из-за ограниченного количества деревьев мы выполняем перекрестную проверку для измерения производительности.

Основная идея, лежащая в основе наших функций функций, заключается в том, что любая составляющая в предложении должна играть примерно такую ​​же синтаксическую роль и иметь такой же диапазон, как и соответствующая составляющая в переводе. Если есть очевидное несогласие, вероятно, оно вызвано неправильным прикреплением или другими синтаксическими ошибками при синтаксическом разборе.Иногда при переводе изменяется синтаксическая роль данной семантической составляющей; мы предполагаем, что в этом случае наша модель наказывает все предполагаемые синтаксические разборы одинаково.

Чтобы определить, какие функции описывать здесь, мы провели жадный эксперимент по добавлению функций (добавляя по одной функции за раз) поверх нашей лучшей одноязычной системы (объединяющей наборы функций subcat и Versley09 ). Во всех двуязычных экспериментах используются все функции (а не только те, которые мы здесь описываем).Есть определения. 25

BitPar LogProb (единственная одноязычная функция, использованная в двуязычном эксперименте) — это отрицательная логарифмическая вероятность, присвоенная BitPar немецкому синтаксическому анализу.

Подсчет функций функций Подсчет нарушений ограничений проекции.

Функция CrdBin подсчитывает двоичные события, включающие заголовки скоординированных фраз.Если у нас есть координация, в которой английский CC выровнен только с немецким KON, и оба имеют двух братьев и сестер, то значение, внесенное в CrdBin , равно 1 (что указывает на нарушение ограничения), если заголовок английского левого конъюнкта не выровнен с голова немецкого левого конъюнкта, а также правого конъюнкта выровнена.

Feature Q просто фиксирует несоответствие между вопросами и утверждениями.Если предложение на немецком языке разбирается как вопрос, а параллельное предложение на английском языке — нет, или наоборот, значение признака равно 1; в противном случае значение равно 0.

Feature S-OC считает, что клаузальный объект (OC) в немецком синтаксическом анализе должен быть спроецирован на простое декларативное предложение на английском языке. Эта функция подсчитывает нарушения.

EngPPinSVP проверяет, прикреплен ли PP внутри S или VP на английском к той же (прогнозируемой) составляющей на немецком языке.Если английский PP следует сразу за VP или отдельным глаголом, и вся составляющая помечена «S» или «VP», то PP следует идентифицировать как управляемый VP. В этом случае соответствующий немецкий PP должен быть прикреплен также к немецкому VP, на который проецируется английский VP (прикрепление на немецком языке может быть слева или справа). Если губернатор на немецком языке не оказывается вице-президентом или имеет тег, начинающийся с «V», к функции для этого немецкого синтаксического анализа будет добавлено значение 1.

EngLeftSVP проверяет, присоединяется ли левый родственник S или VP в английском языке к одному и тому же (проецируемому) компоненту в немецком языке (где вложение может быть левым или правым).Эта функция подсчитывает нарушения.

Функции функции Span Projection. Элементы проекции диапазона вычисляют абсолютную или процентную разницу между диапазоном составляющей и диапазоном ее проекции. Размер диапазона измеряется символами или словами. Чтобы проецировать составляющую при синтаксическом анализе, мы используем выравнивание слов для проецирования всех позиций слов, охватываемых составляющей, а затем ищем наименьшую покрывающую составляющую при синтаксическом анализе параллельного предложения.

PPParentPrjWord проверяет правильность прикрепления PP. Он проецирует всех родительских компонентов PP в синтаксическом анализе английского языка на немецкий и суммирует все различия в промежутках. Это измеряется словами. В дополнение к PPParentPrjWord мы реализуем две дополнительные функции: NonPPWord и NonPPPer . Первый просто вычисляет количество слов, которые не принадлежат PP-фразам в предложении, а второй вычисляет не-PP пропорцию на основе символов.Их можно рассматривать как настраиваемые параметры, которые регулируют PPParentPrjWord , чтобы не создавать неблагоприятных условий для больших PP. Другие выбранные функции проекции описаны в Таблице 4.

Таблица 4

Выбраны другие проекционные элементы; см. вышеупомянутую веб-страницу 25 для точных определений.

POSParentPrjWordPerG2E Вычисляет разность диапазона между всеми родительскими составляющими тегов POS при синтаксическом анализе на немецком языке и их соответствующее покрытие в соответствующем синтаксическом анализе на английском языке, измеренное с использованием процентного покрытия предложения словами.Значение функции — это сумма всех различий. Направление проецирования — с немецкого на английский.
AbovePOSPrjPer Направление проекции с английского на немецкий и измеряется в процентах покрытия предложения с использованием символов, а не слов. Значение функции рассчитывается для всех составляющих выше уровня POS в английском дереве.
AbovePOSPrjWord Вычисляет разницу на основе длины с использованием слов.
POSPar2Prj Применяется только в том случае, если родительский тег POS имеет двух дочерних элементов (тег POS имеет только одного родственного брата). Проецирует с английского на немецкий и вычисляет разницу в длине символов.
POSPar2PrjPer Вычисляет процентную разницу на основе символов.
POSPar2PrjG2E Как POSPar2Prj , кроме проектов с немецкого на английский.
POSPar2PrjWordG2E То же, что и POSPar2PrjG2E , за исключением использования словесных различий.
POSParentPrjWordPerG2E Вычисляет разность диапазона между всеми родительскими составляющими тегов POS при синтаксическом анализе на немецком языке и их соответствующее покрытие в соответствующем синтаксическом анализе на английском языке, измеренное с использованием процентного покрытия предложения словами. Значение функции — это сумма всех различий.Направление проецирования — с немецкого на английский.
AbovePOSPrjPer Направление проекции с английского на немецкий и измеряется в процентах покрытия предложения с использованием символов, а не слов. Значение функции рассчитывается для всех составляющих выше уровня POS в английском дереве.
AbovePOSPrjWord Вычисляет разницу на основе длины с использованием слов.
POSPar2Prj Применяется только в том случае, если родительский тег POS имеет двух дочерних элементов (тег POS имеет только одного родственного брата).Проецирует с английского на немецкий и вычисляет разницу в длине символов.
POSPar2PrjPer Вычисляет процентную разницу на основе символов.
POSPar2PrjG2E Как POSPar2Prj , кроме проектов с немецкого на английский.
POSPar2PrjWordG2E То же, что и POSPar2PrjG2E , за исключением использования словесных различий.

Функции вероятностных признаков. Мы используем Europarl (Koehn 2005), из которого мы извлекаем параллельный корпус из примерно 1,22 миллиона пар предложений, чтобы оценить вероятностные функции признаков, описанные в этом разделе.

Мы описываем признак PTag , несмотря на то, что он не был выбран при анализе признаков, потому что было выбрано несколько вариантов (описанных ниже). PTag измеряет несогласованность тегов на основе оценки вероятности для каждого английского слова того, что оно имеет конкретный тег POS, с учетом тега POS выровненного немецкого слова. Чтобы избежать зашумленных значений признаков из-за выбросов и ошибок синтаксического анализа, мы ограничили значение PTag на 5. 26 Мы используем относительную частоту для оценки этой особенности. Когда английское слово совмещено с двумя словами, оценка становится более сложной. Мы эвристически оцениваем каждую пару английского и немецкого языков.Значение, вычисленное функцией признака, представляет собой среднее геометрическое 27 парных вероятностей.

Функция PTagEParent измеряет несогласованность тегов на основе оценки вероятности того, что родительский элемент английского слова в позиции и имеет конкретный тег, учитывая POS-метку выровненного немецкого слова. PTagBiGLeft измеряет несогласованность тегов на основе оценки вероятности для каждого английского слова того, что оно имеет конкретный тег POS, учитывая метку выровненного немецкого слова и слово слева от метки выровненного немецкого слова. PTagBiGParent измеряет несогласованность тегов на основе оценки вероятности для каждого английского слова того, что оно имеет конкретный тег POS, учитывая метку выровненного немецкого слова и метку родительского немецкого слова.

Разбор

Bitext также рассматривался Burkett и Klein (2008). В этой работе они используют функции функций, определенные в тройках (английское дерево синтаксического анализа, китайское дерево синтаксического анализа, выравнивание), которые объединены в лог-линейную модель, как и мы.В более поздних работах (Burkett, Blitzer, and Klein 2010) они разработали единую совместную модель для решения той же проблемы с использованием слабо синхронизированной грамматики. Для обучения этих моделей они используют небольшой параллельный Treebank, который содержит деревья золотого стандарта для параллельных предложений на китайском и английском языках, тогда как нам требуются только деревья золотого стандарта для языка, который мы переориентируем. Еще одно важное отличие состоит в том, что Burkett и Klein (2008) используют большое количество автоматически сгенерированных функций (определенных в терминах шаблонов генерации функций), тогда как мы используем небольшое количество тщательно разработанных функций, которые мы обнаружили с помощью лингвистического анализа параллельных корпусов.Burkett, Blitzer и Klein (2010) используют подмножество функций Burkett and Klein (2008) для синхронизации, наряду с функциями одноязычного синтаксического анализа и выравнивания. Наконец, самообучающийся (Макклоски, Чарняк и Джонсон, 2006b) — еще один отличительный признак нашей работы. В наших функциях двуязычных функций мы используем вероятности, оцененные на основе согласованных синтаксических анализов английского языка CJRERANK и немецкого анализа BitPar большого корпуса Europarl. Эти функции используются для улучшения ранжирования парсеров немецкого BitPar в тестовых наборах, что является формой самообучения.

Два других интересных исследования в этой области — это исследования Fossum and Knight (2008) и Huang, Jiang и Liu (2009). Они улучшают прикрепление английских предложных фраз, используя особенности китайского предложения. Однако, в отличие от нашего подхода, они не требуют синтаксического синтаксического анализа китайского языка, поскольку порядок слов в китайском языке достаточен для однозначного определения правильной точки присоединения предложной фразы в английском предложении без использования синтаксического синтаксического анализа китайского языка.

Нам неизвестны другие работы, в которых изучалась бы степень взаимодополняемости одно- и двуязычных функций при изменении ранжирования синтаксического анализа. В частности, работа Burkett и Klein (2008) по синтаксическому анализу битекста не рассматривает вопрос о том, является ли (частично) аддитивным эффект одноязычных и двуязычных функций при изменении ранжирования синтаксического анализа.

Мы демонстрируем улучшение двуязычия для сильного синтаксического анализатора немецкого языка.Ранее мы показали улучшение двуязычного анализа английского языка с помощью нелексикализованного синтаксического анализатора (Fraser, Wang, and Schütze, 2009), используя 34 из 37 двуязычных функций, которые мы используем в этой работе.

URL-адрес синтаксического анализа Regex

20 апреля 2005 г. · Анализатор журналов — это мощный универсальный инструмент, который обеспечивает универсальный доступ к запросам к текстовым данным, таким как файлы журналов, файлы XML и CSV, а также ключевые источники данных в Windows® операционная система, такая как журнал событий, реестр, файловая система и Active Directory®.Разобрать определение, чтобы проанализировать (предложение) с точки зрения грамматических составляющих, выявить части речи, синтаксические отношения и т. Д. Подробнее.

8 октября 2020 г. · Щелкните изображение правой кнопкой мыши. После того, как вы нашли изображение, для которого хотите получить URL-адрес, щелкните его правой кнопкой мыши, и появится раскрывающееся меню. Если вы используете Mac с однокнопочной мышью, удерживайте Ctrl и щелкните изображение, чтобы открыть контекстное меню. Использование парсера HTML Это, пожалуй, лучшее решение (если выбранный парсер хорош!).В сети доступно множество парсеров. В этом практическом руководстве я буду использовать пакет с открытым исходным кодом Jsoup. Jsoup полностью автономен и не имеет зависимостей, что хорошо.

Разбор URL-адреса regex.js. GitHub Gist: мгновенно обменивайтесь кодом, заметками и фрагментами. Вы также можете дополнительно указать несколько свойств, таких как URL-адрес документа, реферер или пользовательский агент. URL-адрес особенно полезен, если вам нужно проанализировать ссылки, содержащие локальные URL-адреса. Поскольку это на самом деле не связано с синтаксическим анализом, мы просто упоминаем, что jsdom имеет (виртуальную) консоль, поддержку файлов cookie и т. Д.

Re: Regex в URL-адресах «ТОЛЬКО для синтаксического анализа»: «Ответ №6 от: 5 января 2019 г., 15:24:44» Я проверил, но индексирую в файлах Sitemap строками «b-50-67» Я хочу индексировать с помощью b -0-67 или b-50-0 13 января 2020 г. · Яфи и Джеймс показывают, как анализировать и управлять параметрами URL, используя только обычный JavaScript. … Это может быть индексированный массив, неиндексированный массив или обычная строка.

RegExr — это онлайн-инструмент для изучения, создания и тестирования регулярных выражений (RegEx / RegExp). Поддерживает JavaScript и PHP / PCRE RegEx.Результаты обновляются в режиме реального времени по мере ввода. Чтобы узнать подробности, наведите курсор на совпадение или выражение. Проверяйте шаблоны с помощью наборов тестов. Сохраняйте выражения и делитесь ими с другими.Как разобрать веб-сайт с помощью регулярных выражений и urllib Учебное пособие по Python В этом видео мы используем два стандартных библиотечных модуля Python 3, re и urllib, для синтаксического анализа данных абзаца с веб-сайта. Как мы видели, изначально, когда вы используете Python 3 и urllib для синтаксического анализа веб-сайта, вы получаете все данные HTML, как при использовании «источника просмотра» на веб-странице.

В законах Этельберта в англосаксонской Англии № 73 гласит: «Если свободнорожденная женщина с длинными волосами плохо себя ведет, она заплатит 30 шиллингов в качестве компенсации.«Почему это конкретно обозначало женщину с длинными волосами? Были ли женщины с короткими волосами? Почему они различались?: AskHistorians

Есть несколько разных объяснений этой фразе. Короче говоря, женщина с длинными волосами означает свободную женщина и повторяется, или слово, переведенное как «с длинными волосами», переведено неправильно.

Во-первых, точное слово в этом кодексе закона, переведенное здесь как «с длинными волосами», — это locbore . Locbore — hapax legomenon, это означает, что он встречается только один раз в дошедших до нас материалах, поэтому его значение не обязательно ясно.Некоторые ученые решили перевести его как «с длинными волосами», полагая, что оно образовано от слова locc , означающего волосы — как «прядь волос» — и bore / bora , означающего «носитель». В других соединениях locc теряет второй c при префиксе, поэтому логично, что loc- происходит от locc . Затем эти ученые утверждали, что женщина с длинными волосами — свободнорожденная женщина, и что это тавтология. Однако в законах Салика и Лонгобардов термин «женщина с длинными волосами» используется для обозначения девственниц, но в законах Этельберта для этого значения используется слово mægþ , как в пункте 74.Таким образом, ученые, поддерживающие это, утверждали, что женщина с длинными волосами означала свободную женщину, в отличие от порабощенной женщины, а не девственницу. Однако эта связь между свободой и «длинными волосами» не подтверждается никакими другими сохранившимися источниками.

Loc-, однако, также может означать замок, как то, что защищает дверь. Скважина имеет одинаковый перевод у всех ученых — «носитель». Это тоже замечено в свордбере «меченосец», а также другими словами.Ученый Кристин Фелл убедительно (на мой взгляд) утверждала, что это правильный перевод и что locbore следует переводить как «держащие ключи». Что это значит? Многочисленные предметы в форме ключей, известные как «поясные вешалки», были найдены в женских, но не мужских могилах. Кроме того, их обычно не находят в могилах, содержащих драгоценности, что указывает на то, что они могут иметь отношение к людям из низшего сословия. Принято считать, что женщины контролировали многие области домашней экономики, поэтому Фелл утверждает, что locbore имеет в виду именно это. friwif locbore тогда можно было бы перевести как «свободная женщина, управляющая ключами», имея в виду женщину в богатой семье с большой семейной ответственностью, но, вероятно, не женщину дома, так сказать.

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *