Морфологический разбор слова «отличный»
Часть речи: Прилагательное
ОТЛИЧНЫЙ — слово может быть как одушевленное так и неодушевленное, смотрите по предложению в котором оно используется.
Начальная форма слова: «ОТЛИЧНЫЙ»
Слово | Морфологические признаки |
---|---|
ОТЛИЧНЫЙ |
|
ОТЛИЧНЫЙ |
|
Все формы слова ОТЛИЧНЫЙ
ОТЛИЧНЫЙ, ОТЛИЧНОГО, ОТЛИЧНОМУ, ОТЛИЧНЫМ, ОТЛИЧНОМ, ОТЛИЧНАЯ, ОТЛИЧНОЙ, ОТЛИЧНУЮ, ОТЛИЧНОЮ, ОТЛИЧНОЕ, ОТЛИЧНЫЕ, ОТЛИЧНЫХ, ОТЛИЧНЫМИ, ОТЛИЧЕН, ОТЛИЧНА, ОТЛИЧНО, ОТЛИЧНЫ, ОТЛИЧНЕЕ, ОТЛИЧНЕЙ, ПООТЛИЧНЕЕ, ПООТЛИЧНЕЙ, ОТЛИЧНЕЙШИЙ, ОТЛИЧНЕЙШЕГО, ОТЛИЧНЕЙШЕМУ, ОТЛИЧНЕЙШИМ, ОТЛИЧНЕЙШЕМ, ОТЛИЧНЕЙШАЯ, ОТЛИЧНЕЙШЕЙ, ОТЛИЧНЕЙШУЮ, ОТЛИЧНЕЙШЕЮ, ОТЛИЧНЕЙШЕЕ, ОТЛИЧНЕЙШИЕ, ОТЛИЧНЕЙШИХ, ОТЛИЧНЕЙШИМИ
Разбор слова по составу отличный
Основа слова | отличн |
---|---|
Корень | отлич |
Суффикс | н |
Окончание | ый |
Разбор слова в тексте или предложении
Примеры предложений со словом «отличный»
1
Старина, ты отличный, отличный рыбак!
Ключи Царства, Арчибальд Кронин, 1941г.2
Она выпила за компанию рюмку, сказала мне, что я отличный человек и поэт отличный, с виду я такой же трагичный, как Маяковский, и оставила нас.
Третья штанина (сборник), Евгений Алехин, 2012г.3
Это отличный опыт и отличный проект для резюме!
Путешествие с закрытыми глазами, Александра Милованцева, 2016г.4
Отличный, отличный, особо показательный у Вас вкус – это замечательная вещь, именно мистическая, как Вы и сказали.
Водовороты, Владислав Картавцев, 2015г.5
Он был отличным работником, отличным семьянином, отличным человеком и еще много чем «отличным» и все знали это, и ценили, и уважали его.
Требуется помочь, Елена Михайловна ОфицероваНайти еще примеры предложений со словом ОТЛИЧНЫЙ
Слова «хороший» морфологический и фонетический разбор
1. красивый
2. пригодный
3. благоустроенный
4. похвальный
5. прекрасный
6. пригожий
7. отрадный
8. достохвальный
9. путный
10. добрый
11. доброкачественный
12. добросовестный
13. годный
14. безупречный
15. славный
16. утешительный
17. цветущий
18. дельный
19. удобный
20. полезный
21. подходящий
22. благой
23. добродетельный
24. добродушный
25. благодушный
26. добросердечный
27. гуманный
28. человечный
29. душевный
30. жалостливый
31. сердечный
32. отзывчивый
33. чувствительный
34. примерный
35. идеальный
36. мастерский
37. безукоризненный
38. отличный
39. блестящий
40. прелестный
41. чудный
42. хорошенький
43. щедрый
44. высококачественный
45. добрососедский
46. завидный
47. изрядный
48. качественный
49. классный
50. клевый
51. недурственный
52. недурной
53. неплохой
54. фартовый
55. порядочный
56. стоящий
57. перворазрядный
58. правильный
59. важный
60. важнецкий
61. превосходнейший
62. превосходный
63. отменный
64. первоклассный
65. первосортный
66. знатный
67. первостатейный
68. положительный
69. добротный
70. отборный
71. справный
72. хорош
73. уместный
74. ладный
75. мировой
76. хоть куда
77. благоприятный
78. достаточный
79. большой
80. значительный
81. близкий
82. достойный
83. приличный
84. неотразимый
85. фирменный
86. погожий
87. райский
88. славнецкий
89. удачный
90. сочувственный
91. лестный
92. комплиментарный
93. высокий
94. законный
95. нехилый
96. высшей марки
97. изумительный
98. замечательный
99. упоительный
100. восхитительный
101. не последний
102. высокопробный
103. распрекрасный
104. неслабый
105. будь здоров
106. что надо
107. на ять
108. слава богу
109. будь-будь
110. выше всяких похвал
111. лучше не надо
112. не из последних
113. чем плох
114. чего лучше
115. лучше нет
116. надо бы лучше, да некуда
117. дай боже
118. первый сорт
119. со знаком плюс
120. на большой
121. на большой палец
122. на пять ять
123. не пальцем делан
124. не обсевок в поле
125. грамотный
126. высокого качества
127. забойный
128. капитальный
129. кайфовый
130. козырной
131. коронный
132. ломовой
133. мазёвый
134. мечтательный
135. мечтательский
136. нажористый
137. откатный
138. обубительный
139. офигительный
140. офигенный
141. покайфный
142. понтовый
143. сахарный
144. толстый
145. фирмовый
146. ужорный
147. ужористый
148. улетный
149. файфовый
150. фирмашный
151. вуматный
152. царский
153. благонравный
154. нашенский
155. готовый
156. на все сто
157. не хрен собачий
158. атомный
159. ядерный
160. хипповый
161. ядреный
162. попсовый
163. один к одному
164. как на подбор
165. один другого лучше
166. одобрительный
167. пьяный
168. веселенький
169. загруженный
170. косой
171. накачанный
172. накушанный
173. опьянелый
174. отравленный
175. пьяным-пьяный
176. тепленький
177. хмельной
178. пьяный в доску
179. пьяный в дугаря
180. пьяный в дугу
181. пьяный в дупель
182. пьяный в дым
183. пьяный в дымину
184. пьяный в лоск
185. пьяный в лоскуты
186. пьяный в стельку
187. пьяный вдрабадан
188. пьяный вдребезги
189. пьяный вдрызг
190. пьяный вусмерть
191. пьяный до зелена змия
192. пьяный как змий
193. пьяный как зюзя
194. пьяный как сапожник
195. пьяный как стелька
196. пьяный как швед
197. пьяный-распьяный
198. готов
199. в нетрезвом виде
200. в нетрезвом состоянии
201. в состоянии опьянения
202. еле можаху
203. лыка не вяжет
204. на бровях ходит
205. на газах
206. на дринче
207. на ногах едва стоит
208. на ногах не стоит
209. на рогах
210. на ровном месте не стоит
211. ногами вавилоны выделывает
212. ногами вавилоны пишет
213. ногами вензеля выделывает
214. ногами вензеля пишет
215. ногами заплетает
216. ногами кренделя выделывает
217. ногами кренделя пишет
218. ногами мыслете выделывает
219. ногами мыслете пишет
220. под балдой
221. под банкой
222. под мухой
223. пьяней вина
224. языком еле ворочает
225. языком не ворочает
226. в глазах двоится
227. глаза в кучку
228. глазки в кучку
229. папа-мама сказать не может
230. бухой
231. папа-мама не выговаривает
232. на кочерге
233. высшей пробы
234. гарный
235. енный
Как разобрать по составу слово «прекрасный»?
Слово «прекрасный» следует разобрать по составу, указав корень и окончание.
Часть речи слова «прекрасный»
Разбор по составу этой лексемы начнем с выяснения части речи, так как в русском языке слово каждой части речи имеет свой набор минимальных значимых частей — морфем.
Прекра́сный сегодня выдался денёк!
Денёк (какой?) прекра́сный.
Это слово определяет существительное и обозначает непосредственный признак предмета. Значит, это качественное прилагательное, которое изменяется по родам и числам:
- прекрасная погода,
- прекрасное самочувствие,
- прекрасные цветы.
Морфемный разбор слова «прекрасный»
Окончание в слове «прекрасный»
Сравним родовые формы качественного прилагательного и выделим в составе формы единственного числа мужского рода окончание -ый, которое не входит в основу
прекрасный.
Корень в слове «прекрасный»
А далее, чтобы определить, есть ли в интересующей нас лексеме приставка и суффикс, каковы границы корня, обратимся к этимологии (происхождению) этого слова. Оно пришло из старославянского языка и когда-то, возможно, часть пре- была приставкой и имела значение «очень»:
«пре-кра́сный» значило «очень красивый».
Но в современном русском языке эти форменные элементы в строении слова уже не выделяются. С этимологическим корнем -крас- срослись приставка и суффикс. Вот так образовалось слово, сохранившее прежние лексические значения «очень привлекательный», «отличающийся необыкновенной красотой»:
- прекрасный вид из окна,
- прекрасные глаза.
Наряду с ними у этой лексемы появились новые значения: «отличный», «замечательный».
Понаблюдаем:
- прекра́сный человек — человек, отличающийся своими высокими душевными качествами,
- прекра́сный механик — мастер своего дела.
Итак, в современном русском языке минимальная значимая часть прекрасн- является главной морфемой, или корнем, этого прилагательного.
Запишем морфемный состав исследуемого слова в виде схемы:
прекрасный — корень/окончание.
[PDF] Статистический анализ с контекстно-свободной грамматикой и статистикой слов
ПОКАЗЫВАЕТСЯ 1-10 ИЗ 11 ССЫЛОК
СОРТИРОВАТЬ ПОRelevanceMost Influenced PapersRecency
Новый статистический анализатор, основанный на лексических зависимостях Bigram
Новый статистический анализатор, основанный на статистических зависимостях вероятности зависимостей между заглавными словами в дереве синтаксического анализа, которое обучается на 40 000 предложений менее чем за 15 минут и может быть улучшено до более чем 200 предложений в минуту с незначительной потерей точности.Expand- Посмотреть 2 выдержки, методы ссылок
Грамматики банка деревьев
В этой статье представлены результаты по грамматике банка деревьев, основанной на банке дерева журнала Penn WaII Street Journal, который превосходит другие статистические синтаксические анализаторы/грамматики, не основанные на словах. корпуса и превосходит синтаксические анализаторы, которые рассматривают ввод как строку тегов и игнорируют фактические слова корпуса. Expand- Просмотреть 3 выдержки, справочные материалы и методы
Статистические модели деревьев решений для синтаксического анализа
Описывается SPATTER, статистический синтаксический анализатор, основанный на методах обучения дерева решений, который строит полный синтаксический анализ для каждого предложения и обеспечивает гораздо более высокие показатели точности чем любой опубликованный результат.Expand- Посмотреть 2 выдержки, справочные методы
Новые показатели качества для анализа вероятностных диаграмм с первым наилучшим результатом
В этой работе предлагается и оценивается несколько показателей качества для синтаксического анализа с первым наилучшим результатом, а также определяется легко вычисляемый показатель качества, который обеспечивает отличное производительность по различным показателям и две разные грамматики. Expand- Просмотр 1 выдержки, ссылки на методы
Создание большого аннотированного корпуса английского языка: The Penn Treebank
В результате этого гранта исследователи опубликовали на компакт-диске корпус из более чем 4 миллионов слов непрерывного текста, аннотированного теги части речи (POS), которые включают полностью проанализированную вручную версию классического корпуса Брауна.Expand- Посмотреть 4 выдержки, ссылки методы
Распределенная кластеризация английских слов
Детерминированный отжиг используется для поиска наборов кластеров с наименьшими искажениями: по мере увеличения параметра отжига существующие кластеры становятся нестабильными и подразделяются, что приводит к иерархической «мягкой» кластеризации данных. Expand- View 1 отрывок, справочные методы
Интерполяция с ожидаемой частотой
Интерполяция с ожидаемой частотой — это метод улучшения производительности сглаживания удаленной интерполяции.Это позволяет системе делать более детальные оценки того, как часто можно ожидать… Expand
Показатели качества для наилучшего анализа вероятностных диаграмм
Статистические модели деревьев решений для анализа
определение в Кембриджском словаре английского языка
Мы будем разбирать это некоторое время. Но отношение эукариот к другим группам было трудно разобрать .Это действительно попытка добросовестно (так сказать) разобрать этот спор. Но у оперативных групп центров обработки данных нет возможности проанализировать все это.Этот документ анализируется людьми, извлекается людьми, и они оценивают его. Как будто после разбора нет никакой надежды на дальнейшее понимание.Слова и образы анализируются, протестуют и часто извиняются. Судите сами по этим комментариям иЭти примеры взяты из корпусов и из источников в Интернете. Любые мнения в примерах не отражают мнение редакторов Кембриджского словаря, издательства Кембриджского университета или его лицензиаров.
Лингвисты ищут слова в разборе ораторского искусства Трампа
НЬЮ-ЙОРК (AP) — Предвыборные обещания могли быть изменены, а некоторые добровольно установленные сроки сброшены. Но среди того, что осталось нетронутым в первые месяцы правления новой администрации, — безошибочно узнаваемый стиль речи президента Дональда Трампа.
Фирменная речь Трампа полна бессвязных, отвлеченных всплесков простых, но четких слов, отягощенных самодовольной бравадой и заявлениями о том, что специалисты по проверке фактов работают сверхурочно, и все это передано из ума в уста в такое рекордно быстрое время, что, кажется, оно обходит любые внутренний фильтр.
Это стало источником любопытства как для языковедов, так и для неспециалистов, вновь разожженных недавним интервью Ассошиэйтед Пресс с Трампом, которое дало новую возможность для анализа марки президентского ораторского искусства, ранее не записанной.
«Это раздвигает границы лингвистического анализа», — сказала историк Кристен Кобес Дю Мез.
Взгляд на некоторые особенности речи Трампа:
___
НОВЫЙ ПРЕЗИДЕНТСКИЙ СЦЕНАРИЙ
Трамп привлек внимание масс отчасти потому, что его голос отличался от того, что публика привыкла ожидать от политиков.Кэтлин Холл Джеймисон, профессор Школы коммуникаций Анненберга при Пенсильванском университете, сказала, что импровизированную речь Трампа лучше всего описать как поток сознания, сильно отличающийся от того, к чему мы привыкли, от тех, кто ищет — и занимает — самое высокое. офис на земле.
«Публичное выступление президента в прошлом было сфабрикованным выступлением, его считали выступлением. Президенты готовились к речам, президенты готовились к пресс-конференциям, у президентов были готовые ответы», — сказала она.
С Трампом шаблон проверенных фокус-группами тщательно отобранных слов был разрушен.
___
ПОВТОРЕНИЕ, ЗАМЕЧАНИЯ И НЕПОСЛЕДОВАТЕЛЬНОСТИ
Интервью агентству AP — это лишь последний пример излюбленной тактики Трампа в разговоре. Выбор слов, как правило, прост — для Трампа вещи ужасны или невероятны, лучше или хуже. Отступления встречаются часто. И повторяется безудержно: когда Трамп хочет донести свою точку зрения, он делает это снова и снова.
Затем идут знакомые непоследовательности.В одной предвыборной речи, например, Трамп начинает говорить о ядерной сделке с Ираном только для того, чтобы уйти далеко в сторону и подробно рассказать о своем дяде, который был ученым.
В начале интервью агентству AP он неожиданно упомянул канцлера Германии Ангелу Меркель, сказав, что у него с ней была отличная химия. Затем он продолжает говорить о том, что ему приписывают «прекрасную химию со всеми лидерами», и даже когда интервьюер пытается перевести обсуждение, возвращается к тому, что он хочет сказать, снова говоря об установлении «потрясающих отношений». », и «отличные отношения», и «отличная химия».
«Существует много повторений, выстраивание доверительных отношений со слушателем, повторение «вы знаете», — сказал Пол Брин, старший преподаватель Вестминстерского университета в Англии. «Я думаю, что в том, что другие могут изобразить как его безумие, есть настоящий метод».
Трамп предположил, что в его выборе слов тоже есть метод, что простые термины, которые он часто выбирает, могут быть более эффективными, чем цветистое красноречие, к которому слушатели могут привыкнуть от президентов. «Я ходил в школу Лиги плюща.Я очень хорошо образован. я знаю слова; У меня самые лучшие слова», — сказал он во время предвыборной кампании.
___
ОЧЕНЬ, СУПЕР-ПУПЕР, ВЕЛИКОЛЕПНО
На протяжении всего интервью Трампа агентству AP его замечания изобилуют «словесными усилителями», как выразился Дю Мез, заведующий кафедрой истории в колледже Кальвина. Это означает такие вещи, как «очень, очень» и «много, много» или редкое «супер-пупер».
«Я не знаю, чтобы какой-либо президент когда-либо использовал «супер-пупер» в своей риторике», — сказал Дю Мез.Тем не менее, хотя она сказала, что президента иногда высмеивают за его элементарный выбор слов: «Что касается устной риторики, вам нужен более простой уровень обучения. Это более эффективный способ общения».
Эрик Эктон, лингвист из Университета Восточного Мичигана, отметил склонность Трампа к превосходным степеням, включая «самый большой», «самый жесткий» и «самый сильный». в часовом разговоре.
— Кажется, он действительно любит слово «великий», — сказал Актон.
___
ТЕЛЕСУФТОР VS. КРУТОЙ ПАРЕНЬ
Как и у всех, манера речи Трампа может меняться в зависимости от обстановки. Джон Боу, лингвист из Вашингтонского университета, говорит, что коммюнике Трампа обычно можно разделить на три группы: спонтанные речи; продуманные, тщательно доставленные адреса; и твиты.
Сценарий речей наиболее близок к президентской норме, а его выступление на совместном заседании Конгресса в феврале чаще всего называют примером того, как Трамп отражает прошлое лидеров.Самые напыщенные речи произносятся в спонтанных высказываниях Трампа или наспех написанных твитах.
Однако все это звучит очень специфическим голосом.
«Существует стиль речи, который ассоциируется с крутыми ньюйоркцами, стереотип мужчин в Нью-Йорке, и мы обычно ассоциируем его с мужчинами из рабочего класса», — сказал Боуг. «Они не только прямолинейны, но и крутые парни».
___
РАЗГОВОР ПРОДАВЦА?
В Бараке Обаме вы часто слышали, как адвокат за работой говорит осторожно и с некоторым подобием самоконтроля, сказал Джеймисон.У Трампа проблески бизнесмена проявляются в его категоричных утверждениях и его неоднократных утверждениях о том, что он успешен и им восхищаются.
— Он говорит вам, что бренд Трампа — хороший бренд, что всем нравится бренд Трампа, — сказал Джеймисон.
Дэвид Бивер, лингвист из Техасского университета в Остине, сказал, что Трамп копирует тактику рекламодателей, придерживаясь эмоционального убеждения, а не рациональности. Это означает графические образы, разбавленные яркими словами, и язык, более характерный для улицы, чем для государственного деятеля.
«Когда вы в последний раз слышали, чтобы президент дважды произносил «сволочь» в одном предложении?» — спросил Бивер.
___
С Седенским можно связаться по адресу [email protected] или https://twitter.com/sedensky
Адаптация домена парсинга оперативных заметок
https://doi.org/10.1016/j.jbi.2015.01 .016Получение прав и содержимогоОсновные моменты
- •
Мы адаптируем существующий нелексикализованный синтаксический анализатор PCFG к новым целевым доменам.
- •
Лексикон парсера дополнен биомедицинскими терминами в лексиконе UMLS SPECIALIST.
- •
Этот подход позволил значительно улучшить синтаксический анализ в двух биомедицинских областях.
Реферат
История вопроса
Полный синтаксический анализ клинического текста как часть клинической обработки естественного языка (NLP) имеет решающее значение для широкого круга приложений. Несколько надежных синтаксических парсеров общедоступны для создания лингвистических представлений предложений. Однако эти существующие синтаксические анализаторы в основном обучаются на общеанглийском тексте и могут потребовать адаптации для оптимальной работы с клиническим текстом.Наша цель состояла в том, чтобы адаптировать существующий синтаксический анализатор общего английского языка для клинического текста оперативных отчетов за счет пополнения лексики, корректировки статистики и модификации грамматических правил на основе оперативных отчетов.
Метод
Лексикон синтаксического анализатора нелексикализованной вероятностной контекстно-свободной грамматики (PCFG) Стэнфордского университета был дополнен словарем SPECIALIST вместе со статистикой, собранной из ограниченного набора оперативных заметок, помеченных двумя POS-тегерами (GENIA tagger и MedPost). Наиболее часто встречающиеся словарные слова SPECIALIST с глаголами были скорректированы на основе ручной проверки использования глаголов в оперативных заметках.Правила производства грамматики синтаксического анализатора Стэнфорда также были изменены с учетом лингвистических особенностей оперативных отчетов. Затем аналогичный подход был применен к корпусу GENIA для проверки обобщаемости этого подхода к биологическому тексту.
Результаты
Новый нелексикализованный синтаксический анализатор PCFG, дополненный дополнительным словарем от SPECIALIST, а также точной статистикой, собранной из корпуса оперативных заметок, помеченных тегером GENIA POS, улучшил F-показатель на 2,26% с 87,64% до 89,90%.Было прогрессивное улучшение с добавлением нескольких подходов. Расширение словарного запаса в сочетании со статистикой из корпуса оперативных заметок обеспечило наибольшее улучшение производительности парсера. Применение этого подхода к корпусу GENIA увеличило F-показатель на 3,81% благодаря новой простой грамматике и добавлению лексики корпуса GENIA.
Заключение
Использование статистики, собранной из клинического текста, помеченного тегами POS, наряду с правильным изменением грамматик и словарей нелексикализированного синтаксического анализатора PCFG может повысить производительность синтаксического анализа специализированного клинического текста существующими синтаксическими анализаторами.
Ключевые слова
Ключевые слова
Ключевые слова
Вероятно, БЕСПЛАТНАЯ ГРАМАМРА (PCFG)
Неразличный парсер
Адаптарь
Обработка натурального языка
Оперативные отчеты
Оперативные отчеты
Специалист
Рекомендуемые статьи Статьи (0)
Copyright © 2015 Опубликовано Elsevier Inc
Рекомендуемые статьи
Ссылки на статьи
Самый точный в мире парсер становится открытым исходным кодом
Эта структура кодирует, что Алиса и Боб являются существительными, а пила является глаголом.Основной глагол пила является корнем предложения, а Алиса является подлежащим (nsubj) пила , а Боб является его прямым дополнением (добж). Как и ожидалось, Parsey McParseface правильно анализирует это предложение, но также понимает следующий более сложный пример:
Эта структура снова кодирует тот факт, что Алиса и Боб являются соответственно субъектом и объектом пилы , кроме того, что Алиса изменяется относительным предложением с глаголом , читающимся как , что видел, изменяется временным модификатором вчера и так далее.Грамматические отношения, закодированные в структурах зависимостей, позволяют нам легко восстановить ответы на различные вопросы, например кого увидела Алиса? , кто видел Боба? , о чем читала Алиса? или когда Алиса увидела Боба? .
Почему синтаксический анализ так труден для компьютеров?
Одна из основных проблем, делающих синтаксический анализ настолько сложным, заключается в том, что человеческие языки демонстрируют значительный уровень неоднозначности. Предложения средней длины — скажем, 20 или 30 слов — нередко содержат сотни, тысячи или даже десятки тысяч возможных синтаксических структур.Парсер естественного языка должен каким-то образом просмотреть все эти альтернативы и найти наиболее правдоподобную структуру с учетом контекста. В качестве очень простого примера, предложение Алиса ехала по улице на своей машине имеет как минимум два возможных разбора зависимостей:
Первый соответствует (правильной) интерпретации, где Алиса едет на своей машине; второй соответствует (абсурдной, но возможной) интерпретации, где улица находится в ее машине. Неоднозначность возникает из-за того, что предлог в может модифицировать либо
Люди замечательно справляются с двусмысленностью почти до такой степени, что проблема становится незаметной; задача состоит в том, чтобы компьютеры делали то же самое. Множественные двусмысленности, подобные этим, в более длинных предложениях сговорились, чтобы дать комбинаторный взрыв в количестве возможных структур для предложения. Обычно подавляющее большинство этих структур крайне неправдоподобны, но, тем не менее, возможны и должны быть каким-то образом отброшены синтаксическим анализатором.
SyntaxNet применяет нейронные сети к проблеме неоднозначности.Входное предложение обрабатывается слева направо, при этом зависимости между словами постепенно добавляются по мере рассмотрения каждого слова в предложении. В каждый момент обработки может быть возможно много решений — из-за неоднозначности — и нейронная сеть выставляет баллы конкурирующим решениям на основе их правдоподобия. По этой причине очень важно использовать в модели поиск луча . Вместо того, чтобы просто принимать первое лучшее решение в каждой точке, на каждом шаге сохраняется несколько частных гипотез, причем гипотезы отбрасываются только тогда, когда рассматривается несколько других гипотез более высокого ранга.Пример последовательности решений слева направо, которая приводит к простому синтаксическому анализу, показан ниже для предложения Я забронировал билет в Google .
На стандартном эталонном тесте, состоящем из случайно выбранных предложений английской новостной ленты (20-летний Penn Treebank), Parsey McParseface восстанавливает индивидуальные зависимости между словами с точностью более 94%, превосходя наши собственные предыдущие результаты, которые были уже лучше, чем любой предыдущий подход. Хотя в литературе нет явных исследований о человеческой деятельности, мы знаем из наших собственных проектов аннотации, что лингвисты, обученные этой задаче, соглашаются в 96-97% случаев.Это говорит о том, что мы приближаемся к человеческим возможностям, но только на правильно сформированном тексте. Предложения, взятые из Интернета, намного сложнее анализировать, как мы узнали из Google WebTreebank (выпущенного в 2011 году). Parsey McParseface достигает точности синтаксического анализа чуть более 90% в этом наборе данных.
Хотя точность не идеальна, она, безусловно, достаточно высока, чтобы быть полезной во многих приложениях. Основным источником ошибок на этом этапе являются такие примеры, как двусмысленность прикрепления предложной фразы, описанная выше, которая требует знания реального мира (т.г. что улица вряд ли находится в машине) и глубокие контекстуальные рассуждения. Машинное обучение (и, в частности, нейронные сети) добились значительного прогресса в разрешении этих неоднозначностей. Но наша работа все еще ограничена для нас: мы хотели бы разработать методы, которые могут изучать мировые знания и обеспечивать одинаковое понимание естественного языка для всех языков и контекстов.
Для начала просмотрите код SyntaxNet и загрузите модель парсера Parsey McParseface.Удачного разбора от главных разработчиков, Криса Альберти, Дэвида Вайса, Даниэля Андора, Майкла Коллинза и Слава Петрова.
Автор: Слав Петров, старший научный сотрудникВ Google мы тратим много времени на размышления о том, как компьютерные системы могут читать и понимать человеческий язык, чтобы разумно обрабатывать его. Сегодня мы рады поделиться плодами нашего исследования с более широким сообществом, выпустив SyntaxNet, среду нейронной сети с открытым исходным кодом, реализованную в TensorFlow, которая обеспечивает основу для систем понимания естественного языка (NLU).Наш выпуск включает в себя весь код, необходимый для обучения новых моделей SyntaxNet на ваших собственных данных, а также Parsey McParseface , английский синтаксический анализатор, который мы обучили для вас и который вы можете использовать для анализа английского текста.
Parsey McParseface построен на мощных алгоритмах машинного обучения, которые учатся анализировать лингвистическую структуру языка и могут объяснить функциональную роль каждого слова в данном предложении. Поскольку Parsey McParseface является самой точной такой моделью в мире, мы надеемся, что она будет полезна разработчикам и исследователям, интересующимся автоматическим извлечением информации, переводом и другими основными приложениями NLU.
Как работает SyntaxNet?
SyntaxNet — это структура для того, что известно в академических кругах как синтаксический анализатор , который является ключевым первым компонентом во многих системах NLU. Получив предложение в качестве входных данных, он помечает каждое слово тегом части речи (POS), который описывает синтаксическую функцию слова, и определяет синтаксические отношения между словами в предложении, представленные в дереве синтаксического анализа зависимостей. Эти синтаксические отношения напрямую связаны с основным значением рассматриваемого предложения.В качестве очень простого примера рассмотрим следующее дерево зависимостей для Алиса пила Боб :
Эта структура кодирует, что Алиса и Боб являются существительными, а пила является глаголом. Основной глагол пила является корнем предложения, а Алиса является подлежащим (nsubj) пила , а Боб является его прямым дополнением (добж). Как и ожидалось, Parsey McParseface правильно анализирует это предложение, но также понимает следующий более сложный пример:
Эта структура снова кодирует тот факт, что Алиса и Боб являются соответственно субъектом и объектом пилы , кроме того, что Алиса изменяется относительным предложением с глаголом , читающимся как , что видел, изменяется временным модификатором вчера и так далее.Грамматические отношения, закодированные в структурах зависимостей, позволяют нам легко восстановить ответы на различные вопросы, например кого увидела Алиса? , кто видел Боба? , о чем читала Алиса? или когда Алиса увидела Боба? .
Почему синтаксический анализ так труден для компьютеров?
Одна из основных проблем, делающих синтаксический анализ настолько сложным, заключается в том, что человеческие языки демонстрируют значительный уровень неоднозначности. Предложения средней длины — скажем, 20 или 30 слов — нередко содержат сотни, тысячи или даже десятки тысяч возможных синтаксических структур.Парсер естественного языка должен каким-то образом просмотреть все эти альтернативы и найти наиболее правдоподобную структуру с учетом контекста. В качестве очень простого примера, предложение Алиса ехала по улице на своей машине имеет как минимум два возможных разбора зависимостей:
Первый соответствует (правильной) интерпретации, где Алиса едет на своей машине; второй соответствует (абсурдной, но возможной) интерпретации, где улица находится в ее машине. Неоднозначность возникает из-за того, что предлог в может модифицировать либо водила , либо улица ; этот пример является примером того, что называется двусмысленностью прикрепления предложной фразы .
Люди замечательно справляются с двусмысленностью почти до такой степени, что проблема становится незаметной; задача состоит в том, чтобы компьютеры делали то же самое. Множественные двусмысленности, подобные этим, в более длинных предложениях сговорились, чтобы дать комбинаторный взрыв в количестве возможных структур для предложения. Обычно подавляющее большинство этих структур крайне неправдоподобны, но, тем не менее, возможны и должны быть каким-то образом отброшены синтаксическим анализатором.
SyntaxNet применяет нейронные сети к проблеме неоднозначности.Входное предложение обрабатывается слева направо, при этом зависимости между словами постепенно добавляются по мере рассмотрения каждого слова в предложении. В каждый момент обработки может быть возможно много решений — из-за неоднозначности — и нейронная сеть выставляет баллы конкурирующим решениям на основе их правдоподобия. По этой причине очень важно использовать в модели поиск луча . Вместо того, чтобы просто принимать первое лучшее решение в каждой точке, на каждом шаге сохраняется несколько частных гипотез, причем гипотезы отбрасываются только тогда, когда рассматривается несколько других гипотез более высокого ранга.Пример последовательности решений слева направо, которая приводит к простому синтаксическому анализу, показан ниже для предложения Я забронировал билет в Google .
Итак, насколько точен Parsey McParseface?
На стандартном эталонном тесте, состоящем из случайно выбранных предложений английской новостной ленты (20-летний Penn Treebank), Parsey McParseface восстанавливает индивидуальные зависимости между словами с точностью более 94%, превосходя наши собственные предыдущие результаты, которые были уже лучше, чем любой предыдущий подход. Хотя в литературе нет явных исследований о человеческой деятельности, мы знаем из наших собственных проектов аннотации, что лингвисты, обученные этой задаче, соглашаются в 96-97% случаев.Это говорит о том, что мы приближаемся к человеческим возможностям, но только на правильно сформированном тексте. Предложения, взятые из Интернета, намного сложнее анализировать, как мы узнали из Google WebTreebank (выпущенного в 2011 году). Parsey McParseface достигает точности синтаксического анализа чуть более 90% в этом наборе данных.
Хотя точность не идеальна, она, безусловно, достаточно высока, чтобы быть полезной во многих приложениях. Основным источником ошибок на этом этапе являются такие примеры, как двусмысленность прикрепления предложной фразы, описанная выше, которая требует знания реального мира (т.г. что улица вряд ли находится в машине) и глубокие контекстуальные рассуждения. Машинное обучение (и, в частности, нейронные сети) добились значительного прогресса в разрешении этих неоднозначностей. Но наша работа все еще ограничена для нас: мы хотели бы разработать методы, которые могут изучать мировые знания и обеспечивать одинаковое понимание естественного языка для всех языков и контекстов.
Для начала просмотрите код SyntaxNet и загрузите модель парсера Parsey McParseface.Удачного разбора от главных разработчиков, Криса Альберти, Дэвида Вайса, Даниэля Андора, Майкла Коллинза и Слава Петрова.
Рабочая группа для разбора слов, означающих
Когда студент, изучающий немецкий язык, предлагает вам ein Gift , можно с уверенностью сказать, что он не хотел угрожать вам ядом. Новичок в итальянском может удивиться, почему овечья шерсть считается morbido , тогда как в испанском новичок, который оговорился, теперь признается, что он embarazada — беременна.
Эти ложные родственные слова — falsche Freunde, faux amis, или «ложные друзья» — имеются в изобилии в любых двух языках, особенно в тех, которые тесно связаны. Однако проклятие изучающих язык — это золотая жила для лингвистов, культурных эволюционистов и ученых-компьютерщиков, группа которых соберется на конференции SFI 27–28 августа 2018 года. Учитывая запутанное положение дел с лингвистикой, они спрашивают: возможно ли количественно закодировать «смысл» независимо от какого-либо конкретного языка?
«Если я расскажу вам обо всех контекстах, в которых данное слово подходит, вы, вероятно, довольно хорошо понимаете, каково его «значение», — объясняет внешний профессор SFI Танмой Бхаттачарья (Лос-Аламосская национальная лаборатория), соорганизатор рабочей группы.Но от этого далеко до количественной оценки лингвистически существенных мер дистанции между значениями. Тем не менее, «кажется, что во всем мире люди имеют схожие представления о [лингвистической] дистанции. Например, если у вас не было слова «соль» и вы хотели использовать слово, вы говорите, что «соль» производится путем «высушивания морской воды». близок к морская вода . Что это может сказать нам о том, как мы делим мир на части?»
Перевод может быть одним из мест для начала.Вместо того, чтобы идти по пути языкового класса, ученые заинтересованы в устранении любых культурных предубеждений: просто скармливая компьютеру большие наборы лингвистических данных, сообщая ему только то, что переводится, и проверяя то, что выучивает машина. Компьютер берет, скажем, немецкое предложение, преобразует его в промежуточное представление в виде нулей и единиц и переносит это на другой язык, например английский.
Что происходит, когда перевод с немецкого на английский останавливается на полпути и перенаправляется на французский?
«Может оказаться, что это довольно хороший перевод с немецкого на французский», — отмечает Бхаттачарья.«Нули и единицы могут быть достаточно мощными, чтобы перейти от любого языка к любому другому языку». Фактически, недавняя работа ученых Google обнаружила доказательства существования такого интерлингва.
Среди организаторов рабочей группы — экстерном профессор Георгий Старостин (НИУ ВШЭ, Москва), куратор проекта «Эволюция человеческих языков» (EHL) — давнего проекта SFI по исследованию глубинных исторических связей между многими языковых семей мира.«Изучение семантических сдвигов — тонких, постепенных изменений значений слов, накапливающихся с течением времени, — так же важно для раскрытия истории языка, как и изучение звуковых изменений, которое традиционно доминировало в исторической лингвистике», — говорит Старостин. «Кроме того, исторические банки данных о семантических сдвигах, созданные в процессе нашего исследования далекого прошлого современных языков, могут помочь пролить ценный свет на некоторые универсальные или культурно обусловленные свойства человеческого разума — позволяя нам понять, какие типы значений чаще связаны в мозгу, что еще больше приближает нас к построению универсального семантического метаязыка.В промежутках между элементами исторического и синхронного исследования рабочая группа будет использовать семантические сети и аспекты культурной эволюции, чтобы, среди прочего, предсказывать истинные родственные слова и анализировать, как значения меняются со временем.