Как разобрать фонетический разбор слова: Поиск слов по словарю фонетических разборов

Содержание

Правила фонетического разбора слов, фонетика гласных и согласных

Перечислим правила, которые нужно учитывать при фонетическом разборе слова: составлении транскрипции и фонетической характеристики. Рассмотрим правила для мягкого и твердого знаков, для гласных и согласных звуков. Существуют отдельные нюансы из списка правил, которым уделяют внимание в средних классах и не изучают в начальной школе, для них приведем примеры. Рассматриваемые на этой странице правила корректны и полны только для школьной программы.

Обозначения

Используемые при фонетическом разборе обозначения:

Транскрипция слова заключается в квадратные скобки: семья → [с’им’й’а]. Иногда в транскрипции ставят знак ударения: [с’им’й’а ́];
Каждый звук в фонетическом разборе заключается в квадратные скобки: с — [с], и — [и], м — [м’] и т.д. Напротив мягкого и твёрдого знаков ставят прочерк или прочерк в квадратных скобках: ь — [–];
Мягкость звука помечается знаком апострофа: м — [м’];
Долгий звук (долгое звучание) обозначают через двоеточие: теннис → [т’эн’:ис], грузчик → [грущ’:ик];
вместо двоеточия долгий звук также обозначают горизонтальной чертой над звуком;
В большинстве школьных программ в конце фонетического разбора проводится черта, под которой указывается число букв и звуков в слове.

Детальный план, устный и письменный примеры фонетических разборов представлены на странице план и примеры.

Правила для ь, ъ

Буквы ь, ъ не обозначают звуков. В транскрипции слова они не могут присутствовать.

Буква ь делает мягким предыдущий согласный.
Буква ъ используется только в качестве разделительного знака.

Фонетика гласных

Не бывает звуков [е], [ё], [ю], [я]. В транскрипции слова они не могут присутствовать.
Буквы а, о, у, ы, э предыдущий согласный делают твёрдым.
Буквы я, ё, ю, и, е предыдущий согласный делают мягким. Но в некоторых иноязычных словах согласный перед буквой е остаётся твёрдым.
Кафе → [кафэ], купе → [купэ], отель → [атэл’].
Буквы я, ю, е, ё после согласных обозначают следующие звуки: я → [а], ю → [у], е → [э], ё → [о].
Мяч → [м’ач’], мел → [м’эл].
Буквы я, е, э, о после согласных без ударения обозначают следующие звуки: я → [э] или [и], е → [и], э → [э] или [и], о → [а].
Рябина → [р’эб’ина], пятно → [п’итно], весело → [в’эс’ила], корова → [карова].

Буква ё, я, ю, е после гласных, после ъ, ь и в начале слова обозначают следующие звуки: я → [й’а], ю → [й’у], е → [й’э], ё → [й’о] (под ударением) и я → [й’и], е → [й’и] (без ударения). Их называют йотированными. В некоторых изданиях вместо й пишут j.
Буква и после ь обозначает звук [й’и].
Ручьи → [руч’й’и].
Буква и после согласных ж, ш, ц обозначает звук [ы].

Обобщим правила для «преобразования» гласных букв в звуки таблицей:

	а	о	и	е	у	ю	ё	я	э	ы
под ударением	а	о	и	э	у	у	о	а	э	ы
без ударения	а	а	и	и	у	у	о	э, и	э, и	ы
в начале слова	а	о	и	й’э	у	й’у	й’о	й’а	э	ы
после гласных	а	о	и	й’э	у	й’у	й’о	й’а	э	ы
после ь, ъ	а	о	й’и	й’э	у	й’у	й’о	й’а	э	ы
после ж, ш, ц	ы	о	ы	ы	у	у	о	а	э	ы

Фонетика согласных

В фонетическом разборе мягкие согласные обознаются знаком апострофа ‘: [л’], [с’], [ч’] и т. д.
В фонетическом разборе долгий звук (тянущийся) обозначается через двоеточие [ж:], [ц:] или черточкой над звуком [ж], [ц].
Буквы й, ч, щ всегда обозначают мягкие звуки: [й’], [ч’], [щ’]. Они остаются мягкими, даже если после них следуют гласные а, о, у, ы, э.
Буквы ж, ц, ш всегда обозначают твёрдые звуки: [ж], [ц], [ш]. Они остаются твёрдыми, даже если после них следуют гласные я, ё, ю, и, е.

Буква й всегда обозначает звонкий и мягкий звук [й’].
Буквы л, м, н, р, й всегда обозначают звонкие звуки и называются сонорными.
Буквы х, ц, ч, щ всегда обозначают глухие звуки.
Парные по звонкости/глухости согласные в конце слова и перед глухой согласной обозначают глухой звук: б → [п], д → [т], г → [к], з → [с], в → [ф]:
столб → [столп], поезд → [пой’эст].
Непроизносимые согласные в, д, л, т в корне не обозначают звука:
чувство → [ч’уства], солнце → [сонц’э].
Двойные согласные после ударного гласного дают долгий звук:
группа → [груп:а], теннис → [тэн:ис].
Двойные согласные перед ударным гласным дают согласный одинарный звук:
миллион → [м’ил’ион], аллея → [ал’эй’а].

В некоторых случаях:

Буква с в начале слова означает звонкий звук [з]:
сделал → [з’д’элал].
Буква г перед глухой согласной произносится как [к] или [х]:
когти → [кокт’и], мягкий → [м’ах’к’ий’]
Согласные между корнем и суффиксом перед мягкой согласной произносятся мягко:
зонтик → [зон’т’ик].
Буква н обозначает мягкий звук перед согласными ч, щ:
стаканчик → [стакан’ч’ик], сменщик → [см’эн’щ’ик].
Сочетание -чн-, -чт- произносится как [ш]:
конечно → [кан’эшна], скучно → [скушна], что → [што].

Сочетание определённых согласных букв в словах дает долгий или непроизносимый звук:

Сочетание букв -зж- обозначают один звук [ж:]:
изжить → [иж:ыт’], уезжать → [уиж:ат’].
Сочетание букв -тьс-, -тс- обозначает один звук [ц:]:
купаться → [купац:а].
Сочетание букв -стн- произносится как [сн], -стл- — [сл], -здн- — [зн]:
звёздный → [зв’озный’], лестница → [л’эс’н’ица].
В окончаниях прилагательных -ого, -его согласная Г обозначает звук [в]:
золотого → [залатова], синего → [син’эва].
Сочетания букв -сч-, -зч-, -жч- обозначают звук [щ’]:
счастливый → [щ’асливый’], извозчик → [извощ’ик], перебежчик → [п’ир’иб’эщ’ик].

Это все основные правила фонетического разбора. Для закрепления темы в рамках школьной программы подойдет издание Литневской Е.И. «Русский язык. Краткий теоретический курс для школьников.»

Существует целый ряд правил программы института и углублённого изучения фонетики русского языка. Правила учитывают тонкости современного фонетического произношения и фонетические особенности за последние столетия. Такие правила не рассматриваются в школьной программе, чтобы не усложнить и без того сложную для понимания школьников тему. Так, вне рамок школьной программы рассматриваются варианты с мягким звуком [ж’], в том числе характерного для старомосковского произношения. В корне слова в сочетаниях -жж-, -зж- и -жд- в слове дождь вместо твердого звука [ж:] имеет место быть мягкий [ж’:].

Например, дрожжи – [дрож’:и]. По другому правилу: буква щ перед звонкой согласной получает озвончение и отмечается звонким звуком [ж’:]. Например, в слове вещдок – [в’иж’:док].

Наш сайт умеет делать фонетический разбор слов в автоматическом режиме. Воспользуйтесь формой поиска слова.

Слова с буквой ё обязательно пишите через ё. Фонетические разборы слов «все» и «всё» будут разными!

Фонетический (звуко-буквенный) разбор слова

Общаясь, мы произносим звуки, которые на бумаге отображаем в виде неких графических символов — гласных и согласных букв. Зачастую одна и та же буква может давать абсолютно разные звучания. Иногда гласная или согласная вместо одного звука обозначает два, или вообще его не имеет. Поэтому в некоторых словах количество букв и звуков не всегда одинаково.

Изучению произносимых нами звуков посвящен такой раздел языкознания, как фонетика. Разобрать слово с точки зрения его написания и звучания — значит, сделать его фонетический разбор (или звуко-буквенное исследование). Чтобы уметь выполнять такой анализ, нужно знать, какие звучания может принимать определенная буква в целом и в зависимости от ее местоположения в слове. Кроме того, для проведения фонетического исследования лексемы следует запомнить определенный порядок действий.

Итак, алгоритм следующий.

Записываем анализируемую лексему по слогам и обязательно указываем, какой из них ударный.
Приводим транскрипционное написание.
Определяем, сколько и какие звуки дает каждая буква; характеризуем их.
На заключительном этапе подводим итог: подсчитываем, сколько букв и звуков в данном слове.

Рассмотрим подробней, какие звуки может обозначать каждая буква, в каком положении, а также основные звуковые характеристики. Как известно, для образования слов в нашем языке используются десять гласных букв, двадцать одна согласная, твердый и мягкий знаки. Итого тридцать три буквы. А вот с количеством звуков совсем иная картина. Десять гласных букв могут иметь всего шесть звучаний, тогда как у согласных их, наоборот, на пятнадцать больше — всего тридцать шесть. Чем же обусловлена такая разница?

Десять гласных дают шесть звуков: а, о, и, э, у, ы. Не трудно заметить, что буквы я, ю, е, ё своих звуков не имеют, они

либо смягчают предшествующую согласную и образуют другой гласный звук:

пряник — [пр’Аник];

либо дают двойное звучание, первое из которых обозначается согласным звуком «й», а второе — одним из шести перечисленных выше звуков. Это происходит, если одна из четырех не имеющих звука гласных

начинает слово:

юность — [Й’Унаст’];

идет после другой гласной:

слияние — [сл’иЙ’Аний’э];

стоит за твердым (или мягким) знаком:

объект — [абЙ’Экт].

Как правило, если гласная «о» не является ударной, она звучит как «а»:
полоса̀ — [пАлАса]; коро̀ль — [кАрол’].

Двадцати одной согласной соответствует тридцать шесть звучаний, которые могут иметь разные характеристики: быть только мягкими, твердыми, или же и теми, и другими; обозначать глухой или звонкий звук, образовывать между собой пары. Из них:

звукам, дающим звонкое звучание (г, б, д, в, ж, з) противостоят глухие (к, п, т, ф, ш, с), поэтому между собой они образуют пары по звонкости/глухости. При этом

если буква звонкого звучания стоит перед глухой или последней в слове, то она дает глухое звучание из соответствующей пары:

ложка слышим как лоШка, дуб — как дуП;

глухая согласная, расположенные перед звонкой, кроме букв р, л, н, м, й, в, всегда звучит звонко:

сделка — [Зд’элка]; вокзал — [ваГзал];

четыре глухих, не имеющих пары звука — щ, ч, ц, х;
пять звонких, не имеющих пары — л, н, м, й, р;
три звука, имеющих всегда мягкое произношение — ч, щ, й;
три звука, всегда твердо произносимые — ш, ж, ц;
прочие согласные в словах могут звучать как мягко, так и твердо;
написание сочетания «зж» при произношении дает единственный звук — «ж»:

поеЗЖай — [пай’еЖай’];

в глаголах, заканчивающихся сочетаниями «тся», «ться» вместо «тс» и «тьс» слышится только «ц»:

садиТЬСя — [садиЦа];

Есть буквы, не дающие звука: это «ъ» и «ь». Они обозначают, соответственно, твердость и мягкость согласной, за которой следуют.

При выполнении звуко-буквенного исследования слова следует охарактеризовать:

гласные звуки — с точки зрения ударения,
согласные — по глухости/звонкости и твердости/мягкости.

В качестве примера проведем фонетической (звуко-буквенный) разбор глагола Ка̀тится:

Ка̀-ти-тся; звучание (фонетическая транскрипция) — к а т’и ц а;

Охарактеризуем звуко-буквенный ряд слова:

«к» дает согласный звук [к], который является твердым парным и глухим парным;

«а» → гласный звук [а], находится под ударением;

«т» → согласный [т’], мягкий парный, глухой парный;

«и» → гласный [и];

«тс» → согласный долгий [ц], твердый непарный, глухой непарный;

«я» → гласный [а].

В слове на один звук меньше из-за того, что сочетание «тс» дает не два звука, а один. Таким образом, букв — семь, тогда как звуков — шесть.

Карточки по грамоте по теме «Фонетический разбор слова»

Имя__________________________

Раздели слова на слоги, поставь ударение

У Сони рисунок крысы. У Сани – сани.

Там картинки: гномик, аист, кролик, клоун и улитка.

На лугу норка крота. У Оли сапоги и зонт.

Имя________________

Подчеркни мягкие согласные

Старик шил сапоги шилом и нитками.

Шура – малышка сосала пустышку.

В тиши шуршали камыши.

Марина раскрасила картинки красками.

Имя_______________________________

Сделай звукобуквенный анализ слов:

Стена -___________________

Якорь_-__________________

Улитка__________________

Имя ___________________

Все слова раздели на слоги. Поставь ударение.

Иван сколотил и раскрасил полку.

Клава и Наташа приготовили пироги и торт.

Павлик сам написал и нарисовал книгу!

Имя _________________

Подчеркни мягкие согласные

Далеко –далеко в одном лесу стоит на опушке домик. Старые брёвна потемнели. Одним окошком смотрит в лес, а другим – во двор. В домике жили дед и бабка, а с ними пёс Полкан, да кошка Мурка.

Имя_______________________________

Сделай звуко-буквенный анализ слов:

Раздели на слоги вертикальной чертой,

поставь ударение, посчитай слоги, определи

количество букв, звуков, цветными

карандашами обозначь звуки.

Ёжик— ___________________

Яблоко-__________________

Иголки-__________________

Травы ________________________

Имя_______________________________

Сделай звуко-буквенный анализ слов:

Раздели на слоги вертикальной чертой,

поставь ударение, посчитай слоги, определи

количество букв, звуков, цветными

карандашами обозначь звуки.

Космос___________________

Апрель_-__________________

Красивые-______________________

Хлеб-____________________

Дубочек_________________________

Имя_______________________________

Сделай звуко-буквенный анализ слов:

Раздели на слоги вертикальной чертой,

поставь ударение, посчитай слоги, определи

количество букв, звуков, цветными

карандашами обозначь звуки.

Тюльпан-___________________

Дожди-__________________

Мальчики__________________

Лапочка_____________________________

Имя_______________________________

Сделай звуко-буквенный анализ слов:

Раздели на слоги вертикальной чертой,

поставь ударение, посчитай слоги, определи

количество букв, звуков, цветными

карандашами обозначь звуки.

Поели___________________

Пирожок-__________________

Страусята__________________

Костюм______________________________

Имя_______________________________

Сделай звуко-буквенный анализ слов:

Раздели на слоги вертикальной чертой,

поставь ударение, посчитай слоги, определи

количество букв, звуков, цветными

карандашами обозначь звуки.

Собака___________________

Дружить-__________________

Звёздочка__________________

Картина______________________________

Имя_______________________________

Сделай звуко-буквенный анализ слов:

Раздели на слоги вертикальной чертой,

поставь ударение, посчитай слоги, определи

количество букв, звуков, цветными

карандашами обозначь звуки.

Тетрадь-___________________

Весна-__________________

Портфель__________________

Юрта______________________________

Имя_______________________________

Сделай звуко-буквенный анализ слов:

Раздели на слоги вертикальной чертой,

поставь ударение, посчитай слоги, определи

количество букв, звуков, цветными

карандашами обозначь звуки.

Звёздочка-___________________

Утята_-__________________

Верблюд__________________

Спина______________________________

Имя_______________________________

Сделай звуко-буквенный анализ слов:

Раздели на слоги вертикальной чертой,

поставь ударение, посчитай слоги, определи

количество букв, звуков, цветными

карандашами обозначь звуки.

Ягода___________________

Лейка-__________________

Лебеди__________________

Гора______________________________

слов для разбора произношения | jonshier.

com

Технология Apple VoiceOver — это мощное средство чтения с экрана, встроенное в каждое устройство Apple. Он может читать как видимый текст, так и различные атрибуты специальных возможностей, доступные для представлений и элементов управления, чтобы обеспечить звуковое описание вашего пользовательского интерфейса. Однако, даже с достижениями в области компьютерного синтеза речи за последние несколько десятилетий, он не всегда может вывести предполагаемое произношение из контекста. Это особенно утомительно в английском языке, где есть несколько распространенных омофонов. Если VoiceOver не выберет правильную версию, это может очень раздражать и даже вводить пользователей в заблуждение. Итак, как мы это исправим?

К счастью, Apple предлагает поддержку международного фонетического алфавита посредством аннотаций. Вы можете добавить эти аннотации к представлениям NSAttributedString вашего текстового содержимого, даже если вы не используете строки с атрибутами в своем интерфейсе. Этот атрибут .accessibilitySpeechIPANotation доступен в iOS 11 и более поздних версиях. Например, чтобы исправить произношение свинца (как в металле) на свинца (как лидера ), мы добавляем атрибут с соответствующей фонетической строкой. Затем эту атрибутированную строку можно установить в качестве 9 вашего представления.0005 доступностьAttributedLabel .

 // Создайте NSMutableAttributedString из исходной строки, чтобы мы могли добавить атрибут.
пусть attributeString = NSMutableAttributedString (строка: строка)
// Находим диапазон "лида".
let range = attributeString.mutableString.range(из: "лид")
// Используйте нотацию IPA, чтобы установить длинное произношение e: /i:/.
attributeString.addAttributes([.accessibilitySpeechIPANotation: "l/i:/d"], диапазон: диапазон)

Однако такое простое использование имеет несколько недостатков.

Он неправильно находит любое использование lead , даже в составе других слов.
Применяет атрибут только к первому найденному слову.
Если мы хотим изменить произношение множественного числа, нам приходится искать отдельные диапазоны, что неэффективно.
Работает только для значений в нижнем регистре. Мы могли бы нормализовать исходное значение attributeString со значением string.lowercased() , но это нарушает правила акцентирования произношения вокруг заглавных букв.
Работает только для английского языка. Конечно, ваши проблемы с произношением, вероятно, существуют только на английском языке, так что это может быть нормально, но было бы хорошо, если бы он был интернационализирован.

Итак, нам нужно решение, которое позволит нам найти все экземпляры lead , но только когда оно используется как слово само по себе, сделает его эффективным для исправления нескольких произношений, сохранит нетронутым использование заглавных букв и может быть интернационализировано. Высокий заказ! Или, возможно, нет.

Как и все хорошие программисты в современную эпоху, мы можем начать, стоя на плечах гигантов (или большой кучи небольших работ, созданных за последние 50 лет). В то время как Swift не предоставляет родной String API-интерфейсы сканирования или токенизации, отличные от простого ручного нарезки, существуют слова и другие API-интерфейсы сканирования String в различных платформах Apple, которые можно использовать в Swift, поэтому давайте начнем с этого. Различные обзоры этих API доступны в Интернете, но этот, написанный Сёреном Л. Кристиансеном, является хорошим обзором некоторых подходов, основанных на словах. Однако он довольно устарел (раньше Swift старел очень быстро), поэтому мы не можем просто скопировать код напрямую. Вместо этого мы можем взять результаты производительности из статьи и выбрать основу для нашего решения: CFStringTokenizer . Хотя его API не самый удобный для Swift, он достаточно эффективен и точен для нашего использования. Итак, приступим.

CFStringTokenizer

Начнем с создания экземпляра CFStringTokenizer , который мы будем использовать для поиска слов в нашей String s. Все эти примеры относятся к расширению String .

 пусть enUS = Locale (идентификатор: "en_US")
let tokenizer = CFStringTokenizerCreate(kCFAllocatorDefault, // 1
                                        себя как CFString, // 2
                                        CFRangeMake(0, utf16.count), // 3
                                        kCFStringTokenizerUnitWord, // 4
                                        enUS как CFLocale) // 5

CoreFoundation использует бесплатные функции, а не инициализатор, как мы обычно видим в Swift, и его досадное отсутствие меток параметров делает это несколько непонятным, поэтому давайте разберем его.

Мы должны предоставить CFAllocator . Это позволяет низкоуровневую настройку нашего распределения памяти, но нам все равно, поэтому просто передайте распределитель по умолчанию kCFAllocatorDefault .
Далее действительная строка, но она должна быть CFString . К счастью, у Свифта Строка может быть приведена к этому представлению напрямую из-за ее автоматического соединения с NSString и NSString с соединением CFString .
Теперь мы предоставляем токенизатору CFRange , над которым мы хотим работать. CFRange состоит из начального местоположения ( 0 для начала строки) и длины . Учитывая, что CFString , как и NSString , работает с кодовыми точками UTF-16, а не с родной UTF-8 Swift, мы не можем просто указать длину Строка напрямую. Вместо этого мы должны вычислить эту длину в UTF-16. К счастью, String предоставляет удобное свойство utf16 , которое мы можем использовать, чтобы получить этот count .
CFStringTokenizer может токенизировать границы разных типов, поэтому мы должны предоставить значение CFOptionFlags , чтобы указать, какие границы нам нужны. В данном случае нас интересуют только границы слов, поэтому мы предоставляем kCFStringTokenizerUnitWord .
Мы можем предоставить CFLocale , чтобы указать, в соответствии с какими правилами языка мы хотим выполнять токенизацию, поскольку разные языки имеют разную логику токенизации. В документации Apple говорится об использовании CFLocaleCopyCurrent() для предоставления текущей локали пользователя. Это было бы важно, если бы мы размечали вводимый пользователем текст на предпочитаемом им языке, но в данном случае мы настраиваем произношение для определенного языка, английского. Поэтому мы предоставляем английский язык США Locale , преобразование в CFLocale с использованием того же типа соединения String , что также должно работать для других диалектов английского языка. Если ваше приложение полностью локализовано, вы можете использовать этот параметр для настройки CFLocale на основе текущей активной локализации, но этот пример не зайдет так далеко.

После того, как мы создали наш токенизатор, нам нужно перебрать все найденные им токены. Мы делаем это, перебирая CFStringTokenizerTokenType 9.Значения 0006, созданные CFStringTokenizerAdvanceToNextToken , пока не будет результата. CFStringTokenizerTokenType позволяет нам проверить тип границы (определяемой стандартом Unicode), используемой для синтаксического анализа токена, но в данном случае нас это не волнует. Как только границ больше нет, мы знаем, что достигли конца строки.

 в то время как CFStringTokenizerAdvanceToNextToken (токенизатор) != [] { // 1
    let cfRange = CFStringTokenizerGetCurrentTokenRange(токенизатор) // 2
    
    guard let range = Range(NSRange(location: cfRange.location, length: cfRange.length), in: self) else { return } // 3
    
    пусть слово = self[диапазон] // 4
}

Мы можем рассмотреть эту петлю более внимательно.

Для продвижения по токенам, сгенерированным токенизатором, мы вызываем CFStringTokenizerAdvanceToNextToken и даем ему ссылку на наш уже созданный токенизатор . Мы продолжаем это продвижение только пока есть границы. Это приводит к несколько своеобразному API в Swift, поскольку собственный API, скорее всего, просто вернет результат Optional напрямую, но это цена, которую мы платим за использование такого низкоуровневого API.
Для каждого токена нам нужно получить его CFRange . Это должен быть диапазон слова, который нашел для нас токенизатор.
В отличие от моста CFString -> NSString -> String , который мы получаем бесплатно, такой связи между CFRange , NSRange и Range's нет. Тип . Вместо этого мы должны вручную создать NSRange из местоположения 9.0006 и длиной из CFRange , а затем преобразовать этот NSRange в собственный Range с помощью инициализатора Range(_:in:) . Инициализатор может дать сбой, если диапазон находится за пределами экземпляра String , поэтому мы защищаем , чтобы развернуть его. Мы никогда не должны увидеть сбой здесь, поскольку мы работаем с диапазонами, возвращаемыми токенизатором из строки .
Затем мы можем вырезать слово из String , что дает нам Substring для каждого слова.

Теперь, когда мы можем получить слова String , как мы достигнем нашей цели аннотирования конкретного произношения? Как мы должны получить доступ к словам, чтобы добавить атрибут произношения?

`Создание API`

Простого предоставления доступа к набору слов в String с помощью такой функции, как words() -> [String] , недостаточно для предполагаемого использования. Нам также нужен диапазон каждого слова, чтобы мы могли правильно применить атрибут. Вместо этого мы могли бы вернуть массив кортежей из (слово: String, диапазон: Range) , а не просто слово, но это может привести к другим неэффективным действиям. Например, нам пришлось бы создать String s из Substring каждого слова, что дублирует почти всю нашу String в памяти. Кроме того, в принципе нет необходимости сначала создавать всю коллекцию, а затем снова повторять ее для выполнения нашей работы. Если мы разработаем API, который позволит нам итерировать , а выполнять работу на Substring s в то же время мы можем быть более эффективными. С помощью этого эффективного базового API мы можем создавать новые API с более сложными возможностями.

Давайте начнем с простого и предоставим способ повторения каждого слова в String как Substring . Поскольку нам также понадобится диапазон , наш API также должен сделать его доступным. Мы можем начать с компоновки нашего правильно настроенного CFStringTokenizer в функцию, которая использует замыкание для предоставления доступа к каждому слову и его диапазону.

 func byWord (выполнить закрытие: (_ word: Substring, _ wordRange: Range) -> Void) {
    пусть enUS = Locale (идентификатор: "en_US")
    пусть токенизатор = CFStringTokenizerCreate(kCFAllocatorDefault,
                                            себя как CFString,
                                            CFRangeMake(0, utf16. count),
                                            kCFStringTokenizerUnitWord,
                                            enUS как CFLocale)
    в то время как CFStringTokenizerAdvanceToNextToken (токенизатор) != [] {
        пусть cfRange = CFStringTokenizerGetCurrentTokenRange (токенизатор)
        
        защитный диапазон let = Range(NSRange(location: cfRange.location, length: cfRange.length), in: self) else { return }
        
        замыкание (я [диапазон], диапазон)
    }
}

Это обеспечивает максимальную гибкость, требуя только одной итерации для выполнения любой работы, которая нам нужна. Давайте попробуем.

 let string = «Swift — это язык программирования».
string.byWord { слово, диапазон в
  print("\(слово): \(диапазон)")
}

Это дает нам вывод:

 Swift: Index(_rawBits: 1).. .<Индекс(_rawBits: 1441792)
язык: Индекс (_rawBits: 1507328)..<Индекс (_rawBits: 2031616)

( String Тип Index не соответствует индексам Character , поэтому их не имеет смысла читать таким образом.)

Итак, мы можем получить наши слова и диапазоны. Мы могли бы использовать этот API напрямую для поиска нужных слов, но было бы проще, если бы нам не приходилось вручную отфильтровывать слова, которые нам не нужны. Итак, давайте добавим вспомогательную функцию, которая вызывает замыкание только тогда, когда встречает слово, которое нас интересует.

 func onWords(_ words: Set, выполнить закрытие: (_ word: Substring, _ range: Range) -> Void) {
    byWord { слово, диапазон в
        охранять слова.содержит(слово) еще {возврат}
        
        замыкание(слово, диапазон)
    }
}

Эта функция onWords позволяет передавать любое количество слов (поскольку Set для быстрой проверки содержит проверку) для использования в качестве фильтра при вызове замыкания со словом. Мы можем использовать его, чтобы отфильтровать наш список только по интересующим нас словам.

 let string = «Swift — это язык программирования».
string.onWords(["is", "programming"]) { слово, диапазон в
    print("\(слово): \(диапазон)")
}

Выполнение этого фрагмента дает нам результат:

: Index(_rawBits: 393216).. Однако в этом удобном методе отсутствует одно из наших предыдущих требований: обнаружение каждого экземпляра слова независимо от регистра. Есть несколько способов, которыми мы могли бы обеспечить нормализацию, чтобы справиться с этим, но в этом случае достаточно просто включить сравнение без учета регистра. К сожалению, это означает, что мы теряем наш быстрый  содержит проверку  в нечувствительном случае, но поскольку ожидается, что наши  слов   Set  будут очень маленькими, общая разница должна быть минимальной. На всякий случай мы по умолчанию выберем быстрый путь. Помещая эту сложность в нашу функцию удобства, мы оставляем базовую реализацию нетронутой.
 func onWords(_ words: Set, caseSensitively: Bool = true, выполнить закрытие: (_ word: Substring, _ range: Range) -> Void) {
    byWord { слово, диапазон в
        пусть словаContainsWord: Bool
        если caseSensitively {
            словаСодержитСлово = слова.содержит(слово)
        } еще {
            wordsContainsWord = words.contains { $0.caseInsensitiveCompare(word) == .orderedSame }
        }
        
        охранять словаContainsWord else { return }
        замыкание(слово, диапазон)
    }
}
 
 Это позволяет нам бесчувственно сопоставлять слова. Например:
 let string = «Swift — это язык программирования».
string.onWords(["swift", "programming"], caseSensitively: false) { слово, диапазон в
    print("\(слово): \(диапазон)")
}
 
 Запуск этого фрагмента дает нам вывод:
 Swift: Index(_rawBits: 1). . Теперь мы готовы немного изменить произношение.
 Собираем все воедино 
 Теперь мы готовы обновить исходный пример, чтобы использовать наш новый, более точный API для синтаксического анализа слов.
 func leadPronunciationCorrectedAttributedString() -> NSAttributedString {
    let attributeString = NSMutableAttributedString(string: self) // 1
    onWords(["lead", "leads"], caseSensitively: false) { слово, диапазон в
        пусть произношение = (word.lowercased() == "ведущий") ? "л/и:/д" : "л/и:/д" // 2
        attributeString.addAttribute(.accessibilitySpeechIPANotation, value: pronunciation, range: NSRange(range, in: self)) // 3
    }
    
    вернуть attributeString.copy() как! NSAttributedString // 4
}
 
 Наша дополнительная логика выглядит следующим образом:
 Создайте  NSMutableAttributedString , как и раньше.
 Внутри замыкания  onWords  посмотрите, какую версию  lead  мы определили, и установите соответствующее произношение  String  , единственное или множественное число. Эта проверка достаточно проста, троичное выражение достаточно компактно, но при этом читабельно.
 Добавьте атрибут к строке с атрибутами, используя правильное произношение для правильного  NSRange  . Мы снова должны преобразовать наши диапазоны между типами, на этот раз из  Range в  NSRange  . В этом случае есть еще один инициализатор  NSRange , который сделает всю работу за нас.
 Учитывая наследие Objective-C  NSAttributedString , мы должны вручную скопировать наш результат в неизменяемый тип, иначе изменчивость может вернуться в будущем.
 Этот код теперь выводит правильный вывод для наших двух слов в новом  NSAttributedString  .
 let lotOfLeads = "lead Leads lead unleaded Leads Leads"
пусть исправлено = lotOfLeads.leadPronunciationCorrectedAttributedString()
печать (исправлено)
 
 Этот фрагмент выдает следующий результат:
 лид{
    UIAccessibilitySpeechAttributeIPANotation = "l/i:/d";
} {
}Лиды{
    UIAccessibilitySpeechAttributeIPANotation = "l/i:/ds";
} лидерство неэтилированный {
}привести{
    UIAccessibilitySpeechAttributeIPANotation = "l/i:/d";
} {
}Лиды{
    UIAccessibilitySpeechAttributeIPANotation = "l/i:/ds";
} {
}ведет{
    UIAccessibilitySpeechAttributeIPANotation = "l/i:/ds";
}
 
 Как видите, наши атрибуты правильно установлены как для единственного, так и для множественного числа, независимо от регистра, без наложения пробелов или других слов, избегает слов, содержащих только слово «лид», и делает это, повторяя только исходный текст.  Строка  один раз.
 Завершение 
 В этом посте мы увидели, как использовать  CFStringTokenizer  для предоставления производительного общего API для поиска слов в  String  , а также как создать удобный API, который делает наш вариант использования более приятным. без ущерба для функциональности или производительности. Этот тип API может быть расширен несколькими дополнительными способами, в том числе:
 API, упрощающий сопоставление многих слов и произношений.
 Ленивая оболочка для нашего токенизатора строк, чтобы нам не нужно было токенизировать всю строку, если нам нужно только первое слово.
 Расширения соответствующих представлений, например  UILabel  , для автоматического добавления этих исправлений.
 Но я оставляю это в качестве упражнения для читателя. 😉
 Спасибо за прочтение!
 Анализ Определение и значение | Словарь.com 
 Основные определения
 Тест
 Связанный контент
 Примеры
 [ pahr-sing ]
 / ˈpɑr sɪŋ /
4 Save This Word!
 сущ.
 действие или процесс грамматического анализа предложений или их элементов: Многие сайты предлагают дополнительную помощь тем, кто изучает классические греческие тексты, например, быстрый анализ и перевод.
 действие или процесс анализа языка, поведения, событий и т. д., тщательного или подробного, чтобы обнаружить их последствия или более глубокий смысл: Сначала я интерпретировал случай таким же образом, но подумав и после тщательного разбора прессы релизы, это не так однозначно. Всегда будет возможность заняться рассуждениями на эту тему, более подробным разбором обстоятельств и так далее.
 Компьютеры. процесс анализа строк символов, чтобы связать их с синтаксическими единицами базовой грамматики: если путь к файлу содержит пробелы, используйте двойные кавычки для обеспечения правильного синтаксического анализа.
 ВИКТОРИНА
 Сыграем ли мы «ДОЛЖЕН» ПРОТИВ. "ДОЛЖЕН" ВЫЗОВ?
 Следует ли вам пройти этот тест на «должен» или «должен»? Это должно оказаться быстрым вызовом!
 Вопрос 1 из 6
 Какая форма используется для указания обязательства или обязанности кого-либо?
 Происхождение разбора 
 pars(e) + -ing ¹
 Слова рядом с разбором 
 pars granulosa, Parsha, Parsifal, parsimonious, parsimonyy, parsing, pars intermedia, петрушка, семья петрушки, петрушка петрушка
 Dictionary. com Полный текст
На основе Random House Unabridged Dictionary, © Random House, Inc. 2022
 Слова, относящиеся к синтаксическому анализу 
 определять, анализировать, разрешать, определять, делать выводы, интерпретировать, переводить, проверять, проверять, проверять, рассматривать, критиковать, исследовать, осматривать, исследовать, обдумывать, корпеть над, зондировать, читать, исследовать
 Как использовать синтаксический анализ в предложении 
 Хотя драфт-класс 2021 года выглядит лучше, снова будет сложно проанализировать талант, особенно во время баскетбольного сезона в колледже, который будет полон скремблирования и отмен.
 Межсезонье НБА в обычное время — это безумие. В этом году? Пристегнитесь.|Джерри Брюэр|19 ноября 2020 г.|Washington Post
 По этому утверждению еще предстоит проанализировать некоторые данные, в том числе выяснить, реагируют ли разные подгруппы в разных демографических группах на вакцину-кандидата иначе, чем другие.
 Научная связь между вакцинами против COVID от Pfizer и Moderna|Сай Мукерджи|12 ноября 2020 г.|Fortune
 Модели искусственного интеллекта, которые могут анализировать как язык, так и визуальный ввод, также имеют очень практическое применение.
 Это может привести к следующему большому прорыву в области здравого смысла. ИИ|Карен Хао|6 ноября 2020 г.|MIT Technology Review возможность разобрать релевантный отрывок, который может располагаться далеко внизу страницы и раньше не имел шансов ранжироваться.
 Google подтверждает, что не индексирует отрывки отдельно|Барри Шварц|20 октября 2020 г.|Search Engine Land
 Майя Шрикришнан проанализировала некоторые из недавних скандалов и проблем в школе, а также запись Варгаса на доске .
 Утренний отчет: проблема ограничения роста, о которой никто не говорит|Голос Сан-Диего|20 октября 2020 г.|Голос Сан-Диего
 Разногласия будут сосредоточены на правильном и неправильном, а не на разборе юридического языка.
 Красная лента душит добрых самаритян|Филип К. Ховард|27 декабря 2014|DAILY BEAST
 Хотя идея анализа смысла хип-хопа нова, связь между музыкой и психическим здоровьем хорошо известна .
 Психология хип-хопа: использование музыки для борьбы с психическими заболеваниями|Шарлотта Литтон|17 ноября 2014 г.|DAILY BEAST
 Когда их переписка была наконец раскрыта, ее нужно было тщательно проанализировать.
 Кровь и война: суровая правда о «сапогах на земле»|Клайв Ирвинг|22 сентября 2014 г.|DAILY BEAST
 Итак, большое жюри заседает в округе Сент-Луис, собирая показания и анализируя улики.
 Вопрос округа Сент-Луис: могут ли белые сопереживать чернокожим?|Салли Кон|23 августа 2014 г.|DAILY BEAST
 Их задача: анализ публичных заявлений Бена Карсона, нейрохирурга, которого консерваторы отчаянно хотят баллотироваться для президента.
 Консерваторы стекаются в фан-клуб Бена Карсона|Дэвид Фридлендер|29 мая 2014 г. |DAILY BEAST
 «Можно сказать, что мы все могли бы провести анализ, если бы начали его первыми», — сказала Беатрис.
 Самая милая девочка в школе|Анжела Бразилия
 Разбор слова — это объединение всех фактов о его форме и отношениях с другими словами в предложении.
 Грамматика английского языка|W. М. Баскервилл и Дж. В. Сьюэлл
 Разбор предлогов означает просто определение того, между какими словами или группами слов они показывают связь.
 Английская грамматика|W. М. Баскервилл и Дж. В. Сьюэлл
 Столько времени ушло бы на разбор каждого предложения в книге.
 Проклятие образования|Гарольд Э. Горст
 Серьезные девы, как ей представлялось, могут причинить как вред, так и добро своей верой в ценность разбора Цезаря.
 Main Street|Sinclair Lewis
 Буква "Y" гласная или согласная, твердая или мягкая? Фонетический разбор слова. Буква "у": согласная или гласная 
 Я имею в виду именно написание букв, а не их звуки, потому что некоторые буквы вообще не имеют самостоятельных звуков - буква "ь", например. Внимательно посмотрите на эти буквы и вы обязательно справитесь с этой задачей. Нужно только немного включить воображение и запомнить алфавит, тогда это произойдет само собой и после анализа задания вы поймете его смысл.
 Общие элементы 
 Рассмотрим каждую букву предложенного ряда отдельно.
  Буква "Y"  ... Самый простой, пожалуй. Имеет явное сходство с буквой «И». Даже объяснять не надо, все дело в черточке над "И". Вы заметили? Переходим к следующему письму.
  Буква "б".  Мы внимательно рассматриваем предложенную серию писем. Вы заметили? Ответом в данном случае будет буква «ы», их отличает только отсутствие горизонтальной черты справа у буквы «б». Следующий.
  Буква "С".  Нужно только воображение. Эта буква может соответствовать букве «Х» из предложенного ряда. Дело в том, что если «вытянуть» крючок-букву «С», то получится одна длинная строка. А буква «х» состоит из двух как бы маленьких черточек, которые можно получить из «вытянутой» буквы «с». Это довольно просто.
  Буква "П"  ... В приведенном нами ряду нет подходящей для нее буквы. Но есть и похожая на нее «Г», вся точка находится в той же горизонтальной линии справа, что и в случае с буквами «Ы» и «Л». Даже удивительно, как такие похожие буквы могут означать совершенно разные звуки.
  Буква "И".  Так же, как и у предыдущей, в этом ряду нет похожих, но есть одна буква, очень похожая на нее. Правда, она из другого языка, но почему бы не упомянуть ее сейчас? Эта буква "R" из английского алфавита. Многие англоязычные дети, обучаясь чтению и письму, пишут его в обратном направлении и получают букву из другого языка — русское «я».
 Заключение 
 Ищите сходство во всем, что видите, и старайтесь запомнить и понять этот подход. Это касается не только русского языка, но и любого другого предмета, поэтому вы сможете использовать полученные знания с пользой. Также будьте внимательны, на примере англоязычных школьников, путающих «И» и «Р», вы могли понять, как одна ошибка меняет все.
 Парные твердые и мягкие согласные фонемы, кроме /ш/, /ч"/, /ц/, передаются на письме одной и той же буквой: /б - б"/ -  б,  /в - в"/-  в, /т - т"/-  Т  и т. д. Твердость/мягкость согласной фонемы в этом случае может быть обозначена письменно другой буквой, следующей за согласной, или другим графическим знаком.
 Твердость/мягкость таких согласных фонем перед гласными указывается при написании с гласными. Твердость согласного перед гласным обозначается буквами  а,  О,  у, с, е: малый  /малый/,  соя  /мечта/,  поклон-с.  Мягкость согласного перед гласным обозначается буквами  и, йо, ю, и: ском  /м"ал/,  мед  /мод/,  чел.  /л "уд" и /.
 Буква е не указывает на качество предшествующей согласной фонемы: написанию  те  могут соответствовать /t"e/ (тесто) и /te/ (теннис)", de  - /d"e/ (корпус)  i/de/ (модель)", fe  - /f"e/ (кофе)  и /fe/ (Cafe)  и т. д. До твердости/ мягкость, согласный остается нс указанный в букве
 В конце слова мягкость согласной фонемы обозначается буквой  б,  твердость - пробел:  удар  /Р"/,  удар  /Р/;  весь  /с"/,  вес  /с/;  моль  /л"/,  говорят  /л/.
 Перед согласной, кроме /)"/, мягкость согласной фонемы обозначается буквой ь, твердость - второй согласной буквой:  баня  /н"/,  баночка  /н/;  считать  /р"/, в  конверт  /р/;  кольчугу  /л"/,  колчан  /л/.
 После согласных перед /5/ пишутся разделители 5, ъ, которые служат для уточнения значения букв и, /о, э, ё, и, но не указывают на твердость/мягкость предшествующего согласного . Ср одинаковое произношение у большинства носителей первого согласного в словах  запись  и  вьетнамский,  произношение мягкого [д"] в слове  адъютант  и т.д. Твердость/мягкость согласного перед /)/  связаны с конкретными звуками и морфемами и не передаются на письме.
 Буквы ш,  ш, ч, сч, ц  передают все содержание соответствующих фонем. Следовательно, после w,  w, h, u ,  c  гласные буквы обозначают только гласные фонемы.
 Фонемы /а/, /у/, /о/, / и /, /э/ пишутся буквами  а - я, ю - ю, о - е, с - и, е - е.  Из каждой пары букв граф «выбирает» на позицию после шипящего и  с  по одной букве -  а, у, о, и, е: тепло, деготь, чаща, царь», жук, шум, чудо , щука, батюшка», ёжик, шорох, чопорный, трещотка, морда», толстый, колючка, чистый, щи, фигура», жест, шест, честь, прорезь, мастерская.  После сибилянтов пишут еще  е  и  ю желтый, ходил, челка, щеки  ;  брошюра, жюри, парашют»,  после  c  пишется  s: цыгане, сестры, отцы,  но эти написания являются результатом орфографического "вмешательства" в области графики.
 Буквы  а, у, о, и  употребляются после шипящих и  с  потому, что они передают здесь только фонемы /а/, /у/, /о/, /и/, а также в начале а слове и после гласного, где нет необходимости указывать качество
 предшествующего согласного. Буквы  я, йо, йо, с,  кроме обозначения соответствующей гласной фонемы имеют дополнительные функции:  я есть,  /О,  е  обозначают также  /)/  или мягкость предшествующей согласной фонемы, а с —  ее твердость. После  ш, ш, ч ,  у, с  пишется буква  е , потому что буква  эх  утвердилась в русском алфавите только в 18 веке. а после согласного дополнительно обозначает твердость этой фонемы. Письмо  и  уместны в этой позиции, поскольку обозначают только гласную фонему и после других согласных.
 На графике значения букв определяются сигнификативно сильными позициями соответствующих фонем. Значение от у к с - это соотнесение букв с фонемами или с их частями (дифференциальные признаки), а также уточнение значения соседних букв. Все буквы кроме -го, б,  много хорошего.
 Буквы И,/о,  е ,  е  обозначают фонемы /]а/, /]у/, /)э/, /)о/ в начале слова, после гласной и после б,  б: яд, стоять , сыновья  ,  обнимаются.  Буквами I,  Ю  после согласного обозначаются гласные фонемы и мягкость предшествующей согласной фонемы:  няня  - /"а/,  нюхать  - /"у/. Буква  и  имеет такое же значение после согласных, кроме шипящих:  несут - /"о/. Также буква  е  после шипящего означает только /о/:  шел, черный.  Буква  е  после согласного означает /е/. Предшествующая согласная фонема либо имеет твердость/мягкость, либо остается неназначенным:  тире, сено,  либо передается согласной буквой - шипение, либо  ц: жертва, щепка  ,  цель,  либо не является дифференциальным признаком и поэтому не должно указываться:  фойе. 
 Письмо  и  могут обозначать как / и /  (игра, поиск, жизнь),  и /" и /, т.е. гласную фонему и мягкость предшествующего согласного  (мощность),  а также  /) и /( 
 Буквы  э, о, э, э  в начале слова и после гласной обозначают /а/, /о/, /у/, /э/:  армия, фата, отпуск , наотмашь, утро, нудить, эхо, дуэт.  Буквы имеют одинаковое значение. uh uh uh  после шипения и  с,  буква о и после -го: чай, обжора, лицо, йод.  После остальных согласных  э, о, э, э  обозначают соответствующие гласные фонемы и твердость предшествующих согласных фонем:  сам -  /а/ и твердость /с/,  лом  - /о/ и твердостью /л/, дуб , мэр. 
 Буква  s  после согласного обозначает / и / и твердость предшествующей согласной фонемы:  было  /бит/,  мы  /ми/. В тех случаях, когда буква  с  пишется после  с  (передача и твердость /с/), это означает только / и /:  отцы, мизерные. 
 В большинстве позиций буквы  у, ш, ш, ч, сч, в  обозначают  /)/, /ш/,  /ш/, /ч"/, /ш"/, /ц/, буквы  б,  с, д,р, р, с, тл, х передают общую часть содержания фонем /б - б"/, /в - в"/ и т. д. - место и способ образования , глухота/звонкость. Твердость/мягкость этих фонем обозначается последующей буквой или пробелом, либо остается безымянной.
 Все согласные после согласных (но не после  ш, ш, чу щу цу у  и не в сочетаниях  пш, нш),  передают кроме своего основного значения твердость предшествующей согласной фонемы:  арбуз - б  также обозначает твердость /р/ (ср.  бой), гетман  -  м  также обозначает твердость /т/ (ср.  темнота), тяга  (ср.  нажим на ),  толщина  (ср.  веер ),  халцедон  (ср. кольцо ).  В сочетаниях  пш, нш, , где  б  никогда не пишется ( обманный, опоясанный, доменный, повседневный),  буквы  ч, ш  не обозначают твердость/мягкость/н - и " /.
 Буква  б  имеет несколько значений:
 1) обозначает мягкость предшествующей согласной фонемы:  возьми, редиска", 
 2) выступает в качестве разделительного знака:  чьи, налить, налить, судить, семьи  ; здесь  б  указывает, что  е, е, у, и, а  обозначают  /р/, /уз/у/) у/у  /пер/,  /)и/;  разделитель отделяет гласную от предшествующей согласной, а  e, e, y, i  имеют то же значение, что и в начале слова; отсутствие  б  привело бы к иному значению гласных (ср. :  чей, налет, поле, судя по семи)", 
 3) сочетание букв  ой  обозначает  /)О/  в заимствованных словах:  отвар, медальон, лосьон  и др.
 Считается, что буква  б  после шипящих в конце слова и перед согласными имеет морфологическое значение - указывает на женский род существительного:  рожь, чернила  2 лицо единственного числа глагол:  иди, умывайся»,  форма императива:  плачь, режь  ; инфинитив:  береги, печка»,  наречие:  во всем, галопом  ; частица:  просто, смотри.  На самом деле буква  б  написана здесь только по традиции, и эти слова и формы требуют запоминания.
 Письмо  б  используется только в функции разделителя:  предметный, трансъевропейский, обходной, термоусадочный, предюбилейный, межярусный, двуязычный. 
 Деление  б  не указывает на мягкость предшествующего согласного, а  б -  на его твердость. А перед  б,  и перед  б  согласные могут произноситься твердыми, полумягкими и мягкими: 9эст], [первый], [первый];  адъютант  [ад"геутант];  шью  [иду]. В словах  том  и  бить, обезьяна  и  нет недостатка  согласный перед разделителем произносится многими говорящими одинаково. Таким образом, твердость/мягкость-
 кость согласная фонема делительная  б у б  не обозначена на букве.0552 i, u  ,  e y y, y y  указывающие на то, что эти буквы обозначают две фонемы -  /)/  и соответствующая гласная (/] а /,  /]O/  и т. д.). 11поэтому их иногда называют предупреждающими знаками. Использование разделения  b  или  b  определяется правилами правописания. Выполняя ту же функцию, что и  б,  буква  б -  лишний в русском письме.
 Так, буква может обозначать часть фонемы, часть одной и часть другой фонемы, одну фонему, одну фонему и часть другой фонемы, две фонемы, две фонемы и часть другой фонемы, может не иметь фонематического значения . Буква может указывать значение соседней буквы.
 У многих родителей, начинающих изучать азбуку с малышами, возникает вопрос: как квалифицировать Ы - как гласный или согласный звук?
 Действительно, звук Ы похож на оба, находясь как бы посередине. Попробуем разобраться в этом вопросе.
   Немного истории 
 Й, или И короткая, как эта буква называется в алфавите, известна во многих славянских языках: русском, украинском, белорусском, в Сербии и Македонии буква Й используется для обозначения звука Ю.
 В неславянских языках, использующих кириллицу, эта буква также присутствует.
 В русском языке эта буква 11-я по счету.
 Звук Ы образовался на основе неслоговой гласной «И» и близкой к ней по звонкости согласной «Й».
 Таким образом, звук Y действительно сочетает в себе гласный и согласный.
 В болгарском и украинском языках буква Ы до сих пор используется в сочетании «ЙО», которое предназначено для обозначения буквы Е.
 Буква Ы возникла в церковнославянской письменности в 15-16 веках. В XVII веке, при патриархе Никоне Я, она уже вошла в издание книг на церковнославянском языке в Москве.
 В начале 18 века была введена так называемая гражданская письменность. Верхние индексы в славянской письменности были устранены, а буква Ы убрана из алфавита, хотя звук в языке остался.
 При Петре Великом в 1735 году J был реабилитирован и вновь появился в букве, однако в азбуку не вошел и не обозначал никакой цифры (ранее цифры обозначались буквами церковнославянской азбуки ). Уже в 20 веке буква Й окончательно вошла в состав алфавита, но все же осталась несколько «ущемленной в правах». В буквенные обозначения списков он не входил, а иногда хвостик над буквой в письме опущен, как и точки над е.
 В 18-19 веках буква Ы уже входит в состав украинского и белорусского алфавитов. В украинском языке оно называется «ый», что лишний раз свидетельствует о его двойственном происхождении.
 Какой звук? 
 И все же при классификации звуков не совсем понятно, какой звук Y: гласный или согласный.
 Сразу стоит ответить: ни то, ни другое.
 Попробуем подумать.
 Звук Ы не глухой, что легко почувствовать, произнеся этот звук.
 Достаточно звонкий, так как произносится с участием голоса. Однако это тоже не гласный звук, так как любую гласную можно пропеть без труда.
 Попробуйте спеть звук Y: у вас вряд ли получится. В связи с этим, хотя голос и участвует в образовании этого звука, он все же соглашается.
 Так квалифицируют его учителя филологии в школьной практике.
 Однако звук Y не звонкий. По классификации филологов согласный звук можно отнести к любой из четырех групп: глухим, шипящим, звонким или звонким. О последней группе звуков поговорим подробнее.
 Согласный сонорный звук располагается по своим характеристикам между гласными и согласными, но все же обозначают его как согласный.
 В русском языке мало сонорных звуков: Н, Р, Л, Ы, М. Их можно протянуть голосом, но нельзя пропеть как гласный звук.
 Итак, звук Й — звонкий согласный.
 Другой вопрос, который может возникнуть, это какая буква Y: мягкая или жесткая.
 Большинство звуков имеют пары мягкость-твердость. У звука Y такой пары нет.
 Ученые считают его всегда нежным.
 В транскрипции слова рядом с ним всегда стоит обозначение мягкости.
 Состоит из букв 
 Согласный сонорный звук Ы в русском языке присутствует не только в форме буквы Ы, но и входит в состав четырех гласных звуков: Е, Ы, Ы, Ы. конечно, в данном случае он не указывается, но при произнесении отчетливо слышен. Каждая из этих букв представляет собой комбинацию: гласный звук и Й.
 Если разложить эти буквы на составляющие, то получим: Е = Y + E, E = Y + O, Y = Y + Y, Y = Y + A.
 Эти буквы читаются как «гласная + Ы» только в строго определенных случаях: после гласной, б или б. В остальных случаях они лишь смягчают предыдущий согласный.
 Таким образом, можно совершенно определенно сказать, что сегодняшняя наука не склонна считать звук Й гласным, хотя он и родился именно от такого звука.
 Если учесть, что в греческом языке существовало такое понятие, как долгие и краткие звуки, то рождение в церковнославянской письменности Ы как сокращенного варианта И вполне закономерно, ведь церковнославянский язык создавался на основа греч.
 В современном языке мы классифицируем Y как согласные звуки, но мы классифицируем его как сонорный, как максимально близкий к гласным. Так детям и в школе преподают знание звука Y. Конечно, маленькому ребенку очень трудно объяснить, что означает звонкий звук. Можно просто обозначить его как согласный, однако для себя родители должны помнить историю его происхождения, чтобы в любой момент быть готовым ответить на непредвиденные вопросы.
  Буква "Й" гласная или согласная, твердая или мягкая? Фонетический разбор слова. 
 Этот вопрос очень часто задают студенты, которым необходимо разобрать слово по всем правилам фонетики. Ответ на него вы получите чуть дальше.
  Общая информация. 
 Прежде чем говорить о том, какая буква "й" (мягкая или твердая), следует выяснить, почему буквы русского алфавита вообще делятся по таким признакам.
 Дело в том, что каждое слово имеет свою звуковую оболочку, которая состоит из отдельных звуков. Следует отметить, что звучание того или иного выражения полностью соответствует его значению. При этом разные слова и их формы имеют совершенно разное звуковое оформление. А сами звуки значения не имеют. Однако они играют жизненно важную роль в русском языке. Ведь благодаря им мы можем легко различать слова. 
   Приведем пример   : [дом] - [дама'] - [дом]; [м’эль] – [м’эл’], [том] – [там], [дом] – [том].
  Транскрипция. 
 Зачем нужна информация о том, какая буква "у" (твердая или мягкая)? Во время слова очень важно правильно отображать транскрипцию, описывающую его звучание. В такой системе принято использовать следующие символы:
 – это обозначение называется квадратными скобками. Они обязательно ставятся для обозначения транскрипции.
 [´] — ударение. Ставится, если в слове больше одного слога.
 [б’] — своего рода запятая ставится рядом с согласной буквой и обозначает ее мягкость.
 Кстати, при фонетическом разборе слов часто используется следующий символ - [j]. Как правило, они обозначают звук буквы «у» (иногда используется и такой символ, как [у]).
  Буква "д": согласная или гласная? 
 Как известно, в русском языке все звуки делятся на согласные и гласные. Они воспринимаются и произносятся совершенно по-разному.
 Гласные звуки – это такие звуки, при произнесении которых воздух легко и свободно проходит через рот, не встречая на своем пути никаких препятствий. Более того, их можно дергать, с помощью них можно кричать. Если приложить ладонь к горлу, то довольно легко можно почувствовать работу связок (голосовых) при произнесении гласных. В русском языке 6 ударных гласных, а именно: [а], [э], [у], [с], [о] и [и].
 Согласные – это такие звуки, при произнесении которых воздух встречает на своем пути препятствие, а именно изгиб или щель. Их внешний вид определяет характер звуков. Как правило, пробел образуется при произнесении [с], [ш], [ч] и [г]. При этом кончик языка приближается к верхним или нижним зубам. Представленные согласные можно вытягивать (например, [ф-ф-ф], [з-з-з]). Что касается лука, то такое препятствие образуется за счет смыкания органов речи. Воздух, а точнее его поток, резко преодолевает его, благодаря чему звуки получаются энергичными и короткими. Поэтому их называют взрывоопасными. Кстати, тянуть их нельзя (попробуйте сами: [р], [б], [т], [д]).
 Помимо перечисленных выше согласных, в русском языке также присутствуют следующие: [м], [д], [в], [ф], [г], [л], [р], [ч], [ с], [х]... Как видите, их гораздо больше, чем гласных.
  Глухие и звонкие звуки. 
 Кстати, многие согласные образуются между парами глухости и звонкости: [к] - [г], [б] - [н], [з] - [ц], [д] - [т], [f] - [c] и т. д. Таких пар в русском языке 11. Однако есть звуки, не имеющие пар по этому признаку. К ним относятся: [д], [р], [н], [л], [м] — непарные звонкие, а [ч] и [ц] — непарные глухие.
  Мягкие и твердые согласные. 
 Как известно, согласные различаются не только по звонкости или, наоборот, глухости, но и по мягкости и твердости. Это свойство является вторым по важности свойством звуков.
 Итак, буква "у": твердая или мягкая? Чтобы ответить на этот вопрос, следует рассмотреть каждый признак в отдельности:
 При произнесении мягких согласных весь язык немного смещается вперед, а его средняя часть немного приподнимается. 
 Во время произношения твердых согласных весь язык буквально оттягивается назад.
 Следует особо отметить, что многие согласные буквы образуют пары между собой по таким признакам, как мягкость и твердость: [д] - [д'], [р] - [р'] и т. д. Таких пар в 15 общий. Однако есть и звуки, не имеющие пар по этому признаку. Какие сплошные буквы непарные? К ним относятся следующие - [ж], [ж] и [ц]. Что касается непарных мягких, то это [щ'], [ч'] и [й'].
  Буквенное обозначение. 
 Теперь вы знаете информацию о том, является ли буква «у» твердой или мягкой. Но тут возникает новый вопрос: «Как обозначается мягкость таких звуков на письме?» Для этого используются совершенно разные способы:
 Буквы «е», «ю», «е», «я» после согласных (не считая «з», «ш», «т») указывают на то, что эти согласные мягкие. Приведем пример: дядя - [д'а'д'а], тетя - [т'о'т'а]. 
 Буква «i» после согласных (не считая «w», «w» и «t») указывает на то, что эти согласные мягкие. Приведем пример: мило - [м'й'лы'], лист - [л'ист], нитки - [н'и'тк'и]. 
 Мягкий знак («б») после согласных (не считая «ж» и «ж») является показателем грамматической формы. Это также указывает на мягкость согласных. Примеры пример: расстояние - [дал'], мель - [м'эль'], просьба - [прозьба].
 Как видите, мягкость согласных звуков на письме передается не отдельными буквами, а их сочетаниями с гласными «е», «ю», «е», «я», а также мягким знаком . Именно поэтому при фонетическом разборе слова специалисты рекомендуют обращать внимание на соседние символы.
 Что касается гласной буквы "й", то она всегда мягкая. В связи с этим в транскрипции его принято обозначать так: [й’]. То есть запятая, обозначающая мягкость звука, должна стоять всегда. Этому же правилу подчиняются и [уч’], [ч’].
  Подведем итоги. 
 Как видите, нет ничего сложного в том, чтобы правильно сделать фонетический анализ любого слова. Для этого нужно всего лишь знать, что такое гласные и согласные, глухие и звонкие, а также мягкие и твердые. Для лучшего понимания того, как необходимо оформить транскрипцию, приведем несколько подробных примеров.
 1. Слово "герой". Состоит из двух слогов, 2-й ударный. Разберем:
 Г - [г'] - звонкий, согласный и мягкий. 
 р - [р] - звонкий, согласный, непарный и твердый. 
 о - [о] - ударная гласная. 
-й - [й’] - звонкий, согласный, непарный и мягкий.
 Всего: 5 букв и 5 звуков.
 2. Слово «деревья». Состоит из трех слогов, причем 2-й ударный. Разберем:
 Д - [д'] - звонкий, согласный и мягкий. 
 е - [и] - безударная гласная. 
 р — [р’] — звонкий, согласный, непарный и мягкий. 
 e - [e´] - ударная гласная. 
 в - [в’] - звонкие, согласные и мягкие 
 б - [-] 
 э - [й’] - звонкие, согласные, непарные и мягкие и [э] - гласные, безударные; 
 в - [ф] - глухая,
 Буква "у": твердая или мягкая? Этот вопрос очень часто задают студенты, которым необходимо разобрать слово по всем правилам фонетики. Ответ на него вы получите чуть дальше.
 Общая информация 
 Прежде чем говорить о том, какая буква "й" (мягкая или твердая), следует выяснить, почему буквы русского алфавита вообще делятся по таким признакам.
 Дело в том, что каждое слово имеет свою звуковую оболочку, которая состоит из отдельных звуков. Следует отметить, что звучание того или иного выражения полностью соответствует его значению. При этом разные слова и их формы имеют совершенно разное звуковое оформление. А сами звуки значения не имеют. Однако они играют жизненно важную роль в русском языке. Ведь благодаря им мы можем легко различать слова. Приведем пример:
 [дом] - [дама´] - [дом];
 [м'эл] - [м'эл'], [том] - [там], [дом] - [том].
 Транскрипция 
 Зачем нужна информация о том, какая буква "й" (твердая или мягкая)? Во время слова очень важно правильно отображать транскрипцию, описывающую его звучание. В такой системе принято использовать следующие символы:
 Это обозначение называется Они обязательно ставятся для обозначения транскрипции.
 [´] — ударение. Ставится, если в слове больше одного слога.
 [б’] — своего рода запятая ставится рядом с согласной буквой и обозначает ее мягкость.
 Кстати, при фонетическом разборе слов часто используется следующий символ - [j]. Как правило, они обозначают звук буквы «у» (иногда используется и такой символ, как [у]).
 Буква "д": согласная или гласная? 
 Как известно, в русском языке все звуки делятся на согласные и гласные. Они воспринимаются и произносятся совершенно по-разному.
 Гласные звуки – это такие звуки, при произнесении которых воздух легко и свободно проходит через рот, не встречая на своем пути никаких препятствий. Более того, их можно дергать, с помощью них можно кричать. Если приложить ладонь к горлу, то довольно легко можно почувствовать работу связок (голосовых) при произнесении гласных. В русском языке 6 ударных гласных, а именно: [а], [э], [у], [с], [о] и [и].
 Согласные – это те звуки, при произнесении которых воздух встречает на своем пути препятствие, а именно изгиб или щель. Их внешний вид определяет характер звуков. Как правило, пробел образуется при произнесении [с], [ш], [ч] и [г]. При этом кончик языка приближается к верхним или нижним зубам. Представленные согласные можно вытягивать (например, [ф-ф-ф], [з-з-з]). Что касается лука, то такое препятствие образуется за счет смыкания органов речи. Воздух, а точнее его поток, резко преодолевает его, благодаря чему звуки получаются энергичными и короткими. Поэтому их называют взрывоопасными. Кстати, тянуть их нельзя (попробуйте сами: [р], [б], [т], [д]).
 Помимо перечисленных выше согласных, в русском языке также присутствуют следующие: [м], [д], [в], [ф], [г], [л], [р], [ч], [ с], [х]... Как видите, их гораздо больше, чем гласных.
 Глухие и звонкие звуки 
 Между прочим, многие согласные образуются между парами глухости и звонкости: [к] - [г], [б] - [р], [з] - [ц], [ д] - [т], [ф] - [ц] и т. д. Всего таких пар в русском языке 11. Однако есть звуки, не имеющие пар по этому признаку. К ним относятся: [д], [р], [н], [л], [м] — непарные звонкие, а [ч] и [ц] — непарные глухие.
 Мягкие и твердые согласные 
 Как известно, согласные различаются не только по звонкости или, наоборот, глухости, но и по мягкости и твердости. Это свойство является вторым по важности свойством звуков.
 Итак, буква "у": твердая или мягкая? Чтобы ответить на этот вопрос, следует рассмотреть каждый признак в отдельности:
 При произнесении мягких согласных весь язык немного смещается вперед, а его средняя часть немного приподнимается.
 Во время произношения твердых согласных весь язык буквально тянется назад.
 Следует особо отметить, что многие согласные буквы образуют пары между собой по таким признакам, как мягкость и твердость: [д] - [д'], [р] - [р'] и т. д. Таких пар в 15 общий. Однако есть и звуки, не имеющие пар по этому признаку. Какие буквы твердых согласных непарные? К ним относятся следующие - [ж], [ж] и [ц]. Что касается непарных мягких, то это [щ'], [ч'] и [й'].
 Буквенное обозначение 
 Теперь вы знаете информацию о том, является ли буква «у» твердой или мягкой. Но тут возникает новый вопрос: «Как обозначается мягкость таких звуков на письме?» Для этого используются совершенно другие приемы:
 Буквы «е», «ю», «е», «я» после согласных (не считая «з», «ж», «т») указывают что эти согласные мягкие. Приведем пример: дядя - [д'а'д'а], тетя - [т'о'т'а].
 Буква "i" после согласных (не считая "w", "w" и "t") указывает на то, что эти согласные мягкие. Приведем пример: мило - [м'й'лы'], лист - [л'ист], нитки - [н'и'тк'и].
 Мягкий знак ("b") после согласных (не считая "g" и "w") является индикатором грамматической формы. Это также указывает на мягкость согласных. Примеры пример: расстояние - [дал'], мель - [м'эль'], просьба - [прозьба].
 Как видите, мягкость согласных звуков на письме передается не отдельными буквами, а их сочетаниями с гласными «е», «у», «е», «я», а также мягким знаком . Именно поэтому, когда специалисты рекомендуют обращать внимание на соседние символы.
 Что касается гласной буквы "й", то она всегда мягкая. В связи с этим в транскрипции его принято обозначать так: [й’]. То есть запятая, обозначающая мягкость звука, должна стоять всегда. Этому же правилу подчиняются и [уч’], [ч’].
 Подведем итоги 
 Как видите, в правильном составлении любого слова нет ничего сложного. Для этого нужно всего лишь знать, что такое гласные и согласные, глухие и звонкие, а также мягкие и твердые. Для лучшего понимания того, как необходимо оформить транскрипцию, приведем несколько подробных примеров.
 1. Слово "герой". Состоит из двух слогов, 2-й ударный. Разберем:
 г - [г'] - звонкий, согласный и мягкий.
 е - [и] - безударная гласная.
 р - [р] - звонкий, согласный, непарный и твердый.
 o - [o] - ударная гласная.
-й - [й’] - звонкий, согласный, непарный и мягкий.
 Всего: 5 букв и 5 звуков.
 2. Слово «деревья». Состоит из трех слогов, причем 2-й ударный. Разберем:
 д - [д’] - звонкий, согласный и мягкий.
 е - [и] - безударная гласная.
 р - [р’] - звонкий, согласный, непарный и мягкий.
 e - [e´] - ударная гласная.
 в — [в’] — звонкие, согласные и мягкие
 э — [й’] — звонкие, согласные, непарные и мягкие и [э] — гласные, безударные;
 в - [ф] - глухой и твердый.
 Всего: 8 букв и 8 звуков.
 Неполный анализ: фонетические и фонологические данные St'át'imcets 
 DOI:10.14288/1.0067159
 Идентификатор корпуса: 58143978
  title={Неполный анализ: фонетические и фонологические свидетельства из St'{\'a}t'imcets},
  автор = {Марион Герда Калдекотт},
  год = {2009}
} 
 М. Калдекотт
 Опубликовано в 2009 г.
 Лингвистика
 ................................. ................................................. ................................................. ...................... ii Таблица
 View via Publisher
 open.library.ubc.ca
 The interaction of metrical structure, tone, and phonation types in Quiaviní Zapotec 
 Chávez Peón, E. Mario
 Linguistics
 2010
 . ................................................ ................................................. ................................................. .... ii Оглавление…
 St'át'imcets интонационные контуры: предварительное исследование* 
 Abstract Акустические исследования просодии и интонации языков Северо-Западного побережья до недавнего времени были недостаточно изучены. Эта статья присоединяется к растущему объему исследований по этому вопросу и…
 Некоторые свойства просодической фразировки в Томпсон Салиш 
 Карстен Кох, А. Sprachwissenschaft
 Лингвистика
 2010
9 Один тест поведения9 Исследуются кластеры согласных в конце фразы для проверки просодической фразировки в предложениях Nleʔkepmxcin, и обсуждаются выводы о том, что (отсутствие) основного акцента не используется для обозначения информационных категорий Фокуса и Данности.
 St'át'imcets интонационные контуры: предварительное исследование 
 M. Caldecott
 Философия
 2016
 Резюме:Акустические исследования языков северо-западного побережья и интонации в последнее время недостаточно изучены. . Эта статья присоединяется к растущему объему исследований по этому вопросу и…
 Предварительное исследование интонации в языке кваквала 
 М. Ногучи
 Лингвистика
 2011
 В этой статье представлено предварительное исследование интонации в языке кваквала, северном вакашанском языке, на котором говорят на севере острова Ванкувер и на прилегающей материковой части Британской Колумбии. В то время как есть…
 Фонетика метрической выразительности и ее следствия на сегментарной фонологии 
 М. Джавацци
 Языкознание
 2010
 Институт технологии, Дттц-Масх-Псах. лингвистики и философии, 2010.
 Фонетические полевые работы в тихоокеанском северо -западе 
 S. Bird
 Лингвистика
 ICPHS
 2011
 Эта статья сосредоточена на том, как разрабатывать и провести фонетические эксперименты с динамиками северо -западного. по двум основным темам: 1) проблемы, связанные с выявлением…
 Разнообразие, обусловленное разнообразием, но когнитивные ограничения: Боас встречает Хомского (Ответ комментаторам) 
 Генри Дэвис, Кэрри Гиллон, Л. Мэтьюсон
 Психология
 2015
 Природа ларингализации в St'át'imcets Laryngealized Resonants1 
 . В этой статье рассматриваются фонетические…
 ПОКАЗЫВАЕТСЯ 1-10 ИЗ 176 ССЫЛОК
 СОРТИРОВАТЬ ПОРелевантности Наиболее влиятельные документыНедавность
 О природе фонологического представления 
 E. Selkirk
 Linguistics
 1981
 On syntactic and phonological representations 
 A. Neeleman, J. Koot
 Linguistics
 2006
 Foot and word in prosodic morphology: Арабское ломаное множественное число 
 Дж. Маккарти, Алан С. Принс
 Лингвистика
 1990
 Предложена теория ограничения просодической области, с помощью которой правила, чувствительные к морфологической области, могут быть просодически ограничены охарактеризованный (под)домен в слове или основе.
 Влияние просодической границы на последовательности /aC/: акустические результаты. 
 М. Табайн
 Физика, лингвистика
 Журнал Американского акустического общества
 2003
 Установлено, что скорость целевых значений гласных, формантные переходы в спектральный наклон в фрикативный, зависят от силы просодической границы.
 Метрическая фонология и фонологическая структура: немецкий и английский языки 
 Х. Гигерих
 Лингвистика
 1985
 Хайнц Гигерих исследует теоретические основы «метрической фонологии» и показывает, что существующая модель может быть значительно упрощена: вспомогательные средства, такие как «метрические категории», «просодические категории», «просодические категории». показано, что сеточные и сегментарные признаки напряжения не нужны.
 Смещение ударения и расстановка ударения в начале тона в лексических единицах американского английского 
 S. Shattuck-Hufnagel, Mari Ostendorf, K. Ross
 Linguistics
 1994
 Universal and language-specific perception of paralinguistic intonational meaning 
 Aoju Chen
 Linguistics
 2005
 The findings call into question theories of intonational meaning that only advocate universality в паралингвистическом использовании вариаций основного тона и оказывают сильную поддержку теории, которая рассматривает биологические коды как отправную точку и признает отличительный специфический для языка компонент в реализации этих кодов.
 Оптическая фонетика и визуальное восприятие лексических и фразовых границ в английском языке 
 Э. Т. Ауэр, Сахьянг Ким, П. Китинг, Ребекка Скарборо, Абир Алваан, Л. Бернштейн В ходе исследования трое мужчин, говорящих по-американски по-английски, произнесли по два повторения каждой из восьми пар предложений в двух граничных условиях (последовательности из одного слова против трех слов, последовательности из одной фразы против двух фраз), и предложения были построены таким образом, что они минимально различались по наличие границы.
 Акустические корреляты лингвистического ударения и акцента в голландском и американском английском 
 Акустические корреляты ударения и акцента в американском английском (AE) пересматриваются, и предлагается анализ силы параметров в попытке оптимально различить начальный и окончательные стрессовые токены с помощью машины, используя LDA.
 Просодические и морфологические факторы в Squamish (Skwxwú7mesh) Назначение ударения 
 Р. А. Дайк
 Языкознание
 2004
 Эта диссертация представляет собой исследование системы ударения сквамиша (Skwxwú7mesh), одного из десяти языков, составляющих центральную часть северо-западной береговой ветви Салишаня, лингвистического…
 Regular Paper Abstracts | COLING•ACL 2006 
 Все занятия класса «А» проводятся в зале Bayside Auditorium A; «Б»
сеансы проходят в Bayside 103; Сеансы «C» проходят в Bayside 104; и сеансы «D»
Сессии студенческого исследовательского семинара проходят в Bayside 102.
 понедельник 17 июля 930:
Схемы статистического машинного перевода 
 Фатиха Садат и Низар Хабаш
 Статистическая машина
перевод довольно надежен, когда дело доходит до выбора ввода
представление. Требуется только согласованность между обучением и тестированием. Как
В результате существует широкий спектр возможных вариантов предварительной обработки используемых данных.
в статистическом машинном переводе. Тем более, что морфологически
богатые языки, такие как арабский. В данной работе мы изучаем влияние различных
схемы предварительной обработки на уровне слов для арабского языка в зависимости от качества
статистический машинный перевод. Мы также представляем и оцениваем различные методы
для объединения схем предварительной обработки, что приводит к улучшению качества перевода.
 Выход за пределы AER:
Обширный анализ выравнивания слов и их влияние на MT
 Necip Fazil
Аян и
Бонни Дж. Дорр
 Эта статья представляет
обширная оценка пяти различных выравниваний и исследование их влияния
на соответствующем выходе системы МТ. Мы вводим новые меры для внутренних
оценки и изучить распределение фраз и непереведенных слов
во время декодирования, чтобы определить, какие характеристики различных выравниваний
влияют на перевод. Мы показываем, что ориентированное на точность выравнивание дает лучший машинный перевод.
вывод (перевод большего количества слов и использование более длинных фраз), чем ориентированный на запоминание
выравнивания.
 1B: Сегментация тем
Многосторонний разговорный дискурс 
 Мэтью Пурвер, Конрад П. Кёрдинг, Томас Л. Гриффитс и Джошуа Б. Тенебаум
 Мы представляем метод для
неконтролируемое тематическое моделирование, которое адаптирует методы, используемые в документе
классификации (Blei et al., 2003; Griffiths and Steyvers, 2004) на несегментированные
стенограммы многосторонних дискурсов. Мы показываем, как байесовский вывод в этом
генеративную модель можно использовать для одновременного решения проблем темы
сегментация и идентификация темы: автоматическая сегментация
встречи на тематически связанные сегменты с производительностью, которая хорошо сравнивается
с предыдущими методами сегментации без учителя (Galley et al. , 2003)
одновременно извлекая темы, которые высоко оцениваются при оценке
когерентность человеческими судьями. Мы также показываем, что этот метод кажется устойчивым в
лицо диалогов не по теме и ошибок распознавания речи.
 Модель минимального вырезания для устной лекции
Сегментация
 Игорь Малютов и Регина
Barzilay
 Рассматриваем задачу
неконтролируемая сегментация лекций. Мы формализуем сегментацию как
задача разбиения графа, оптимизирующая критерий нормализованного разреза. Наш
подход выходит за рамки локализованных сравнений и принимает во внимание долгосрочные
когезионные зависимости. Наши результаты показывают, что глобальный анализ улучшает
точность сегментации и надежность при наличии распознавания речи
ошибки.
 1C: Coreference.
Резолюция 
 Шейн Бергсма и Декан Лин
 Мы
представить подход к разрешению местоимений, основанный на синтаксических путях. Через
простая процедура начальной загрузки, мы узнаем вероятность кореференции между
местоимение и существительное-кандидат на основе пути в дереве синтаксического анализа между
две сущности. Эта информация о пути позволяет нам справляться с ранее сложными задачами.
экземпляры разрешения, а также надежно обращается к традиционным синтаксическим
кореферентные ограничения. Высококорреферентные пути также позволяют извлекать точные данные.
вероятностная информация о поле/числе. Мы объединяем статистические знания с
хорошо известные функции в классификаторе разрешения местоимений машины опорных векторов.
Значительный прирост производительности наблюдается на нескольких наборах данных.
 Разрешение местоимений на основе ядра с
Структурированные синтаксические знания
 Сяофэн
Ян, Цзянь Су и
Chew Lim Tan
 Знание синтаксиса важно для разрешения местоимений. Традиционно,
синтаксическая информация для разрешения местоимений представлена в терминах
функции, которые должны быть выбраны и определены эвристически. В газете мы
предложить метод на основе ядра, который может автоматически анализировать синтаксические
информация из деревьев синтаксического анализа для разрешения местоимений. В частности, мы
использовать деревья синтаксического анализа напрямую как структурированную функцию и применять ядро
функции этой функции, а также другие обычные функции, чтобы изучить
классификатор разрешения. Таким образом, наш подход позволяет избежать усилий по расшифровке
деревья разбора в набор плоских синтаксических признаков. Экспериментальный
результаты показывают, что наш подход может привести к значительному повышению производительности
и надежно эффективен для задачи разрешения местоимений.
 1D: Грамматика I 
 Председатель сессии: Мартин Кей                                                              
Процессинг
 Джихён Пак и Крис Брю
 Ранее в психолингвистической литературе предполагалось, что
модели языка с конечным числом состояний крайне ограничены в своих объяснительных
мощности локальностью распределения вероятностей и узким
информация, используемая моделью. Мы показываем, что простая вычислительная модель (а
тегировщик частей речи bigram, основанный на конструкции, использованной Корли и Крокером
(2000) делает правильные прогнозы относительно сложности обработки, наблюдаемой в широком
диапазон эмпирических данных обработки предложений. Мы используем два режима оценки: тот, который
основан на сравнении с контрольным предложением, что соответствует практике исследований человека;
другой, который измеряет падение вероятности в области устранения неоднозначности
приговор. Оба являются удивительно хорошими индикаторами сложности обработки
садовые дорожки. Протестированные предложения взяты из опубликованных источников.
и систематически исследовать пять различных типов двусмысленности: предыдущие исследования
были более узкими по охвату и меньшими по масштабу. Мы не отрицаем
ограничения моделей с конечным числом состояний, но утверждают, что наши результаты показывают, что их
полезность недооценена.
 Прогноз приемлемости с помощью
Грамматичность Количественная оценка
 Филипп Блаш, Барбара Хемфорт и Стефан Рози
 В этой статье мы предлагаем метод количественной оценки грамматичности предложений. Подход, основанный на
Грамматика свойств, основанная на ограничениях
синтаксический формализм, позволяет оценить показатель грамматичности любого вида предложений, в том числе и неправильно построенных. Сравниваем на образце
предложений грамматичность
индексы, полученные из формализма PG и
суждения о приемлемости, измеряемые с помощью психолингвистического анализа. Результаты показывают, что
производный индекс грамматичности
довольно хороший трейсер оценок приемлемости.
 понедельник 17 июля 1100:
Условные случайные поля 
 Фил Блансом и Тревор Кон
 В этом
В статье мы представляем новый подход к выравниванию слов из выравнивания по предложениям.
данные. Мы используем условное случайное поле (CRF), дискриминационную модель, которая
оценивается на небольшом обучающем наборе с учителем. CRF обусловлен обоими
исходный и целевой тексты и, таким образом, позволяет использовать произвольные и
перекрывающиеся функции над этими данными. Кроме того, CRF имеет эффективную подготовку
и процессы декодирования, которые находят глобально оптимальные решения.
 Подаем заявку
эта модель согласования как с французско-английским, так и с румынско-английским языком
пары. Мы показываем, как можно легко реализовать большое количество функций с высоким уровнем прогнозирования. включены в CRF, и продемонстрировать, что даже с несколькими сотнями
учебных предложений, выровненных по словам, наша модель улучшается по сравнению с текущей
современное состояние с частотой ошибок выравнивания 5,29 и 25,8 для двух задач
соответственно.
 Транслитерация именованных объектов с
Сопоставимые корпуса
 Ричард Спроат, Тао Тао и Ченгсян Чжай
 В этой статье мы исследуем китайско-английскую транслитерацию имени.
с использованием сопоставимых корпусов, корпусов, в которых тексты на двух языках имеют дело с некоторыми
одних и тех же тем --- и, следовательно, имеют общие ссылки на именованные объекты --- но
не являются переводами друг друга.
Мы представляем два различных метода транслитерации, один из которых использует
фонетической транслитерации, а второй с использованием временного распределения
пары кандидатов. Каждый из них
подходы работают достаточно хорошо, но комбинируя подходы можно добиться
еще лучшие результаты. Затем мы предлагаем новый метод распространения результатов, который
использует совместное появление пар транслитерации в парах документов. Этот
метод размножения обеспечивает дальнейшее улучшение по сравнению с лучшими результатами от
предыдущий шаг.
 Извлечение параллельного субсентенциала
Фрагменты из непараллельных корпусов
 Драгош Стефан Мунтяну и Даниэль Марку
 Мы представляем новый метод извлечения параллельных
субсентенциальные фрагменты из сопоставимых, непараллельных двуязычных корпусов. По
анализ потенциально похожих пар предложений с использованием основанного на обработке сигналов
подход, мы определяем, какие сегменты исходного предложения переводятся в
сегменты в целевом предложении, а какие нет. Этот метод позволяет нам
извлекать полезные данные для обучения машинному переводу даже из очень непараллельных
корпусов, не содержащих параллельных пар предложений. Мы оцениваем качество
извлеченные данные, показав, что это улучшает производительность
современная система статистического машинного перевода.
 2B: Определение значения слова I 
 Председатель сессии: Марта Палмер                                                                                                              
Адаптация для устранения неоднозначности смысла слова
 Йи Сенг Чан и Хви Тоу Нг
 Экземпляры слова, взятые из разных доменов, могут иметь разные априорные смыслы (пропорции
разное значение слова). Это в
очередь влияет на точность систем устранения неоднозначности смысла слов (WSD), обученных и применяемых на
разные домены. В этой статье представлены
метод оценки априорных смыслов слов, взятых из нового домена, и подчеркивает важность
использования хорошо откалиброванных вероятностей
при выполнении этих оценок.
Используя хорошо откалиброванные
вероятностей, мы можем эффективно оценивать смысловые априорные значения, чтобы добиться значительного повышения точности WSD.
 Методы ансамбля для WSD без присмотра
 Сэмюэл Броуди, Роберто Навильи и Мирелла Лапата
 Комбинированные методы — эффективный способ улучшения
производительность системы. В этой статье рассматриваются преимущества комбинации систем для
неконтролируемый WSD. Мы исследуем несколько комбинаций, основанных на голосовании и арбитре.
стратегии для разнообразного пула неконтролируемых систем WSD. Наша комбинация
методы опираются на преобладающие чувства, которые автоматически выводятся из необработанных
текст. Эксперименты с наборами данных SemCor и Senseval-3 показывают, что
наши ансамбли дают значительно лучшие результаты по сравнению с
уровень развития.
 Значимая группировка чувств помогает
Повышение производительности устранения неоднозначности смысла слова
 Roberto Navigli
 Детальное различение смысла является одним из основных
препятствия на пути к успешному устранению неоднозначности смысла слов. В этой статье мы представляем
метод уменьшения детализации инвентаризации смыслов WordNet на основе
сопоставление с созданным вручную словарем, кодирующим смысловые иерархии, а именно
Оксфордский словарь английского языка. Мы оцениваем качество картирования и
индуцированной кластеризации и оценить производительность грубых систем WSD в
Senseval-3 Английское задание на все слова.
 2C: Извлечение информации I 
 Председатель сессии: Винсент Нг                                                                                 
для автоматического сбора семантических отношений
 Патрик Пантель и Марко Пеннаккиотти
 В этом
бумаги, мы представляем Эспрессо, слабо контролируемый, универсальный и точный
алгоритм сбора семантических отношений. Основные вклады: i) a
метод использования общих шаблонов путем фильтрации неправильных экземпляров с использованием
паутина; и ii) принципиальная мера надежности шаблона и экземпляра
включение алгоритма фильтрации. Предлагаем эмпирическое сравнение
Эспрессо с различными современными системами, разного размера и жанра
корпусов, на выделение различных общих и частных отношений. Экспериментальный
результаты показывают, что наше использование общих паттернов существенно увеличивает
отзыв системы с небольшим влиянием на общую точность.
 Моделирование общности между родственными
Классы в извлечении отношений
 Zhou GuoDong, Su Jian and Zhang Min
 В этой статье предлагается новая иерархическая стратегия обучения.
справиться с разреженностью данных
проблема извлечения отношений путем моделирования общности между связанными классами. Для каждого класса
в иерархии либо предопределены вручную
или автоматически кластеризованная, линейная дискриминантная функция определяется сверху вниз с использованием
алгоритм персептрона с нижним уровнем
вектор весов, полученный из вектора весов верхнего уровня. Как
класс верхнего уровня обычно имеет
гораздо больше положительных обучающих примеров, чем у класса более низкого уровня, соответствующий линейный
дискриминационная функция может быть определена более надежно. Тогда дискриминантная функция верхнего уровня может
эффективно направлять
обучение различительной функции на более низком уровне, который в противном случае мог бы пострадать от ограниченных обучающих данных.
Оценка корпуса ACE RDC 2003 показывает, что иерархическая стратегия намного
улучшает производительность на 5,6 и 5,1 в
F-мера по наименее и среднечастотным отношениям соответственно. Это также
показывает, что наша система превосходит
предыдущая система с лучшими сообщениями на 2,7 дюйма
F-мера для 24 подтипов с использованием одного и того же набора функций.
 Извлечение отношения с помощью метки
Обучение на основе распространения с полуучителем
 Цзиньсю Чен, Донхонг Джи, Чу Лим Тан и Чжэнью Ню
 Нехватка
данных, помеченных вручную, является препятствием для контролируемого извлечения отношений
методы. В этой статье мы исследуем полуконтролируемое обучение на основе графа.
алгоритм, алгоритм распространения меток (LP) для извлечения отношений. Это
представляет помеченные и непомеченные примеры и их расстояния как узлы и
веса ребер графа и пытается получить функцию маркировки для
удовлетворяют двум ограничениям: 1) он должен быть зафиксирован на помеченных узлах, 2) он
должен быть гладким на всем графике. Результаты эксперимента на корпусе ACE
показали, что этот LP-алгоритм обеспечивает лучшую производительность, чем SVM, когда используется очень мало помеченных примеров.
доступны, а также работает лучше, чем начальная загрузка для отношения
задача извлечения.
 2d: Grammarmars II 
 Session Chair: Martin Kay
 Поляризованные грамматики
 Sylvain Kahane
 В этом документе предлагается
общий математический формализм для комбинации различных структур:
строки, деревья, даги, графы и произведения из них. Поляризация
объектов элементарных структур контролирует насыщенность конечного
структура. Этот формализм одновременно и элементарный, и достаточно мощный, чтобы
имитировать многие грамматические формализмы, такие как системы перезаписи, зависимость
грамматики, TAG, HPSG и LFG.
 Частично указанные подписи: a
Транспортное средство для модулярности грамматики
 Яэль Коэн-Сигал и Шули Винтнер
 Эта работа предоставляет
необходимый фундамент для модульного строительства
(типизированные) унифицирующие грамматики для естественных языков. Большая часть информации в таких грамматиках закодирована в сигнатуре, и, следовательно, ключом является облегчение модульной разработки сигнатур типов. Мы вводим определение сигнатурных модулей и показываем, как комбинируются два модуля. Наши определения мотивированы реальными потребностями разработчиков грамматик, полученными в результате тщательного изучения крупномасштабных грамматик. Мы показываем, что наши определения отвечают этим требованиям, согласуясь с подробным набором требований.
 Интерфейс морфологии и синтаксиса для турецкого языка
LFG
 Озлем Четиноглу и Кемаль Офлазер
 В этой статье исследуется использование подлексических единиц в качестве решения
обращение со сложной морфологией с продуктивными деривационными процессами, в
разработка лексико-функциональной грамматики для турецкого языка. Такие сублексические единицы
позволяют выявить внутреннюю структуру слов с множественными
вывод к грамматическим правилам единым образом. Это в свою очередь приводит к
более краткие и управляемые правила. Далее, семантика производных
также могут быть систематически отражены композиционным способом путем построения значений PRED на
летать. Мы проиллюстрируем, как мы используем подлексические единицы для обработки простых продуктивных единиц.
словообразовательная морфология и более интересные случаи, такие как каузативизация,
и т. д., которые меняют валентность глагола. Нашим приоритетом является обработка нескольких языковых
явлений, чтобы наблюдать влияние нашего подхода как на
c-структура и представление f-структуры, а также написание грамматики, оставляя
вопросы охвата и оценки на данный момент оставлены в стороне.
 понедельник 17 июля 200:00 до 15:00 
 3A: Парифс I 
 Сессионный председатель: Joakim Nivre
 PCFG с синтаксическим и просодическим
Показатели восстановления речи
 Джон Хейл, Ицхак Шафран, Лиза Юнг, Бонни Дорр, Мэри Харпер, Анна Краснянская, Мэтью Лиз, Ян Лю, Брайан Рорк, Мэтью Сновер и Робин Стюарт
 Грамматический метод
представлено сочетание двух видов реплик восстановления речи. Одна реплика, просодическая
дизъюнктура обнаруживается ансамблевым классификатором на основе дерева решений, который использует
акустические сигналы, чтобы определить, где нормальная просодия кажется прерванной
(Ликли, 19 лет96). Другая реплика, синтаксический параллелизм, систематизирует ожидание.
что исправления продолжают синтаксическую категорию, которая осталась незавершенной в
reparandum (Levelt, 1983). Два сигнала объединены в Treebank PCFG,
состояния разделяются с помощью нескольких простых преобразований дерева. Производительность синтаксического анализа
на корпусе Switchboard и Fisher предполагает, что эти два сигнала помогают
локализовать восстановление речи синергетическим способом.
 Анализ зависимостей разговорного японского языка
Монолог, основанный на границах статьи
 Томохиро Оно, Шигеки Мацубара, Хидэки Касиока, Такехико Маруяма и Ясуёси Инагаки
 Разговорные монологи отличаются большей длиной предложения и
структурная сложность, чем
разговорные диалоги. Для достижения высоких
анализ производительности для разговорных монологов, это может оказаться эффективным для упрощения
структуру путем деления предложения на подходящие языковые единицы. Эта бумага
предлагает метод анализа зависимостей японских монологов на основе
сегментация предложения. В этом методе разбор зависимостей выполняется в
два этапа: на уровне предложения и уровне предложения. Во-первых, зависимости
внутри предложения идентифицируются путем деления предложения на пункты и
выполнение синтаксического анализа стохастической зависимости для каждого предложения. Далее зависимости
границы предложения определяются стохастически, а зависимость
Таким образом, структура всего предложения завершена. Эксперимент с использованием
корпус разговорных монологов показывает, что этот метод эффективен для эффективной зависимости
разбор японских монологических предложений.
 Прогнозирование трассировки и восстановление с помощью
Нелексикализованные PCFG и функции Slash
 Helmut Schmid
 В этом документе описывается
синтаксический анализатор, который генерирует деревья синтаксического анализа с пустыми
элементы, в которых трассы и заполнители совместно индексируются. Анализатор представляет собой нелексикализованный анализатор PCFG, который гарантированно возвращает наиболее вероятный анализ. Грамматика извлечена из версии банка дерева PENN, которая была автоматически снабжена аннотациями в стиле Кляйн и Мэннинг (2003). В аннотацию включены косые черты в стиле GPSG, которые связывают трассы и заполнители, а также другие функции, повышающие общую точность синтаксического анализа. В оценке дерева PENN (Маркус
и др., 1993), парсер превзошел другие
нелексикализованные парсеры PCFG с точки зрения помеченных
брекетинг f-показателя. Его результаты для пустого
задача прогнозирования категории и задача коиндексации трассировки-наполнителя превосходят все ранее опубликованные результаты с 84,1% и 77,4% f-показателя соответственно.
 3B: Диалог I 
 Председатель сессии: Стэнли Питерс                                                                                 9000
Стратегии с использованием ограниченных возможностей диалогового движения
 Мэтью Фрэмптон и Оливер Лемон
 Мы изучаем использование
ограниченные диалоговые контексты в обучении с подкреплением (RL) эффективных
диалоговые стратегии для поиска информации в устных диалоговых системах (например,
КОММУНИКАТОР (Walker et al. , 2001)). Контексты, которые мы используем, богаче, чем
предыдущие исследования в этой области, т.е. (Левин и Пьераччини, 1997; Шефер и
Янг, 2001; Сингх и др., 2002 г.; Pietquin, 2004), в которых используются только игровые автоматы.
информации, но гораздо менее сложны, чем полный диалог Информация
Состояния, исследованные в (Henderson et al., 2005), для которых послушное обучение является
проблема. Мы исследуем, как постепенное добавление более богатых функций позволяет изучить
более эффективные стратегии диалога. Мы используем 2 пользовательских симуляции, извлеченные из
COMMUNICATOR (Walker et al., 2001; Georgila et al., 2005b) для изучения
влияние различных особенностей на выученные стратегии диалога. Наши результаты показывают
что добавление диалоговых ходов последней системы и пользовательских ходов увеличивает
средняя награда автоматически выученных стратегий на 65:9% над
оригинальные (закодированные вручную) системы COMMUNICATOR и на 7:8% по сравнению с базовым RL
политика, которая использует только функции статуса слота. Мы показываем, что изученные стратегии
демонстрируют эмерджентную стратегию переключения фокуса и эффективное использование «отдачи».
действие «помощь».
 Зависимости между состоянием ученика и
Проблемы распознавания речи в разговорных обучающих диалогах
 Михай Ротару и Дайан Дж. Литман
 Распознавание речи
проблемы являются реальностью в современных системах разговорного диалога. Чтобы лучше
понять эти явления, мы изучаем зависимости между распознаванием речи
проблемы и несколько факторов диалога более высокого уровня, которые определяют наше понятие
состояние ученика: разочарование/гнев, уверенность и правильность. Мы применяем Ци
Квадратный (?2) анализ корпуса речевых диалогов компьютерного обучения для
обнаружить эти зависимости как внутри, так и между поворотами. Значительный
зависимости объединяются для получения интересных сведений о речи
проблемы распознавания и предложить новые стратегии решения этих проблем.
Мы также находим, что репетиторство, как новая область речевых приложений, демонстрирует
интересные компромиссы и новые факторы, которые следует учитывать при разработке устного диалога.
 Изучение структуры задач
Диалоги между людьми
 Шринивас Бангалор, Джузеппе Ди Фаббрицио и Аманда Стент
 Методы, основанные на данных
использовались для многих задач компьютерной лингвистики. Модели, полученные из
данные, как правило, более надежны, чем созданные вручную системы, поскольку они лучше
отражают распространение моделируемых явлений. При наличии
больших корпусов разговорных диалогов, управление диалогами теперь пожинает плоды
Преимущества методов, управляемых данными. В этой статье мы сравниваем два подхода к
моделирование структуры подзадач в диалоге: модель поддиалога на основе фрагментов
последовательности и модель на основе синтаксического анализа или иерархическая модель. Мы оцениваем эти модели
с помощью диалогов агента клиента из домена службы каталогов. 9900
Поля для улучшенной сегментации и маркировки последовательностей
 Фэн Цзяо, Шаоцзюнь Ван, Чи-Хун Ли, Рассел Грейнер и Дейл Шуурманс
 Мы представляем новую полуконтролируемую процедуру обучения для условных случайных полей (CRF), которая
можно использовать для обучения последовательности
сегментаторы и маркировщики из комбинации размеченных и неразмеченных обучающих данных. Наш подход
основан на расширении минимума энтропии
рамки регуляризации к структурированному
случай прогнозирования, что дает цель обучения, которая сочетает в себе немаркированную условную энтропию с
помеченная условная вероятность. Несмотря на то что
цель обучения больше не вогнутая, ее все еще можно использовать для улучшения исходной модели
(например, полученные в результате контролируемого обучения)
итеративным восхождением. Мы применяем наш новый обучающий алгоритм к задаче выявления упоминаний генов и белков в биологических текстах и показываем, что
включение неразмеченных данных улучшает
производительность контролируемой CRF в этом случае.
 Обучение условным случайным полям с
Многомерные меры оценки
 Джун Судзуки, Эрик Макдермотт и Хидэки Исодзаки
 Это
В документе предлагается структура для обучения условных случайных полей (CRF) для
оптимизировать многомерные меры оценки, включая нелинейные меры, такие как
как F-оценка. Предлагаемая нами структура основана на минимизации ошибок. подход, который обеспечивает простое решение для прямой оптимизации любой оценки
мера. Особое внимание уделяется последовательным задачам сегментации, т.е. тексту.
разбиение на фрагменты и распознавание именованных объектов, мы вводим функцию потерь, которая
близко отражает целевую меру оценки для этих задач, а именно сегментацию
F-оценка. Наши эксперименты показывают, что наш метод работает лучше, чем стандартный CRF.
подготовка.
 Методы аппроксимации лассо для
Языковое моделирование
 Цзяньфэн Гао, Хисами Судзуки и Бин Ю
 Лассо — метод регуляризации для оценки параметров
в линейных моделях. Он оптимизирует параметры модели по отношению к потерям
функция зависит от сложности модели. В этой статье исследуется использование лассо
для статистического языкового моделирования для ввода текста. В силу очень большого
количество параметров, непосредственно оптимизирующих штрафную функцию потери лассо, составляет
невозможно. Поэтому мы исследуем два метода аппроксимации:
лассо (BLasso) и прямая поэтапная линейная регрессия (FSLR). Оба
методы, используемые с экспоненциальной функцией потерь, сильно напоминают
к алгоритму повышения, который использовался в качестве дискриминационного обучения
Метод языкового моделирования. Оценки по задаче ввода японского текста
показать, что BLasso может дать наилучшее приближение к лассо
решение и приводит к значительному улучшению с точки зрения ошибки символов
скорость, избыточное повышение и традиционная оценка максимального правдоподобия.
 3D: Приложения I 
 Председатель сессии: Джон Прагер                                                                             
 Automated
на основе статей, написанных экспертами
 Цунэнори Исиока и Масаюки Камеда
 У нас есть
разработал автоматизированную систему оценки эссе по японскому языку под названием Jess. Система
для построения модели оценки нужны экспертные письма, а не эксперты-оценщики.
Обнаружив статистические выбросы заранее определенных целевых характеристик эссе.
по сравнению со многими профессиональными письмами для каждой подсказки, наша система может
оценивайте сочинения. Рассматриваются следующие три особенности: (1) риторика –
синтаксическое разнообразие или использование различных структур в расположении
фазы, пункты и предложения, (2) организация – характеристики, связанные
с упорядоченным изложением идей, таких как риторические особенности и
лингвистические подсказки и (3) содержание – словарный запас, относящийся к теме, такой как
релевантная информация и точная или специализированная лексика. Финал
оценочный балл рассчитывается путем вычитания из отличного балла, присвоенного
процесс обучения с использованием редакционных статей и колонок из Mainichi Daily News
газета. Также дается диагноз для эссе.
 Метод обратной связи для
Обнаружение ошибок в письме изучающих английский язык
 Рё Нагата, Ацуо Каваи, Коитиро Морихиро и Наоки Ису
 В этом документе предлагается метод обнаружения ошибок в
использование статьи и использование единственного числа во множественном числе, основанное на различии подсчета массы.
Во-первых, он изучает списки решений из обучающих данных, сгенерированных автоматически, чтобы
различать массу и исчислять существительные. Затем, чтобы улучшить его производительность, он
дополняется обратной связью, полученной в результате письма учащихся.
Наконец, он обнаруживает ошибки, применяя правила к различию подсчета массы.
Эксперименты показывают, что он достигает отзыва 0,71 и точности 0,72 и
превосходит другие методы, используемые для сравнения, при дополнении обратной связью.
 Исправление ESL
Ошибки при использовании методов фразового SMT
 Крис Брокетт, Уильям Б. Долан и Майкл Гэймон
 пилотное исследование использования методов фразового статистического машинного перевода (SMT) для выявления и исправления письма
ошибки, сделанные изучающими английский как второй язык (ESL). Используя примеры ошибок в массовых существительных, найденных в
Корпус ошибок учащихся китайского языка (CLEC) для
руководство по созданию инженерной обучающей выборки, мы показываем, что применение парадигмы SMT может выявлять ошибки, которые недостаточно хорошо устраняются с помощью
широко используемые инструменты проверки правописания, предназначенные для носителей языка. Наша система смогла
исправить 61,81% ошибок в наборе естественных примеров массового
ошибки в существительных, обнаруженные во Всемирной паутине, что позволяет предположить, что усилия по сбору
согласованные корпуса образцов письма ESL до и после редактирования могут позволить разработку
инструментов помощи при письме на основе SMT, способных
исправление многих сложных синтаксических и лексических проблем, обнаруженных в
письмо учащихся ESL.
 понедельник 17 июля 400 вечера до 16:30 
 4A: Парифс II 
 СЕССИО
Анализ зависимостей
 Йенс Нильссон, Йоаким Нивр и Йохан Холл
 Преобразование синтаксических представлений для улучшения
точность синтаксического анализа была
успешно используются в системах статистического анализа с использованием представлений на основе избирательных округов. В
в этой статье мы показываем, что подобные преобразования
может дать существенные улучшения также в разборе зависимостей на основе данных. Эксперименты на пражской зависимости
Treebank показывают, что систематические
преобразования структур координат и групп глаголов приводят к ошибке 10%
сокращение для детерминированного анализатора зависимостей, управляемого данными. Сочетание этих
преобразований с помощью ранее предложенных методов восстановления
непроективные зависимости приводят к современной точности для заданного
набор данных.
 4B: Диалог II 
 Председатель сессии: Стенли Питерс                                                                          
Высказывания с использованием обзоров в системах разговорного диалога
 Рюичиро Хигасинака, Рашми Прасад и Мэрилин А. Уокер
 Разговорный язык
для генерации диалоговых систем требуется словарь отображений между
семантические представления понятий, которые система хочет выразить, и реализации
этих понятий. Создание словаря — дорогостоящий процесс; это в настоящее время
делается вручную для каждого домена диалога. Мы предлагаем новый неконтролируемый метод
для изучения таких сопоставлений из отзывов пользователей в целевом домене и их тестирования
на обзоры ресторанов. Мы проверяем гипотезу о том, что отзывы пользователей, которые предоставляют
индивидуальные рейтинги выдающихся атрибутов объекта домена делают его
можно сопоставить обзорные предложения с их семантическим представлением с высокой
точность. Экспериментальный анализ показывает, что изученные отображения охватывают большую часть
онтологию предметной области и обеспечивают хорошие лингвистические вариации. Субъективный пользователь
оценка показывает, что согласованность между семантическими представлениями и
усвоенные реализации высоки и что естественность реализаций
выше, чем базовый уровень ручной работы.
 4C: лингвистические родственники 
 Сессионный председатель: Hal Daumé III
 Измерение языка дивергенции внутрипроизводимой
Сравнение
 Т. Марк Эллисон и Саймон Кирби
 В этой статье представлен метод построения генетического языка.
таксономии на основе нового подхода
к сравнению лексических форм. Вместо того, чтобы сравнивать
формы кросс-лингвистически, матрица языковых внутренних сходств между формами
вычислено. Затем эти матрицы сравниваются
указать расстояние между языками. Мы утверждаем, что это лучше согласуется с текущим мышлением в лингвистике и психолингвистике. Реализация
этот подход, называемый ФИЛОЛОГИКА,
описан вместе с его применением к Dyen et al. (1992) девяносто пять словарей из индоевропейских языков.
 4D: Приложения II 
 Председатель сессии: Джон Прагер                                                                                      
индекс, основанный на ассоциациях
 Оливье Ферре и Майкл Зок
 Хороший словарь
содержит не только множество статей, но и множество
информацию о каждом из них, но и адекватные средства для раскрытия хранимой информации.
Доступ к информации в решающей степени зависит от качества
индекс. Мы
представит здесь некоторые идеи о том, как можно улучшить словарь, чтобы помочь говорящему/пишущему найти слово, которое он/она ищет. С этой целью мы предлагаем добавить к существующему электронному ресурсу индекс, основанный на понятии ассоциации. Мы также представим предварительную работу о том, как подмножество таких ассоциаций, например тематических ассоциаций, может быть получено путем фильтрации сети лексических совпадений, извлеченных из корпуса.
 во вторник 18 июля 1000:
с супертегами 
 Килиан А. Фот, Томас Бай и Вольфганг Менцель
 Мы исследуем полезность информации о супертегах для
управление существующей зависимостью
парсер немецкого. Используя взвешенные ограничения для интеграции дополнительной доступной информации,
на процесс принятия решения синтаксического анализатора влияет
путем изменения своих предпочтений, не исключая при этом альтернативных структурных интерпретаций.
считается. Газета сообщает о серии
экспериментов с использованием различных моделей супертегов, которые значительно
увеличить точность парсинга. В
Кроме того, оценивается верхняя граница точности, которая может быть достигнута с помощью идеальных супертегов.
 5B: Лексические вопросы I 
 Председатель сессии: Чу Рен Хуан                                                                                Ef
Категории слов с использованием симметричных шаблонов и высокочастотных слов
 Дмитрий Давыдов и Ари Раппопорт
 Мы представляем
новый подход к обнаружению категорий слов, наборов слов, разделяющих
важный аспект их значения. Мы используем метапаттерны высокочастотных
слова и содержательные слова, чтобы обнаружить кандидатов в шаблоны. Симметричный
Затем шаблоны идентифицируются с использованием мер на основе графиков и категорий слов.
создаются на основе наборов графовых клик. Наш метод – это первый метод, основанный на шаблонах.
метод, который не требует аннотаций корпуса или начальных шаблонов, предоставляемых вручную, или
слова. Мы оцениваем наш алгоритм на очень больших корпусах на двух языках, используя
как человеческие суждения, так и оценка на основе WordNet. Наш полностью неконтролируемый
результаты превосходят предыдущую работу, в которой использовался корпус с тегами POS, и время вычислений
для огромных корпусов на несколько порядков быстрее, чем сообщалось ранее.
 5C: Суммизация I 
 Сессионное кресло: Simone Teufel
 Суммирование, ориентированное на байесовские запросы
 Hal Daumé III и Даниэль Марку
 Мы представляем байесум (для "Байесовского
обобщение"), модель для предложения
извлечение в обобщении, ориентированном на запросы. BayeSum использует распространенный случай, когда несколько
документы относятся к одному запросу.
Используя эти документы в качестве подкрепления для терминов запроса, BayeSum не страдает от нехватки информации.
запросы. Мы показываем, что приблизительный вывод в байесумме возможен на больших наборах данных и приводит к
современная система суммирования.
Кроме того, мы показываем, как BayeSum можно понимать как оправданный метод расширения запроса в языковом моделировании для
ИК-фреймворк. 9
 без присмотра
 Питер Д. Терни
 Мы представляем алгоритм обучения без учителя, который
большие текстовые корпуса для шаблонов, которые выражают неявные семантические отношения. Для данного
входная пара слов X:Y с некоторыми неопределенными семантическими отношениями, соответствующие
выходной список шаблонов  ранжируется в соответствии с тем, насколько хорошо каждый
паттерн Pi выражает отношения между X и Y. Например, учитывая
X = страус и Y = птица, два выходных шаблона с наивысшим рангом: «X — это
самый большой Y" и "Y, такой как X". Выходные шаблоны
предназначена для поиска дополнительных пар с теми же отношениями, чтобы
поддерживать построение словарей, онтологий и семантических сетей.
паттерны сортируются по релевантности, где релевантность паттерна Pi для
пара слов X:Y — ожидаемое относительное сходство между данной парой и
типичные пары для Pi. Алгоритм эмпирически оценивается на двух задачах,
решение слова SAT с множественным выбором
вопросы аналогии и классификация семантических отношений в парах существительное-модификатор. На
обе задачи, алгоритм достигает самых современных результатов, выполняя значительно
лучше, чем несколько альтернативных алгоритмов ранжирования образов, основанных на tf-idf.
 во вторник 18 июля 1100:
Модели как предикторы для символьного синтаксического анализатора 
 Килиан А. Фот и Вольфганг Менцель
 компоненты предиктора для
качество синтаксического анализа, которое можно получить с помощью грамматики зависимостей на основе правил. Включив чанкер, супертэггер,
PP-аттач и быстрый вероятностный синтаксический анализатор
мы смогли улучшить базовый уровень на 3,2%, доведя общую помеченную точность до 91,1% на
Немецкий корпус NEGRA. Мы приписываем успешное
интеграция со способностью лежащей в основе модели грамматики объединять неопределенное доказательство в мягком
таким образом, избегая проблемы ошибки
распространение.
 Ошибка анализа результатов синтаксического анализа
 Бенуа Саго и
Эрик де Ла Клержери
 Мы
внедрить метод анализа ошибок для автоматического обнаружения ошибок в
ресурсы, которые используются в системах синтаксического анализа. Мы применили эту технику на
результаты синтаксического анализа, полученные на нескольких миллионах слов двумя отдельными синтаксическими анализами
системы, которые совместно используют синтаксический словарь и предварительную обработку
цепь. Таким образом, мы смогли выявить недостающую и ошибочную информацию в этих
Ресурсы.
 Переоценка и самообучение парсера
Адаптация
 Дэвид Макклоски, Юджин Чарняк и Марк Джонсон
 Статистические данные
синтаксические анализаторы, обученные и протестированные в банке дерева Penn Wall Street Journal (WSJ),
показали значительные улучшения за последние 10 лет. Большая часть этого улучшения,
тем не менее, основан на постоянно растущем количестве функций, на которых нужно тренироваться.
(обычно) данные банка дерева WSJ. Это привело к опасениям, что такие синтаксические анализаторы
может быть слишком тонко настроен на этот корпус за счет переносимости на другие
жанры. Такие заботы имеют смысл. Стандартный "парсер Чарняка"
регистрируется с помеченной f-мерой точности отзыва 890,7% по тесту Penn WSJ
набор, но только 82,9% в тестовом наборе из корпуса деревьев Брауна.
 Это
бумага должна развеять эти опасения. В частности, мы показываем, что переупорядочение
парсер, описанный в Charniak and Johnson (2005), улучшает производительность
парсер на Брауне до 85,2%.
Кроме того, использование методов самообучения, описанных в (McClosky
и другие. 2006) снова поднять этот показатель до 87,8% (уменьшение ошибки на 28%) без каких-либо
использование помеченных данных Брауна. Это
замечательно, так как обучение синтаксического анализатора и реранкера на помеченных данных Брауна
достигает только 88,4%.
 6B: Лексические вопросы II 
 Председатель сессии: Чу Рен Хуан                                                              
 Биомедицинские тексты
 Анна Корхонен, Юваль Кримоловски и Найджел Коллиер
 Лексические классы, когда
адаптированные к рассматриваемому приложению и предметной области, могут обеспечить эффективную
означает решение ряда задач обработки естественного языка (NLP). Пока
ручное построение таких классов затруднительно, недавние исследования показывают, что это
можно автоматически вызывать классы глаголов из междоменных корпусов с помощью
многообещающая точность. Мы сообщаем о новом эксперименте, в котором аналогичная технология
применяется к важной, сложной области биомедицины. Мы показываем, что
результирующая классификация, полученная из корпуса биомедицинского журнала
статьи, является очень точным и строго специфичным для предметной области. Его можно использовать для
помочь БИО-НЛП непосредственно или как полезный материал для
исследование синтаксиса и семантики глаголов в биомедицинских текстах.
 Выбор эффективного контекстного
Информация для автоматического получения синонимов
 Масато Хагивара, Ясухиро Огава и Кацухико Тояма
 Различные методы
был предложен для автоматического синонима
приобретение, так как синонимы являются одним из самых фундаментальных лексических знаний.
В то время как многие методы основаны на контекстных подсказках слов, мало внимания
было уделено тому, какие категории контекстной информации полезны
с целью. В этом исследовании было экспериментально изучено влияние
выбор контекстной информации путем извлечения трех видов слов
отношения от корпусов: зависимость, совпадение предложений и близость.
Результат оценки показывает, что, хотя зависимость и близость работают
относительно хорошо сами по себе, сочетание двух или более видов контекстных
информация обеспечивает более стабильную работу. Мы дополнительно изучили полезные
выбор отношений зависимости и категорий модификации, и находится
эта модификация имеет наибольший вклад, даже больший, чем широко
принятая комбинация субъекта-объекта.
 Масштабирование распределения Сходство с
Большой корпус
 Джеймс Горман и Джеймс Р. Карран
 Точное представление
синонимия с использованием дистрибутивного подобия требует больших объемов данных для
достоверно представляют редко встречающиеся слова. Однако наивный ближайший сосед
подход к сравнению векторов контекста, извлеченных из больших масштабов корпусов
плохо (O (n2) по объему словарного запаса).
 В этой статье мы
сравнить несколько существующих подходов к аппроксимации ближайшего соседа
поиск дистрибутивного сходства. Мы исследуем компромисс между эффективностью
и точность, и обнаружили, что SASH (Houle and Sakuma, 2005) обеспечивает наилучшие
остаток средств.
 6C: Подведение итогов II 
 Председатель заседания: Симона Тойфель                                                                                                                         
и Релевантность внутри события
 Вэньцзе Ли, Минли Ву, Цинь Лу, Вэй Сюй и Чуньфа Юань
 Попытки обобщения на основе событий выбрать и организовать
предложения в резюме относительно событий или подсобытий, которые предложения
описывать. Каждое событие имеет свое
внутренней структуры и между тем относится к другим событиям семантически, временно, пространственно,
причинно или условно. В этой статье,
мы определяем событие как один или несколько терминов события вместе с именованным
ассоциированные объекты и представить
новый подход к получению релевантности внутри и между событиями с использованием информации о внутренней ассоциации,
семантическая родственность, дистрибутивность
подобие и кластеризация именованных сущностей. Затем мы применяем алгоритм ранжирования PageRank для оценки
значимость события для включения в
резюме из релевантности события, полученного. Эксперименты над ДУК 2001 г.
тестовые данные показывают, что релевантность
названных сущностей, вовлеченных в события, достигает лучшего результата, когда их
релевантность определяется терминами событий, которые они связывают. Это также показывает, что
конкретная тема из самих документов превосходит семантическую релевантность
из базы знаний общего назначения
как Word-Net.
 Модели сжатия предложений: A
Сравнение предметных областей, требования к обучению и меры оценки
 Джеймс Кларк и Мирелла Лапата
 Сжатие предложения — это задача создания краткого изложения в предложении.
уровень. В данной статье основное внимание уделяется трем
аспекты этой задачи, не получившие подробного освещения в
литература: требования к обучению, масштабируемость и автоматическая оценка. Мы
предоставить новое сравнение между контролируемым компонентом на основе и слабым
контролируемый алгоритм сжатия на основе слов и изучить, как эти модели переносятся
в разные домены (письменный и устный текст). Для этого созданный человеком
был создан корпус сжатия, и наше исследование выявляет потенциальные проблемы
с автоматически собранными корпусами сжатия, используемыми в настоящее время. Наконец, мы
оценить, можно ли использовать меры автоматической оценки для определения
качество сжатия.
 Подход к приговору снизу вверх
Заказ на обобщение нескольких документов
 Данушка Боллегала, Наоаки Окадзаки и Мицуру Исидзука
 Заказ информации — сложная, но важная задача для
приложения, генерирующие текст на естественном языке. Мы представляем подход «снизу вверх»
упорядочивать предложения, извлеченные для обобщения нескольких документов. Захватить
связь и порядок двух текстовых сегментов (например, предложений), мы определяем
четыре критерия: хронология, тематическая близость, старшинство и последовательность. Эти
критерии интегрированы в критерий с помощью контролируемого обучения. Мы
многократно объединять два текстовых сегмента в один сегмент на основе
критерий, пока мы не получим общий сегмент со всеми упорядоченными предложениями. Наш
экспериментальные результаты показывают значительное улучшение по сравнению с существующим предложением
стратегии заказа.
 6D: Семантика II 
 Председатель сессии: Йохан Бос                                                               
 Описания
 Фэн Пан, Руту Мулкар и Джерри Р. Хоббс
 Мы создали свод новостных статей, в которых
события аннотируются для предполагаемых границ их продолжительности. Здесь мы описываем
метод измерения согласия между комментаторами для продолжительности этих событий
дистрибутивы. Затем мы показываем, что методы машинного обучения применяются к этому
данные дают крупнозернистую информацию о продолжительности события, значительно превосходящую
базовый уровень и приближается к человеческой производительности.
 Автоматическое изучение текстовых
следствия с кросс-парным сходством
 Фабио Массимо Занзотто и Алессандро Москитти
 В этом
В статье мы определяем новую меру подобия между примерами текстовых
следствия, и мы используем его как функцию ядра в машинах опорных векторов.
(СВМ). Это позволяет нам автоматически изучать правила перезаписи, которые описывают
нетривиальный набор случаев следствия. Эксперименты с наборами данных
Задача RTE 2005 показывает улучшение на 4,4% по сравнению с современным уровнем техники.
методы.
 Улучшенное устранение избыточности
Алгоритм недоопределенных представлений
 Александр Коллер и Стефан Татер
 Мы
представить эффективный алгоритм решения задачи устранения избыточности:
недоопределенное семантическое представление (USR) неоднозначности области, вычислить
ЕГР с меньшим количеством взаимно эквивалентных показаний. Алгоритм работает на
недоопределенные графические представления, полученные из графов доминирования;
его можно применять к USR, вычисляемым крупномасштабными грамматиками. Мы оцениваем
алгоритм на корпусе и показать, что он уменьшает степень неоднозначности
значительно при незначительном времени выполнения.
 во вторник 18 июля 200:00 до 15:00 
 7a: Парифс V 
 Сессионный председатель: Takashi Ninomiya
 Интеграция синтаксического правления в
Инкрементальный вероятностный синтаксический анализатор с приложением к психолингвистике
Моделирование
 Амит Дюби, Фрэнк Келлер и
Патрик Стерт
 Психолингвистическая литература предоставляет доказательства
синтаксическая подготовка, то есть склонность к повторению структур. В этой статье описывается метод включения
ввод в инкрементный вероятностный парсер. Сравниваются три модели,
которые включают прайминг правил между предложениями, внутри предложений и внутри
координатные конструкции. Эти модели имитируют преимущество во времени чтения для
параллельные структуры, найденные в человеческих данных, а также дают небольшое увеличение
общая точность анализа.
 Быстрый и точный детерминированный синтаксический анализатор
для китайского языка
 Mengqiu Wang, Kenji Sagae и Teruko Mitamura
 Мы представляем новый детерминистический синтаксический анализатор на основе классификатора.
для разбора китайского избирательного округа. Наш парсер вычисляет деревья разбора снизу
за один проход и использует классификаторы для принятия решений сдвига-уменьшения. Обученный
и оценены на стандартных обучающих и тестовых наборах, наша лучшая модель (с использованием
классификаторы с накоплением) работает за линейное время и имеет пометки точности и полноты.
более 88% с использованием тегов части речи золотого стандарта, превосходя лучшие
опубликованные результаты. Наш парсер SVM 2-13
раз быстрее, чем современные синтаксические анализаторы, при этом производя более точные
полученные результаты. Наши парсеры Maxent и DTree работают со скоростью в 40-270 раз быстрее, чем
современные парсеры, но с потерями в точности на 5-6%.
 Обучение точному, компактному и
Аннотация интерпретируемого дерева
 Слав Петров, Леон Барретт, Ромен Тибо и
Dan Klein
 Представляем автомат
подход к аннотации дерева, в котором основные нетерминальные символы чередуются
разделить и объединить, чтобы максимизировать вероятность обучающего дерева. Начиная
с помощью простой грамматики Xbar мы изучаем новую грамматику, нетерминалы которой равны
подсимволы исходных нетерминалов. В отличие от предыдущей работы, мы
возможность разделения различных терминалов в разной степени, в соответствии с
фактическая сложность данных. Наши грамматики автоматически изучают виды
лингвистические различия, показанные в предыдущей работе по ручному аннотированию дерева.
С другой стороны, наши грамматики намного компактнее и существенно более информативны.
точнее, чем предыдущая работа над автоматической аннотацией. Несмотря на свою простоту,
наша лучшая грамматика достигает F ₁ 90,2% на Penn Treebank,
выше, чем полностью лексикализованные системы.
 7b: Слово смысл. Несчастное значение II 
 СЕССИОН
Родственные слова, использующие двуязычную начальную загрузку
 Оана Фрунза и Диана Инкпен
 Частичные родственные слова – это пары слов на двух языках,
имеют одинаковое значение в некоторых, но не во всех контекстах. Обнаружение фактического
значение частичного родственного слова в контексте может быть полезно для машинного перевода
инструменты и для компьютерных инструментов изучения языка. В этой статье мы
предложить контролируемый и полуконтролируемый метод для устранения неоднозначности частичного
родственными между двумя языками: французским и английским. Методы используют только
данные с автоматической маркировкой; поэтому их можно применять для других пар
также языки. Мы также показываем, что наши методы хорошо работают при использовании
корпуса из разных доменов.
 Прямое сопоставление смысла слова для лексического
Замена
 Идо Даган, Орен Гликман, Альфио Глиоццо, Эфрат Марморштейн и Карло Страппарава
 В этом документе исследуется
концептуально и эмпирически новая задача сопоставления смыслов, которая требует
определить, совпадают ли смыслы двух синонимичных слов в контексте. Мы
предложить прямые подходы к проблеме, которые избегают промежуточного шага
явное устранение неоднозначности смысла слова и демонстрация их привлекательных преимуществ
и стимулирование потенциала для будущих исследований.
 Эквивалентное псевдослово для
Неконтролируемое определение смысла слова в китайском языке
 Чжимао Лу, Хайфэн Ван, Цзяньминь Яо, Тинг Лю и Шэн Ли
 В этом документе представлен новый подход, основанный на эквивалентном
Псевдослова (EP) для устранения многозначности слов (WSD) в китайском языке
язык. ОзВ — это особые искусственные многозначные слова, с помощью которых можно реализовать
неконтролируемый WSD. Для проверки эффективности используется байесовский классификатор. раствор ЭП на китайском испытательном комплексе Senseval-3. Производительность лучше, чем
самые современные результаты со средней F-мерой 0,80. Эксперимент
проверяет значение EP для неконтролируемого WSD. 9
 Полумарковские условные случайные поля для распознавания именованных сущностей
В документе представлены методы применения полу-CRF к задачам распознавания именованных объектов.
с приемлемыми вычислительными затратами. Наш фреймворк может справиться с задачей NER, в которой есть сущности с длинными именами.
и множество меток, которые увеличивают вычислительные затраты. Чтобы уменьшить
вычислительных затрат, мы предлагаем два метода: первый — использование функции
леса, что позволяет нам упаковывать состояния, эквивалентные функциям, а второе —
введение процесса фильтрации, который значительно снижает количество
государств-кандидатов. Этот фреймворк позволяет нам использовать богатый набор функций
извлекаются из представления на основе фрагментов, которые могут фиксировать информативные
характеристики сущностей. Мы также представляем простой трюк для передачи
информацию об удаленных объектах путем встраивания информации о метках в
метки не-сущностей. Экспериментальные результаты показывают, что наша модель достигает F-оценки
71,48 % в общей задаче JNLPBA 2004 без использования каких-либо внешних ресурсов
или методы постобработки.
 Факторизация сложных моделей: случай
Study in Mention Detection
 Раду Флориан, Хунъян Цзин, Нанда Камбхатла и
Имед Зитуни
 Как естественный язык
обработка движется к пониманию естественного языка, задачи становятся
все более тонкими: нас интересуют более нюансированные характеристики слов,
больше языковых свойств, больше семантических и синтаксических особенностей. Один такой пример,
которую мы рассматриваем в этой статье, это обнаружение упоминаний в проекте ACE
(NIST, 2004), где цель состоит в том, чтобы идентифицировать именные, именные или местоименные
ссылки на объекты реального мира — упоминания — и пометить их тремя типами
информации: тип сущности, подтип сущности и тип упоминания. В этой статье,
мы изучаем несколько методов назначения этих связанных тегов и сравниваем их на
несколько наборов данных. Система, основанная на методах, представленных в этой статье
получил очень хорошие оценки в рейтинге ACE’04.
 Скрытые марковские модели на основе сегментов для
Извлечение информации
 Zhenmei Gu and
Nick Cercone
 Скрытые марковские модели
(HMM) — это мощные статистические модели, которые нашли успешное применение в
Извлечение информации (IE). В современных подходах к применению HMM к IE
HMM используется для моделирования текста на уровне документа. Это моделирование может вызвать
нежелательная избыточность экстракции в том смысле, что используется более одного наполнителя.
выявлены и извлечены. Мы предлагаем использовать HMM для моделирования текста в сегменте
уровень, на котором процесс извлечения состоит из двух этапов: сегмент
этап извлечения, за которым следует этап извлечения. Для получения извлечения
соответствующие сегменты из документов, мы представляем метод использования HMM для моделирования
и получить сегменты. Наши экспериментальные результаты показывают, что полученный сегмент
Система HMM IE не только обеспечивает почти нулевое резервирование извлечения, но также имеет
более высокая общая производительность извлечения по сравнению с традиционными системами HMM IE для документов.
 7D: Ресурсы I 
 Председатель сессии: Эрхард Хинрихс                                                                                A OM 9003
Модель выравнивания дерева для параллельного извлечения данных из Интернета
 Лей Ши, Ченг Ню, Мин Чжоу и Цзяньфэн Гао
 новый веб-майнинг
схема параллельного сбора данных. Основанный на объектной модели документа (DOM), веб-сайт
страница представлена в виде дерева DOM. Затем модель выравнивания дерева DOM
предлагается идентифицировать трансляционно эквивалентный
тексты и гиперссылки между двумя параллельными деревьями DOM. По отслеживанию
выявленные параллельные гиперссылки, параллельные веб-документы извлекаются рекурсивно. По сравнению с предыдущими схемами майнинга тесты показывают, что эта новая схема майнинга улучшает охват майнинга, уменьшает пропускную способность майнинга и повышает качество добываемых параллельных предложений.
 Банк вопросов: Создание корпуса
Аннотированные вопросы
 Джон Джадж, Аойф Кэхилл и Йозеф ван Генабит
 В этом документе описывается
разработка QuestionBank, корпуса из 4000 разобранных аннотированных вопросов для
(i) использование в обучении парсеров, используемых в QA, и (ii) оценка вопроса
разбор. Мы представляем серию экспериментов для изучения эффективности
Банк вопросов как эксклюзивный, так и дополнительный обучающий ресурс для
современный синтаксический анализатор для анализа как тестовых наборов вопросов, так и наборов тестов, не являющихся вопросами. Мы
ввести новый метод восстановления пустых узлов и их предшественников
(захват зависимостей на большом расстоянии) от вывода синтаксического анализатора в деревьях CFG с использованием повторных входов f-структуры LFG. Наши основные выводы
(i) использование обучающих данных QuestionBank повышает производительность синтаксического анализатора до 890,75%
отмеченный брекетингом f-показатель, увеличение почти на 11% по сравнению с исходным уровнем; (ii)
эксперименты по обратному тестированию данных, не являющихся вопросами (раздел 23 Penn-II WSJ), показывают
что переобученный синтаксический анализатор не испытывает падения производительности при отсутствии вопросов
материал; (iii) эксперименты по абляции показывают, что размер учебного материала
предоставляемых QuestionBank, достаточно для достижения оптимальных результатов; (iv) наш
метод восстановления пустых узлов фиксирует зависимости на большом расстоянии в
вопросы из корпуса АТИС с высокой точностью (96,82%) и низкий
отзыв (39,38%). Таким образом, QuestionBank предоставляет полезный новый ресурс в
исследование QA на основе парсера.
 Создание CCGbank и CCG с широким охватом
словарь немецкого языка
 Юлия Хоккенмайер
 Представляем алгоритм
который создает немецкий CCGbank, переводя графы синтаксиса на немецком языке.
Корпус Tiger в деревьях вывода CCG. Полученный корпус содержит
46 628 производных, покрывающих 95% всех полных предложений в тигре. Лексиконы
извлеченные из этого корпуса, содержат правильные лексические статьи для 94% всех известных
токены в невидимом тексте.
 Во вторник 18 июля 400 вечера - 17:00 
 8A: машинный перевод III 
 Сессионный стул: Кевин Найт
 Улучшенное различное двуязычное слово
Выравнивание
 Роберт С. Мур, Вен-тау Йи и Андреас Боде
 В течение многих лет статистический машинный перевод опирался на
генеративные модели для обеспечения двуязычного выравнивания слов. В 2005 году несколько независимых усилий
показали, что дискриминационные модели можно использовать для улучшения или замены
стандартный генеративный подход. Опираясь на эту работу, мы демонстрируем существенное улучшение
точность выравнивания слов, отчасти, хотя и улучшенные методы обучения, но
преимущественно за счет выбора большего количества и лучших функций. Наша лучшая модель производит самый низкий
частота ошибок выравнивания, о которой еще сообщалось в двуязычных данных Canadian Hansard.
 Переупорядочивание фраз на основе максимальной энтропии
Модель для статистического машинного перевода
 Deyi Xiong, Qun Liu и Shouxun Lin
 Мы предлагаем новую модель переупорядочения для статистического машинного перевода на основе фраз
(SMT), в котором используется модель максимальной энтропии (MaxEnt) для определения переупорядочения соседних блоков (пар фраз). Модель обеспечивает контент-зависимую,
иерархическая фразовая перестановка
с обобщением на основе
функции, автоматически полученные из
реальный битекст. Мы представляем
алгоритм для извлечения всех событий переупорядочения
соседних блоков из двуязычных данных.
В наших экспериментах по переводу с китайского на английский эта модель переупорядочивания, основанная на MaxEnt, получает значительное преимущество. улучшения в баллах BLEU на
Задачи NIST MT-05 и IWSLT-04.
 Модели искажения для статистических
Машинный перевод
 Ясер Аль-Онайзан и Кишор Папинени
 недостаточно для изменения порядка слов, необходимого для машинного перевода. Мы
предложить новую модель искажения, которую можно использовать с существующим SMT на основе фраз
декодеры для устранения этих ограничений языковой модели n-грамм. Мы представляем
эмпирические результаты машинного перевода с арабского на английский, которые показывают
статистически значимые улучшения при использовании предложенной нами модели. Мы также
предложить новую метрику для измерения сходства (или различия) порядка слов между
любая пара языков на основе выравнивания слов.
 8B: Классификация текстов I 
 Председатель сессии: Дженис Вибе                                                                      
Ключевые слова в категоризации текста
 Анетт Хулт и Беата Б. Медьеси
 В этом документе представлено исследование
о том, можно ли и как использовать автоматически извлеченные ключевые слова для улучшения текста
категоризация. Подводя итог, мы показываем, что более высокая производительность, измеряемая
микроусредненная F-мера стандартного набора текстовой категоризации – это
достигается, когда полнотекстовое представление сочетается с автоматически
извлеченные ключевые слова. Комбинация получается путем присвоения более высоких весов
слова в полных текстах, которые также извлекаются как ключевые слова. Мы также представляем
результаты для экспериментов, в которых ключевые слова являются единственными входными данными для
классификатор, либо представленный в виде униграмм, либо неповрежденный. Из этих двух
экспериментов, униграммы имеют лучшую производительность, хотя ни один из них не выполняет
а также только заголовки                                                            
 A Сравнение и полуколичественный анализ
Анализ слов и иероглифов-биграмм как особенностей китайского текста
Категоризация
 Цзинъян Ли, Маосун Сунь и Сянь Чжан
 Слова и
символы-биграммы используются как функции в китайском языке. обработка текста
задач, но до сих пор не сообщалось о систематическом сравнении или анализе их значений в качестве признаков для категоризации китайского текста. Мы проводим здесь полное сравнение производительности между ними путем экспериментов с различными коллекциями документов (включая сегментированный вручную корпус слов в качестве золотого стандарта) и полуколичественный анализ для выяснения характеристик их поведения; и попытайтесь дать некоторую предварительную подсказку для выбора термина признака (в большинстве случаев символьные биграммы лучше, чем слова) и настройки размерности в системах категоризации текста.
 Использование сопоставимых корпусов и
Двуязычные словари для межъязыковой категоризации текстов
 Альфио Глиоццо и Карло Страппарава
 Категоризация текста — это задача присвоения семантических классов документам, написанным
на целевом языке (например, английском), в то время как система обучается с использованием помеченных
документы на исходном языке (например, на итальянском).
 В этом
работы мы представляем множество решений в зависимости от наличия двуязычных
ресурсы, и мы показываем, что можно справиться с проблемой, даже когда
такие ресурсы недоступны. Основная техника основана на автоматическом
приобретение моделей многоязычных предметных областей из сопоставимых корпусов.
 Эксперименты
показать эффективность нашего подхода, предоставляя недорогое решение для
Задание на межъязыковую категоризацию текста. В частности, при двуязычии
словари доступны производительность категоризации приближается к
одноязычная категоризация текста.
 8C: Методы машинного обучения II 
 Председатель сессии: Ануп Саркар                                                                                      
 A Прогрессивный выбор функций
Алгоритм для пространств сверхбольших признаков
 Ци Чжан, Фулян Венг и Чжэ Фэн
 Последние разработки в статистическом моделировании различных
лингвистические явления показали, что дополнительные признаки дают непротиворечивые
улучшения производительности. Довольно часто улучшения ограничиваются количеством
функций, которые система способна исследовать. В этой статье описывается роман
прогрессивный алгоритм обучения, который выбирает функции практически из неограниченного
пространства признаков для условной максимальной энтропии (CME)
моделирование. Экспериментальные результаты по идентификации области редактирования демонстрируют
Преимущества алгоритма прогрессивного выбора признаков (PFS): PFS
алгоритм поддерживает ту же точность, что и предыдущий CME
алгоритмы выбора признаков (например, Zhou et al., 2003), когда один и тот же признак
используются пробелы. При использовании дополнительных функций и их комбинаций
PFS дает относительное улучшение на 17,66% по сравнению с ранее заявленным лучшим результатом.
в идентификации региона редактирования в корпусе Switchboard (Kahn et al., 2005), который
приводит к уменьшению относительной ошибки на 20% при анализе корпуса Switchboard, когда
золотые правки используются в качестве верхней границы.
 Отжиг структурного смещения в
Многоязычная взвешенная грамматическая индукция
 Ноа А. Смит и Джейсон Эйснер
 Сначала мы покажем, как можно улучшить структурную предвзятость к локальности
точность современных моделей индукции грамматики зависимостей, обученных
EM из неаннотированных примеров (Klein and Manning, 2004). Далее, путем отжига свободного параметра
который контролирует это смещение, мы добиваемся дальнейших улучшений. Затем мы описываем альтернативный вид
структурный уклон в сторону «неверных» гипотез, состоящих из частичных
структуры по сравнению с сегментированными предложениями и показывают аналогичную картину улучшения.
Мы связываем этот подход с контрастной оценкой (Смит и Эйснер, 2005),
применить последнее к индукции грамматики в языках si и показать, что наши новые
подход повышает точность на 1-17% (абсолютно) по сравнению с CE (и на 8-30% по сравнению с EM),
достижение, насколько нам известно, наилучших результатов по этой задаче на сегодняшний день. Наш метод, структурный отжиг, является общим
метод с широким применением к проблемам обнаружения скрытой структуры.
 Максимальное восстановление на основе энтропии
Арабские диакритические знаки
 Имед Зитуни, Джеффри С. Соренсен и Рухи Сарыкая
 Краткие гласные и другие
диакритические знаки не являются частью письменного арабского письма. Исключения делаются для
важные политические и религиозные тексты и сценарии для начинающих студентов
арабского языка. Письмо без диакритических знаков имеет значительную двусмысленность, потому что многие
слова с разными диакритическими знаками кажутся идентичными в без диакритических знаках
параметр. В этой статье мы предлагаем метод максимальной энтропии для восстановления
диакритические знаки в документе. Подход можно легко интегрировать и сделать эффективным
использование разнородной информации; Предлагаемая нами модель объединяет широкий
массив лексических, основанных на сегментах и тегах частей речи функций.
сочетание этих типов признаков приводит к современной диакритизации
модель. Используя общедоступный корпус (LDC’s Arabic Treebank Part 3), мы
достичь частоты ошибок диакритических знаков 5: 1%, частоты ошибок сегмента 8: 5% и слова
частота ошибок 17:3%. При настройке без окончания регистра мы получаем диакритическую ошибку
частота ошибок 2:2%, частота ошибок сегмента 4:0% и частота ошибок слов 7:2%.
 8d: поиск информации I 
 СЕССИОН
к персонализированному поиску
 Yuanhua Lv, Le Sun, Junlin Zhang, Jian-Yun Nie, Wan Chen and Wei Zhang
 Общие информационно-поисковые системы предназначены для
обслуживать всех пользователей без учета индивидуальных потребностей. В этой статье мы предлагаем
новый подход к персонализированному поиску. Он может унифицированным образом использовать и
использовать неявную информацию обратной связи, такую как журналы запросов и немедленно
просмотренные документы. Более того, наш подход может реализовать переранжирование результатов и
расширение запросов одновременно и совместно. На основе этого подхода мы
разработать персонализированный агент веб-поиска PAIR (Personalized Assistant) на стороне клиента
для информационного поиска), который поддерживает как английский, так и китайский языки. Наш
эксперименты с коллекциями TREC и HTRDP ясно показывают, что новый подход
и эффективным, и результативным.
 Влияние качества перевода в
Поиск информации на разных языках на основе машинного перевода
 Цзян Чжу и Хайфэн Ван
 Это
В статье исследуется взаимосвязь между качеством перевода и
эффективность поиска в машинном переводе (MT) на основе межъязыкового
Поиск информации (CLIR). Для получения систем МП разного перевода
качество, мы ухудшаем систему машинного перевода, основанную на правилах, уменьшая размер правила
базу и размер словаря. Мы используем деградировавшие системы машинного перевода, чтобы
переводить запросы и отправлять переведенные запросы разного качества в
ИК система. Установлено, что эффективность извлечения сильно коррелирует с
качество перевода запросов. Далее мы анализируем факторы, влияющие на
эффективность извлечения. Выяснилось, что запросы заголовков предпочтительнее использовать на основе машинного перевода.
КЛИР. Кроме того, показано, что деградация на основе словаря оказывает более сильное влияние. влияние, чем деградация на основе правил в CLIR на основе машинного перевода.
 Сравнение документа, предложения и
Term Event Spaces
 Кэтрин Блейк
 Информационная тенденция
Поисковые системы - это поиск от документа к поддокументу, например, предложений
в системе обобщения и слова или словосочетания в вопросно-ответной системе.
Несмотря на эту тенденцию, системы продолжают моделировать язык на уровне документа.
используя обратную частоту документа (IDF). В этой статье мы сравниваем и
сравните IDF с обратной частотой предложений (ISF) и обратной частотой терминов
(ИТФ). Прямое сравнение показывает, что все языковые модели весьма
коррелированный; однако средние значения ISF и ITF на 5,5 и 10,4 выше.
чем ЦАХАЛ. Все языковые модели, по-видимому, следовали степенному закону распределения с
коэффициент наклона 1,6 для документов и 1,7 для предложений и терминов. Мы
завершите анализом устойчивости IDF по отношению к случайным, журнальным и
разделы из 100 830 полнотекстовых научных статей в нашем
экспериментальный корпус.
 Четверг, 20 июля 9:00–9:30 
 Номинанты на лучшую статью на азиатском языке 
 Шаблон выравнивания дерева к строке для
Статистический машинный перевод
 Ян Лю, Цюнь Лю и Шоуксун Линь
 Мы представляем новую модель перевода, основанную на
шаблон выравнивания дерева к строке
(TAT), который описывает выравнивание между исходным деревом синтаксического анализа и целевой строкой. ТАТ способен генерировать как терминалы, так и
нетерминалы и выполнение переупорядочивания
как на низком, так и на высоком уровне. Модель
основан на лингвистическом синтаксисе, поскольку ТАТ извлекаются автоматически из выровненного по словам исходного
параллельные тексты с параллельным анализом. К
перевести исходное предложение, мы сначала используем синтаксический анализатор для создания исходного дерева синтаксического анализа, а затем применяем ТАТ для преобразования дерева в целевую строку. Наш
эксперименты показывают, что модель на основе ТАТ значительно превосходит Pharaoh, современный декодер
для фразовых моделей.
 Включение распознавания речи
уверенность в различительном распознавании именованных объектов речевых данных
 Кацухито Судох, Хадзиме Цукада и Хидэки Исодзаки
 В этом документе предлагается распознавание именованных объектов (NER)
метод результатов распознавания речи, использующий уверенность в автоматической речи
распознавание (ASR) как функция. ASR
Функция уверенности показывает, правильно ли распознано каждое слово.
Модель NER обучается с использованием ASR
результаты с метками именованных объектов (NE), а также соответствующие
транскрипции с метками NE. В экспериментах с использованием машин опорных векторов
(SVM) и речевые данные из японских газетных статей, предлагаемый метод
превзошел простое приложение текстового NER
к ASR приводит к NER
F-мера за счет повышения точности. Эти результаты показывают, что предложенный метод
эффективен в NER для шумных входных сигналов.
 Использование синтаксических шаблонов в качестве ключей
в Резолюции Нулевой Анафоры
 Рю Иида, Кентаро Инуи и Юдзи Мацумото
 Мы подходим к
проблема разрешения нулевой анафоры путем разложения ее на внутрисентенциальные и
межсентенциальное разрешение с нулевой анафорой. Для первой проблемы синтаксические шаблоны
появления нулевых местоимений и их антецедентов являются полезными подсказками.
Взяв японский в качестве целевого языка, мы эмпирически показываем, что
включает в себя богатые синтаксические функции шаблона в состоянии искусства
модель разрешения анафоры, основанная на обучении, значительно повышает точность
внутрисенсорная нулевая анафора, что, следовательно, улучшает общее
производительность разрешения с нулевой анафорой.
 Самоорганизующаяся модель n-грамм для
Автоматический интервал между словами
 Пак Сон-Бэ, Тэ Юн-Шик и Пак Се-Ён
 Автоматический
межсловный интервал является одной из важных задач в обработке корейского языка и
поиск информации. Поскольку в слове есть ряд запутанных случаев
пробелы в корейском языке, во многих текстах, в том числе в новостях, есть ошибки
статьи. В этой статье представлен высокоточный метод автоматического межсловного интервала.
на основе модели самоорганизующихся n-грамм. Этот метод в основном представляет собой вариант
модель n-грамм, но достигает высокой точности за счет автоматической адаптации контекста
размер.
 По порядку
для нахождения оптимального размера контекста предлагаемый метод автоматически увеличивает
размер контекста при контекстном распределении после увеличения его не
согласен с текущим контекстом. Это также уменьшает размер контекста, когда
распределение сокращенного контекста аналогично распределению текущего контекста.
Этот подход обеспечивает высокую точность за счет учета данных более высокой размерности в
случае необходимости, а повышенные вычислительные затраты компенсируются
уменьшенный размер контекста. Экспериментальные результаты показывают, что самоорганизация
структура модели n-грамм расширяет базовую модель.
 Четверг 20 июля с 1030:
Различные языки для IR 
 Qing Li, Sung-Hyon Myaeng, Yun Jin и Bo-yeong Kang
 По историческим и культурным причинам английский
фазы, особенно правильная
существительные и новые слова часто появляются на веб-страницах, написанных в основном на азиатских языках, таких как корейский и
Китайский язык. Хотя эти английские термины и
их эквиваленты в азиатском языке относятся к одному и тому же понятию, они
ошибочно трактуются как
независимые единицы индекса в традиционном поиске информации (IR). В этой статье описывается, в какой степени
проблема возникает в IR и предполагает
новая техника для ее решения. Наш метод сначала извлекает английскую фразу
с веб-страниц на азиатском языке, а затем объединяет извлеченную фразу и ее
эквивалентность в языке как
одна индексная единица. Экспериментальные результаты показывают, что высокая точность нашего подхода к концептуальной унификации значительно
улучшает работу ИК.
 Выравнивание слов на английском и хинди
Параллельный корпус с использованием подхода вектора недавности: некоторые исследования
 Ниладри Чаттерджи и Саумья Агравал
 Выравнивание слов с использованием
вектор новизны
основанный подход в последнее время стал
популярный. Одним из основных преимуществ этих методов является то, что в отличие от других подходов они хорошо работают, даже если размер параллельных корпусов невелик. Это делает эти алгоритмы достойными изучения для языков с ограниченными ресурсами. В этой работе мы изучили эффективность двух очень популярных подходов, основанных на векторе недавности, предложенных в (Fung and McKeown, 19). 94) и (Somers, 1998), соответственно, для выравнивания слов в англо-хинди параллельном корпусе. Но производительность вышеперечисленных алгоритмов оказалась неудовлетворительной. Однако последующее добавление некоторых новых ограничений значительно улучшило производительность метода выравнивания на основе вектора недавности для указанного корпуса. В настоящей статье обсуждается новая версия алгоритма и его производительность в
деталь.
 Извлечение заимствований из монгольского языка
корпусов и создание японско-монгольского двуязычного словаря
 Бадам-Осор Халтар, Ацуши Фуджи и Тэцуя Исикава
 В этой статье предлагаются методы извлечения заимствованных слов из
Кириллические монгольские корпуса и создание японско-монгольского двуязычного
толковый словарь. Мы извлекаем заимствованные слова из монгольских корпусов, используя наши собственные
правила ручной работы. В дополнение к извлечению на основе правил мы также извлекаем
слова в монгольских корпусах, фонетически похожие на японскую катакану
слова как заимствования. Кроме того, мы сопоставляем извлеченные заимствования с
Японские слова и создать двуязычный словарь. Мы предлагаем метод стемпинга
для монгольского языка для правильного извлечения заимствованных слов. Мы проверяем эффективность
наши методы экспериментально.
 10B: морфология и сегментация слов 
 Сессионное председатель: Юджи Мацумото
.
Морфологическое устранение неоднозначности иврита
 Мени Адлер и Майкл Эльхадад
 Морфологическое устранение неоднозначности — это процесс присвоения
один набор морфологических признаков для каждого отдельного слова в тексте. Когда слово неоднозначно (есть
несколько возможных анализов слова), процедура устранения неоднозначности, основанная на
слово контекст должно быть применено. В данной работе рассматриваются морфологические
устранение неоднозначности еврейского языка, которое объединяет морфемы в слово в
агглютинативным и фузионным способами.
Мы представляем неконтролируемую стохастическую модель - единственный ресурс, который мы используем
это морфологический анализатор, который решает проблему разреженности данных
обусловлена аффиксационной морфологией еврейского языка.
 Мы представляем метод кодирования текста для языков с
аффиксационная морфология, в которой знание правил словообразования (которое
довольно ограничены на иврите) помогает в устранении неоднозначности. Адаптируем ХММ
алгоритмы обучения и поиска этого текстового представления таким образом,
что сегментация и тегирование могут быть изучены параллельно за один шаг. Полученные результаты
в крупномасштабной оценке показывают, что это обучение улучшает устранение неоднозначности
для сложных наборов тегов. Наш метод
применимо к другим языкам с аффиксной морфологией.
 Контекстные зависимости в
Неконтролируемая сегментация слов
 Шэрон Голдуотер, Томас Л. Гриффитс и Марк Джонсон
 Разработка более совершенных методов сегментации непрерывного текста
в слова важно для улучшения обработки азиатских языков, и
может пролить свет на то, как люди учатся сегментировать речь. Мы предлагаем два новых байесовских слова
методы сегментации, которые предполагают униграммные и биграммные модели зависимостей слов
соответственно. Модель биграммы
значительно превосходит модель униграмм (и предыдущие вероятностные модели), демонстрируя
важность таких зависимостей для сегментации слов. Мы также показываем, что предыдущие вероятностные
модели в решающей степени полагаются на субоптимальные процедуры поиска.
 МАГЕД: Морфологический анализатор и
Генератор арабских диалектов
 Низар Хабаш и Оуэн Рэмбоу
 Мы представляем MAGEAD, морфологический анализатор и генератор
для арабской языковой семьи. Наш
работа является новой в том, что она явно обращается к необходимости обработки
Морфология диалектов. MAGEAD выполняет оперативный анализ или
генерация из представления root+pattern+features, она имеет отдельные
фонологические и орфографические представления, а также позволяет комбинировать морфемы из разных диалектов. Представляем подробную оценку
МАГЕД.
 10C: Маркировка и фрагментация 
 Председатель сессии: Ян Хаич                                                                                                                   
Влияние лексических и морфологических особенностей
 Йоав Голдберг, Мени Адлер и Майкл Эльхадад
 Мы представляем метод разделения именных фраз на иврите. Мы
показать, что традиционное определение базовых NP как нерекурсивных именных словосочетаний
не применяется на иврите и предлагает альтернативное определение простого
НП. Мы рассматриваем синтаксические свойства
иврита связаны с словосочетаниями существительных, что указывает на то, что задача иврита
Фрагментирование SimpleNP сложнее, чем фрагментирование base-NP на английском языке. Как
подтверждения, мы применяем методы, которые, как известно, хорошо работают для данных с английского языка на иврит.
Эти методы дают низкие результаты (F от 76 до 86) на иврите. Затем мы обсуждаем нашу
метод, который применяет индукцию SVM по
лексические и морфологические признаки. Морфологические признаки улучшают средний
точность на ~ 0,5%, отзыв на ~ 1% и F-мера на ~ 0,75, что приводит к
система со средней производительностью 9точность 3%, отзыв 93,4% и 93,2
F-мера.
 Мультитегирование для лексикализованной грамматики
Синтаксический анализ
 Джеймс Р. Карран, Стивен Кларк и Дэвид Вадас
 С производительностью выше
Точность 97% для газетного текста, маркировка частей речи (POS) может считаться решенной проблемой. Предыдущие исследования показали, что разрешение синтаксическому анализатору разрешать неоднозначность тегов POS не повышает производительность.
Однако для грамматических формализмов, использующих более мелкие грамматические
категорий, например TAG и CCG, точность тегирования значительно ниже. Фактически, для
эти формализмы, преждевременное разрешение неоднозначности делает синтаксический анализ невозможным.
 Мы описываем
подход с несколькими тегами, который поддерживает подходящий уровень лексической категории
неоднозначность для точного и эффективного разбора CCG. Мы расширяем этот подход с несколькими тегами на
уровне POS для преодоления ошибок, вызванных
автоматически назначаемые POS-теги.
Хотя точность тегов POS кажется высокой, сохранение некоторой неоднозначности тегов POS в конвейере обработки языка
приводит к более точной CCG
супертеги.
 Угадывание неизвестных частей речи
Слова, использующие глобальную информацию
 Тецудзи Накагава и Юдзи Мацумото
 В этой статье мы
представить метод угадывания POS-тегов неизвестных слов с использованием локальной и глобальной информации. Хотя многие существующие методы используют только локальную информацию (например, ограниченный размер окна или внутрисентенциальные функции), глобальные
информация (внесентенциальные функции) дает ценные подсказки для предсказания POS-тегов неизвестных слов. Мы предлагаем вероятностную модель для угадывания неизвестного POS.
слов, использующих глобальную информацию, а также
местную информацию и оценить ее
параметры с использованием выборки Гиббса. Мы также
попытка применить модель к обучению с полуучителем,
и проводить эксперименты на нескольких корпусах.
 SRW 1: Многоязычность 
 Председатель сессии: Marine Carpuat                                                                                  S 0003
Использование шести китайских знаков препинания
 Минг Юэ 
 И риторическая структура, и пунктуация оказались полезными
в обработке дискурса. Эта статья основана на проекте аннотации корпуса.
сообщает о дискурсивном использовании 6 китайских знаков препинания в новостных комментариях
тексты: двоеточие, тире, многоточие, восклицательный знак, вопросительный знак и точка с запятой. Риторические паттерны этих знаков сравниваются с паттернами вокруг реплики.
фразы вообще. Результаты показывают, что эти китайские знаки препинания, хотя
меньше по количеству, чем ключевые фразы, легко идентифицируются, имеют сильную корреляцию
с определенными отношениями и могут быть использованы в качестве отличительных индикаторов ядерности
в китайских текстах.
 S2      Встроенный
Морфологическое и синтаксическое устранение неоднозначности для современного иврита
 Реут Царфати
 Текущие модели синтаксического анализа не могут быть непосредственно применимы для
языки, которые демонстрируют сильное взаимодействие между морфологией и синтаксисом, например,
Современный иврит (MH), арабский и другие семитские языки. Эта работа представляет собой
первая попытка моделирования морфологически-синтаксического взаимодействия в порождающем
вероятностная структура, позволяющая анализировать MH. Мы показываем, что морфологический
информация, отобранная в тандеме с синтаксическими категориями, полезна для
разбор семитских языков. Далее мы показываем, что избыточные морфологические
информация помогает синтаксическому устранению неоднозначности.
 S3      А
Гибридный реляционный подход для WSD
 Lucia Specia
 Мы представляем новый гибридный подход для Word Sense
Устранение неоднозначности (WSD), которое использует реляционный формализм для представления
случаи и фоновые знания. Он построен с использованием индуктивной логики.
Методы программирования для объединения доказательств, поступающих из обоих источников во время
процесс обучения, создающий основанную на правилах модель WSD. Мы экспериментировали с этим
подход к устранению неоднозначности 7 весьма неоднозначных глаголов в английском и португальском языках
перевод. Результаты показали, что подход является многообещающим, достигая среднего
точность 75%, что превосходит другие методы машинного обучения
исследован (66%).
 Четверг, 20 июля, 230 вечера - 15:00 
 11A: машинный перевод IV 
 Сессионный председатель: Алон Лави
. Кластера Глобальная фраза Перезаряжение
Модель статистического машинного перевода
 Масааки Нагата, Кунико Сайто, Казухидэ Ямамото и Кадзутеру Охаси
 который может быть включен в стандартную статистическую машину на основе фраз
перевод. В отличие от предыдущих моделей локального переупорядочения, которые подчеркивали
переупорядочение соседних пар фраз [Tillmann-Zhang05], наша модель явно
моделирует переупорядочивание больших расстояний путем прямой оценки параметров
из фразовых выравниваний двуязычных учебных предложений. В принципе,
глобальная модель переупорядочивания фраз зависит от исходной и целевой фраз
которые в данный момент переводятся, а ранее переведенные исходный и целевой
фразы. Чтобы справиться с разреженностью, мы используем N-лучшие выравнивания фраз и двуязычие.
кластеризация фраз и исследование различных комбинаций условного рефлекса.
факторы. С помощью экспериментов мы показываем, что глобальная модель переупорядочения
значительно повышает точность перевода стандартного японско-английского
переводческая задача.
 Дискриминативное глобальное обучение
Алгоритм статистического машинного перевода
 Кристоф Тиллманн и Тонг Чжан
 Это
В статье представлен новый алгоритм обучения для последовательности блоков с линейной оценкой.
переводческая модель. Ключевым компонентом является новая процедура для прямой оптимизации
глобальная функция оценки, используемая декодером SMT.
Вероятности модели перевода, языка или искажения не используются.
в более ранней работе над SMT. Поэтому наш метод, который использует меньше знаний, специфичных для предметной области,
как проще, так и более расширяемо, чем предыдущие подходы. Более того,
Процедура обучения рассматривает декодер как черный ящик и, таким образом, может использоваться для
оптимизировать любую схему декодирования. Алгоритм обучения оценивается по эталону
Задача арабско-английского перевода. 99000
с бесконечным словарным запасом
 Шинсуке Мори, Дайсуке Такума и Гакуто Курата
 Шумный
подход модели канала успешно применяется к различным естественным языкам
задачи обработки. В настоящее время основным направлением исследований этого подхода является
методы адаптации, как фиксировать характеристики слов и выражений в
целевой домен с примерами предложений в этом домене. В качестве решения мы
описать метод увеличения словарного запаса языковой модели почти до
бесконечного размера и захвата их контекстной информации. Особенно новый
метод подходит для языков, в которых слова не разделены
пробел. Мы применили наш метод к задаче транскрипции фонемы в текст в
японский и уменьшил примерно на 10% ошибки в результатах существующего
метод.
 Автоматическое создание моделей предметной области
для колл-центров от шумных транскрипций
 Шоурья Рой и Л. Венката Субраманиам
 Оператор колл-центров
запросы клиентов из различных областей, таких как продажа и поддержка компьютеров,
мобильные телефоны, прокат автомобилей и т. д. Каждый такой домен, как правило, имеет модель домена
что необходимо для обработки жалоб клиентов. Эти модели содержат общие
категории проблем, типичные проблемы клиентов и их решения, приветствие
стили. В настоящее время эти модели создаются вручную с течением времени. К этому мы
предложить неконтролируемый метод автоматического создания моделей предметной области из
транскрипции звонков. Мы используем современные технологии автоматического распознавания речи.
система для расшифровки звонков между агентами и клиентами, которая по-прежнему
приводит к высокому уровню ошибок в словах (40%) и показывает, что даже из этих зашумленных
транскрипции звонков мы можем автоматически построить модель предметной области. Домен
модель состоит в основном из тематической таксономии, где каждый узел
характеризуется темой(ами), типичными вопросами-ответами (ВиО), типичными
действия и статистика звонков. Мы покажем, как такую модель предметной области можно использовать для
идентификация темы невидимых вызовов. Мы также предлагаем приложения для помощи
агентов при обработке вызовов и для мониторинга агентов на основе модели предметной области.
 11C: Дискурс 
 Председатель сессии: Даниэль Марку                                                                                     X обоснованная вычислительная модель близости для обработки топологических пространственных
выражения
 John D. Kelleher, Geert-Jan M. Kruijff and Fintan J. Costello
 В статье представлена новая модель для контекстно-зависимых
интерпретация языковых выражений о пространственной близости между
объекты в естественной сцене. В статье обсуждается новая психолингвистическая
экспериментальные данные, которые тестируют и верифицируют модель. Модель была
реализован и позволяет разговорному роботу идентифицировать объекты на сцене
через топологические пространственные отношения (например, «X рядом с Y''). Модель может помочь
мотивируют выбор между топологическими и проективными предлогами.
 Машинное обучение временным отношениям
 Индерджит Мани, Марк Верхаген, Бен Веллнер, Чонг Мин Ли и Джеймс Пустеевски
 В этой статье исследуется подход машинного обучения для
временное упорядочение и привязка событий в текстах на естественном языке. Адресовать
разреженность данных, мы использовали временное рассуждение как метод избыточной выборки, чтобы
резко расширить объем обучающих данных, что приведет к прогнозированию
точность маркировки ссылок достигает 93% с использованием классификатора максимальной энтропии на
аннотированные данные человека. Этот метод выгодно отличался от ряда
все более сложные базовые линии, включающие расширение правил, полученных из
человеческие интуиции.
 SRW 2: Речь 
 Председатель сессии: Кевин Дах                                                                                
- Фреймворк для поэтапного обучения онтологии в системах разговорного диалога
 Беренике Лоос
 Система разговорного диалога с открытым доменом должна иметь дело с
проблема отсутствия лексических, а также концептуальных знаний. Как реальный мир
постоянно меняется, невозможно хранить все необходимые знания
заранее. Таким образом, эти знания должны быть получены во время работы.
система, с помощью внесловарной информации речи
распознаватель. Поскольку каждое слово может иметь различные значения в зависимости от контекста в
произносится, дополнительная контекстная информация принимается во внимание, когда
поиск значения такого слова. В этой статье я представлю
инкрементная среда обучения онтологии On2L. Определенные задачи для
каркасом являются: извлечение гиперонимов из интернет-текстов для неизвестных терминов
доставленный распознавателем речи; сопоставление тех и их гипернимов
в онтологические понятия и экземпляры; и последующее их интегрирование
в онтологию системы.
 S5      Фокус
подчеркивать тональные структуры для просодического анализа в разговорной речи
Поколение
 Лалита Нарупиякул    
 Анализируем понятие фокуса в речи и
взаимосвязь между фокусом и речевыми актами для просодического порождения. Мы
определить, как намерение говорящего влияет на высказывания говорящего.
Связь между речевыми актами и информацией о фокусе используется для определения
какие части предложения выступают в роли выделенных частей. Мы предлагаем Фокус для
Структура Emphasize Tones (FET) для анализа компонентов фокуса. Мы также проектируем
грамматику FET для анализа интонационных паттернов и создания тональных меток в качестве
результат нашего анализа. Мы представляем рабочий пример для проверки концепции
подтвердить наше предложение. Более комплексные оценки являются частью нашей текущей
Работа.
 Четверг, 20 июля, 400:00 до 17:30 
 12A: машинный перевод v 
 Сессионный председатель: Алон Лави
 на машинный перевод
 Перси Лян, Александр Бушар-Котэ, Дэн Кляйн и
Бен Таскар
 Мы представляем
дискриминационный подход в стиле персептрона к машинному переводу, в котором большие
наборы функций могут быть использованы. В отличие от подходов дискриминационного переранжирования, наш
система может использовать изученные функции на всех этапах декодирования. Мы
сначала обсудим несколько проблем дискриминационных подходов, основанных на ошибках. В
в частности, мы изучаем различные способы обновления параметров с учетом тренировочного
пример. Мы считаем, что делать частые, но небольшие обновления предпочтительнее, чем
делать меньше, но больше обновлений. Затем мы обсудим набор функций и покажем
как они количественно увеличивают балл BLEU, так и качественно
взаимодействовать на конкретных примерах. Одной из особенностей, которую мы исследуем, является роман
способ ввести обучение в первоначальный процесс извлечения фразы, который
ранее были полностью эвристическими.
 Полуконтролируемое обучение для
Статистическое выравнивание слов
 Александр Фрейзер и Даниэль Марку
 Мы представляем полууправляемый подход к обучению для
статистический машинный перевод, который заменяет традиционный ожидание
Шаг максимизации, применяемый к большому обучающему корпусу с
дискриминационный шаг, направленный на повышение качества выравнивания слов на небольшом,
вручную выровненный по словам подкорпус. Покажем, что наш алгоритм приводит не только к
улучшенное выравнивание, но и более высокое качество результатов машинного перевода.
 Генерация цели слева направо для
Иерархический перевод на основе фраз
 Таро Ватанабе, Хадзиме Цукада и Хидэки Исодзаки
 Мы представляем иерархический
статистический машинный перевод на основе фраз, в котором целевое предложение эффективно генерируется в
порядок слева направо. Модель относится к классу
синхронная-CFG со структурой, подобной нормальной форме Грейбаха, для спроецированного производственного правила: парная целевая сторона производственного правила принимает
словосочетание с префиксной формой. Декодер для
целевая нормализованная форма основана на анализаторе сверху вниз в раннем стиле на стороне источника. Целевое нормализованное
форма в сочетании с нашим нисходящим парсером
подразумевает генерацию переводов слева направо, что позволяет нам напрямую интегрироваться с языком ngram
модели. Наша модель была испытана на
Задача перевода новостной ленты с японского на английский и продемонстрировала статистически значимое улучшение производительности.
против системы перевода на основе фраз.
 12B: Lexical выпуски III 
 СЕССИОН
Используйте лингвистические знания) — качественная оценка ассоциативных показателей
для словосочетаний и извлечения терминов
 Иоахим Вермтер и Удо Хан
 В последние годы ряд лексических ассоциаций
меры были изучены, чтобы помочь извлечь новую научную терминологию или общеязыковую
словосочетания. Неявным предположением этого исследования было то, что недавно разработанные
срочные меры, включающие более сложные статистические критерии,
превзойти простой подсчет частот совпадений. Мы здесь явно тестируем
это предположение. С помощью четырех качественных критериев мы показываем, что чисто
статистические показатели практически не показывают разницы по сравнению с
учитывается частота встречаемости, в то время как лингвистически более информативные показатели
выявить такую заметную разницу.
 Онтологизация семантических отношений
 Марко Пеннаккиотти и Патрик Пантел
 Многие алгоритмы имеют
были разработаны для сбора лексико-семантических ресурсов, однако немногие из них связаны
добытые знания в формальные репозитории знаний. В этой статье мы
предложить два алгоритма автоматической онтологизации (присоединения) семантических
отношения в WordNet. Мы представляем эмпирическую оценку по задаче
присоединение partof и причинно-следственных связей, показывающее улучшение F-показателя
над базовой моделью.
 Индукция семантической таксономии из
Heterogenous Evidence
 Рион Сноу, Дэниел Джурафски и Эндрю Ю. Нг
 Мы предлагаем роман
алгоритм индуцирования семантических таксономий. Предыдущие алгоритмы таксономии
индукция обычно сосредотачивается на независимых классификаторах для открытия новых
отдельные отношения, основанные на созданных вручную или обнаруженных автоматически
текстовые узоры. Напротив, наш алгоритм гибко включает доказательства
из нескольких классификаторов по разнородным отношениям, чтобы оптимизировать
всю структуру таксономии, используя знание координатных терминов слова
помочь в определении его гиперонимов, и наоборот. Применяем наш алгоритм на
проблема приобретения смыслового гипонима существительного, где мы сочетаем
предсказания гиперонимических и координатных классификаторов терминов со знанием
в уже существующей семантической таксономии (WordNet 2.1). Добавляем 10; 000 новых синсетов
до WordNet 2.1 с точностью 84 %, относительное снижение ошибок на 70 % по сравнению с
несовместный алгоритм, использующий одни и те же классификаторы компонентов. Наконец, мы показываем, что
таксономия, построенная с использованием нашего алгоритма, показывает относительное улучшение F-показателя на 23%.
над WordNet 2.1 на независимом тестовом наборе пар гипернимов.
 12C: Извлечение информации III 
 Председатель сессии: Йорик Уилкс                                                                                  
Извлечение фактов на обгоне
 Мариус Пашка, Деканг Лин, Джеффри Бигэм, Андрей Лифчиц и Альпа Джейн
 В новом подходе к
крупномасштабное извлечение фактов из неструктурированного текста, дистрибутивные
сходства становятся неотъемлемой частью как многократного приобретения
шаблоны контекстного извлечения с высоким охватом, а также проверку и ранжирование
факты кандидатов. Оценка измеряет качество и охват фактов
извлечено из ста миллионов веб-документов, начиная с десяти исходных фактов
и не используя никаких дополнительных знаний, словарей или сложных инструментов.
 Слабо контролируемая именованная организация
Транслитерация и обнаружение из многоязычных сопоставимых корпусов
 Александр Клементьев и Дэн Рот
 Именованное лицо
распознавание (NER) является важной частью многих естественно-языковых
задачи обработки. Современные подходы часто используют методы машинного обучения.
и требуют контролируемых данных. Однако во многих языках таких ресурсов нет. Этот
В статье представлен (почти) неконтролируемый алгоритм обучения для автоматического
обнаружение именованных объектов (NE) на свободном от ресурсов языке с учетом
двуязычные корпуса, в которых он слабо выровнен во времени с богатым ресурсом
язык. НЭ имеют одинаковое распределение времени в таких корпусах, и часто
некоторые токены в NE, состоящем из нескольких слов, транслитерируются. Мы разрабатываем
алгоритм, который итеративно использует оба наблюдения. Алгоритм использует
новой, основанной на частоте, метрики распределения времени и свободного от ресурсов
дискриминационный подход к транслитерации. Посев с небольшим количеством
пар транслитерации, наш алгоритм обнаруживает многословные NE и принимает
преимущество словаря (если он существует) для учета переведенных или
частично переведенные НЭ. Оцениваем алгоритм на англо-русском
корпуса и показывают высокий уровень обнаружения РН в русском языке.
 Составное ядро для извлечения
Отношения между объектами как с плоскими, так и со структурными элементами
 Мин Чжан, Цзе Чжан,
Цзянь Су и
Guodong Zhou
 В этом документе предлагается
новое составное ядро для извлечения отношений. Составное ядро состоит
из двух отдельных ядер: ядро сущности, которое позволяет
функции и ядро синтаксического дерева синтаксического анализа, которое моделирует синтаксическую информацию
примеров отношения. Мотивация нашего метода состоит в том, чтобы полностью использовать приятное
свойства методов ядра для изучения разнообразных знаний для связи
добыча. Наше исследование показывает, что составное ядро может эффективно
захватывать как плоские, так и структурированные элементы без необходимости обширного
разработка функций, а также может легко масштабироваться, чтобы включить больше функций.
Оценка корпуса ACE показывает, что наш метод превосходит предыдущий
лучшие методы и значительно превосходит предыдущие две зависимости
ядра дерева для извлечения отношений.
 SRW 3: Разбор 
 Председатель сессии: Стивен Ван                                                                                    
3
примыкающих к дереву грамматик из банка деревьев для корейского языка 
 Jungyeul Park
 Мы представляем реализацию системы, которая извлекает
не только лексикализованные грамматики, но и основанные на признаках лексикализированные грамматики из
Корейский берег дерева Седжонг. Мы сообщаем о некоторых практических экспериментах, в которых мы
извлечение грамматик TAG и древовидных схем.
Прежде всего, полномасштабные синтаксические теги и хорошо построенный морфологический анализ в
Sejong Treebank позволяет нам извлекать синтаксические признаки. Кроме того, мы модифицируем
Банк деревьев для извлечения лексикализованных грамматик и преобразования лексикализованных грамматик
в древовидные схемы, чтобы решить проблему ограниченного лексического охвата извлеченных
лексикализованные грамматики.
 S7      Анализ
и данные подкатегории
 Jianguo Li           
 В этой статье мы сравниваем производительность
современный статистический синтаксический анализатор (Bikel, 2004) для разбора письменных и устных
язык и в создании сигналов подкатегоризации из письменного и устного
язык. Хотя синтаксический анализатор Bikel обеспечивает более высокую точность синтаксического анализа
письменный язык, он достигает более высокой точности при извлечении
признаки подкатегории из разговорной речи. Кроме того, мы изучаем
полезность знаков препинания для разбора и извлечения подкатегорий
подсказки. Наши эксперименты показывают, что пунктуация мало помогает в разборе устной речи.
язык и извлечение признаков подкатегоризации из разговорной речи. Этот
указывает на то, что нет необходимости добавлять знаки препинания при расшифровке устной речи.
корпуса просто для того, чтобы помочь парсерам.
 S8      Клавиус:
Двунаправленный синтаксический анализ для универсального многомодального взаимодействия
 Франк Рудзиц
 Мы представляем новый многопоточный алгоритм синтаксического анализа на
унифицирующие грамматики, разработанные специально для многомодального взаимодействия и шумных
среды. Сняв некоторые традиционные ограничения, а именно связанные с
порядок составляющих, мы преодолеваем некоторые трудности других систем
в этом домене. Мы также представляем несколько критериев, используемых в этой модели для
ограничить процесс поиска с помощью динамически загружаемых функций оценки. Немного
обсуждаются ранние анализы нашей реализации.
 Пятница 21 июля 1000:
Информация о совпадении и комбинация элементов дела 
 Такеши Абекава и Манабу Окумура
 В этой статье мы
представить метод, который улучшает синтаксический анализ японских зависимостей с помощью крупномасштабных
статистическая информация. Он принимает во внимание два вида информации, не
учитывались в предыдущих методах статистического анализа (на основе машинного обучения):
информация об отношениях зависимости между падежными элементами глагола и
информация об отношениях совпадения между глаголом и его падежным элементом.
Эта информация может быть получена из результатов автоматической зависимости
парсинг больших корпусов. Результаты эксперимента, в котором наши
метод был использован для ранжирования результатов, полученных с помощью существующей машины
Метод синтаксического анализа на основе обучения показал, что наш метод может повысить точность
результатов, полученных с помощью существующего метода.
 13B: Ответ на вопрос I 
 Председатель сессии: Дэн Молдован                                                                                   
Кластеризация и обобщение для получения ответов на клинические вопросы
 Дина Демнер-Фушман и Джимми Лин
 гибридный подход
к ответам на вопросы в клинической области, которая сочетает в себе методы обобщения и поиска информации. Мы рассматриваем часто встречающийся класс вопросов, который принимает форму «Какое медикаментозное лечение лучше всего подходит для X?» Начиная с начального набора ссылок MEDLINE, наша система сначала идентифицирует исследуемые препараты. Затем рефераты группируются с использованием семантических классов из онтологии UMLS. Наконец, для каждого реферата создается краткая экстрактивная сводка для заполнения кластеров. Две оценки — ручная, ориентированная на короткие ответы, и автоматическая, ориентированная на вспомогательные тезисы, — демонстрируют, что наша система выгодно отличается от PubMed, поисковой системы, наиболее широко используемой сегодня врачами.
 13C: Семантика III 
 Председатель сессии: Александр Коллер                                                            
 отношения между глаголами с использованием выборочных предпочтений
 Фабио Массимо Занцотто, Марко Пеннаккиотти и Мария Тереза Пациенца
 В этом
В статье мы исследуем новый метод обнаружения асимметричных отношений следствия.
между глаголами. Нашей отправной точкой является идея о том, что некоторый точечный глагол
селективные предпочтения несут соответствующую семантическую информацию. Эксперименты с использованием
WordNet как золотой стандарт показывает многообещающие результаты. Где применимо, наш
метод, используемый в сочетании с другими подходами, значительно увеличивает
выполнение обнаружения следствий. Комбинированный подход, включая нашу модель
улучшает AROC на 5% по сравнению со стандартными моделями.
 13D: Приложения III 
 Председатель сессии:
Eva Hajičová                                                                 
 Извлечение событий на графике
Агент
 Гарри Халпин и Джоанна Д. Мур
 В этой статье мы
показать, как автоматическое извлечение событий из текста может быть использовано как для
классифицировать повествовательные тексты по сюжетному качеству и давать советы в
интерактивная учебная среда, призванная помочь учащимся в написании рассказов.
Мы сосредоточимся на задаче переписывания рассказа, в которой рассказ-образец читается учащимся.
учащиеся и учащиеся переписывают рассказ своими словами. Система
автоматически извлекает события из необработанного текста, формализованные в виде последовательности
упорядоченные во времени аргументы-предикаты. Эти события даются
машинное обучение, которое производит грубую оценку истории. Результаты, достижения
машинного обучения, а извлеченные события затем используются для создания мелкозернистых
советы для студентов.
 Пятница 21 июля 1100:
Неконтролируемый разбор 
 Ренс Бод
 Исследуем обобщения всех поддеревьев "DOP"
подход к неконтролируемому разбору. Неконтролируемые модели DOP назначают все возможные
бинарные деревья к набору предложений и
затем используйте (большое случайное подмножество) все поддеревья из этих бинарных деревьев для
вычислить наиболее вероятные деревья синтаксического анализа. Мы проверим как относительную частоту
оценщик для неконтролируемого DOP и оценщик максимального правдоподобия, который
известно, что они статистически непротиворечивы. Мы сообщаем о самых современных результатах
Английский (WSJ), немецкий (NEGRA) и китайский (CTB)
данные. Насколько нам известно, это первая статья, в которой тестируется
оценка максимального правдоподобия для DOP в Wall Street Journal, что привело к
удивительный результат, что модель неконтролируемого синтаксического анализа превосходит широко используемую
модель с учителем (treebank PCFG).
 Достижения в дискриминационном анализе
 Джозеф Туриан и И. Дэн Меламед
 Настоящая работа
повышает точность и скорость обучения дискриминационного синтаксического анализа. Наш
метод дискриминационного синтаксического анализа не имеет генеративного компонента, но превосходит
генеративный базовый уровень при разборе составляющих и делает это с минимальными лингвистическими затратами.
сообразительность. Наша модель может включать произвольные функции ввода и анализа
состояние и выполняет выбор функции постепенно по экспоненциальной функции
пространство во время тренировки. Мы демонстрируем гибкость нашего подхода,
тестирование его с несколькими стратегиями синтаксического анализа и различными наборами функций. Наш
реализация находится в свободном доступе по адресу: http://nlp.cs.nyu.edu/parser/.
 Введение в грамматику на основе прототипов
 Ария Хагиги и Дэн Кляйн
 Мы исследуем
обучение на основе прототипов для индукции грамматики без учителя. Прежний
знание определяется декларативно, предоставляя несколько канонических примеров
каждый тип целевой фразы. Эта разреженная информация о прототипе затем распространяется
по всему корпусу, используя функции дистрибутивного подобия, которые увеличивают
в остальном стандартная модель PCFG. Мы показываем, что функции распределения
эффективен для различения меток скобок, но не для определения скобок
места. Чтобы улучшить качество индуцированных деревьев, мы комбинируем нашу PCFG
индукция с моделью CCM Кляйна и Мэннинга (2002), которая
дополнительные сильные стороны: он идентифицирует скобки, но не маркирует их. С использованием
всего несколько прототипов, мы показываем существенные улучшения по сравнению с наивным PCFG
индукция для английской и китайской индукции грамматики.
 14B: Ответ на вопрос II 
 Председатель заседания: Дэн Молдован                                                               
 Пути отношений для извлечения ответа
 Дэн Шен и Дитрих Клаков
 В этой статье мы исследуем корреляцию зависимости
пути отношений для ранжирования ответов-кандидатов при извлечении ответов. С использованием
корреляционная мера, мы сравниваем отношения зависимости кандидата ответа и
сопоставлены вопросительные фразы в предложении с соответствующими отношениями в
вопрос. В отличие от предыдущих исследований, мы предлагаем приблизительную
алгоритм сопоставления фраз и включить оценку сопоставления в корреляцию
мера. Корреляции дополнительно включаются в расчет на основе максимальной энтропии.
модель ранжирования, которая оценивает веса путей на основе обучения. Результаты экспериментов
показать, что наш метод значительно превосходит современный синтаксический
методы, основанные на отношениях, до 20% в MRR.
 Ответ на вопрос с использованием лексических цепочек
Распространение аргументов глагола
 Адриан Новиски и Дэн Молдован
 В этом документе описывается алгоритм распространения глагола
аргументы по лексическим цепочкам, состоящим из отношений WordNet. Алгоритм
создает структуры аргументов глагола, используя синтаксические шаблоны VerbNet. Чтобы
увеличить охват, больший набор смыслов глагола был автоматически
связанные с существующими шаблонами от VerbNet. Алгоритм используется в
внутренняя система ответов на вопросы для повторного ранжирования набора возможных ответов.
Тесты на фактоидные вопросы из TREC 2004 показывают, что алгоритм улучшился.
производительность системы на 2,4%.
 Методы использования текстового дополнения
в Open Domain Question Answers
 Sanda Harabagiu and Andrew Hickl
 Работа над семантикой
вопросов утверждал, что отношение между вопросом и его ответом (-ами)
могут быть выражены в терминах логического следования. В этой статье мы демонстрируем, как
вычислительные системы, предназначенные для распознавания текстовых следствий, могут использоваться для
повысить точность текущих открытых автоматических ответов на вопросы (Q/A)
системы. В наших экспериментах мы показываем, что когда текстовая информация
используется либо для фильтрации, либо для ранжирования ответов, возвращаемых системой вопросов и ответов, точность может
в целом увеличить на 20%.
 14C: Семантика IV 
 Председатель сессии: Александр Коллер                                                              
Семантические синтаксические анализаторы
 Рохит Дж. Кейт и Рэймонд Дж. Муни
 Мы
представить новый подход к отображению предложений естественного языка в их формальные
что означает представления с использованием классификаторов на основе строкового ядра. Наша система
изучает эти классификаторы для каждого произведения в грамматике формального языка.
Представления значений для новых предложений естественного языка получаются путем
поиск наиболее вероятного семантического разбора с использованием этих классификаторов строк. Наш
эксперименты на двух реальных наборах данных показывают, что этот подход сравнивает
выгодно для других существующих систем и особенно устойчивы к шуму.
 Самозагружающийся подход к
Неконтролируемое обнаружение вариантов ключевой фразы
 Рашид М. Абдалла и Симона Тойфель
 обнаружение полуфиксированных ключевых фраз, таких как «Эта статья предлагает новый
подход…» из невидимого текста, на основе всего лишь горстки семенных реплик
фразы с нужной семантикой. Проблема, в отличие от начальной загрузки
подходы к ответам на вопросы и извлечению информации, заключается в том, что
трудно найти сдерживающий контекст для появления полуфиксированных ключевых фраз.
В нашем методе используются компоненты самой ключевой фразы, а не внешние
контекст, для начальной загрузки. Он успешно исключает фразы, которые отличаются
от целевой семантики, но которые внешне похожи. Метод
достигает точности 88%, превосходя стандартные подходы начальной загрузки.
 Семантическая маркировка ролей через FrameNet,
VerbNet и PropBank
 Ана-Мария Джуглеа и Алессандро Москитти
 В этой статье описывается
надежный семантический парсер, использующий обширную базу знаний, созданную
соединяющий три основных ресурса: FrameNet, VerbNet и PropBank. Корпус FrameNet содержит примеры, аннотированные семантическими ролями, тогда как
Лексикон VerbNet предоставляет знания о синтаксическом поведении
глаголы. Мы соединяем VerbNet и FrameNet, сопоставляя кадры FrameNet с
VerbNet Интерсективные классы Левина. Корпус PropBank, который плотно
подключен к лексикону VerbNet, используется для увеличения охвата глаголов и
также проверить эффективность нашего подхода. Результаты показывают, что наша
model — интересный шаг к разработке более надежных семантических парсеров.
 14D: Ресурсы II 
 Председатель сессии:
Ева Гайичова                                                                 
 Многоязычная юридическая терминология на
Платформа Джибики: проект LexALP
 Жиль
Серассе, Фрэнсис Брюне-Манку и Елена Чиоккетти
 В этой статье представлены
особенное использование «Jibiki» (веб-сайт Papillon’s
серверная платформа разработки) для LexALP1
проект. Целью LexALP является гармонизация терминологии по пространственному планированию и устойчивому развитию, используемой в рамках Альпийской конвенции2, чтобы государства-члены могли сотрудничать и эффективно общаться на четырех официальных языках (французском, немецком, итальянском и словенском). С этой целью LexALP использует платформу Jibiki для создания банка терминов для сравнительного анализа специальной терминологии, используемой в шести различных национальных правовых системах и на четырех разных языках. В этой статье мы представляем, как общая платформа, такая как Jibiki, может справиться с новым типом
толковый словарь.
 Повторное использование: экономичность
Лексический сбор для крупномасштабного перевода онтологий
 Г. Крейг Мюррей, Бонни Дорр, Джимми Лин, Ян Хайич и Павел Печина
 Тезаурусы и онтологии
обеспечивают важную ценность в облегчении доступа к цифровым архивам путем
представляющие основополагающие принципы организации. Перевод таких
ресурсов на несколько языков является важным компонентом для обеспечения
многоязычный доступ. Тем не менее
специфика словарных терминов в большинстве онтологий не позволяет полностью автоматизировать
машинный перевод с использованием общедоменных лексических ресурсов. В этой статье мы
представить эффективный процесс использования человеческих переводов, когда
создание доменно-специфических лексических ресурсов. Мы оцениваем эффективность
этого процесса путем создания вероятностного словаря фраз и перевода
тезаурус из 56 000 понятий, используемый для каталогизации большого архива устной
истории. Наши эксперименты демонстрируют экономичный метод точного машинного
перевод больших онтологий.
 Точное извлечение словосочетаний с использованием
a Многоязычный синтаксический анализатор
 Виолета Серетан и Эрик Верли
 В этом документе основное внимание уделяется использованию передовых методов
анализ текста как поддержка извлечения словосочетаний. Гибридная система это
представлен, который сочетает в себе статистические методы и многоязычный синтаксический анализ для
обнаружение точной коллокационной информации из английского, французского, испанского и
Итальянские корпуса. Преимущество использования полного синтаксического анализа по сравнению с использованием
традиционный оконный метод (который игнорирует синтаксическую информацию) является первым
теоретически мотивировано, затем эмпирически подтверждено сравнительной оценкой
эксперимент.
 Пятница 21 июля 200:00 до 15:00 
 15A: машинный перевод VI 
 Сессионный председатель: Dekai Wu
 Масштабируемый вывод и обучение
Контекстно-богатые модели синтаксического перевода
 Мишель Гэлли, Джонатан Грэл, Кевин Найт, Дэниел Марку, Стив ДеНиф, Вей Ван и Игнасио Тайер
 Статистический машинный перевод значительно продвинулся за последние несколько
лет, но текущие модели перевода слабы в отношении повторного заказа и целевой
владение языком. Синтаксические подходы направлены на решение этих проблем. В этой статье мы берем основу для
приобретение многоуровневых синтаксических правил перевода (Galley et al., 2004) из
выровненные пары "дерево-строка" и представляют два основных расширения их подхода:
во-первых, вместо простого вычисления единственного вывода, который минимально объясняет
пару предложений, мы строим большое количество производных, которые включают
контекстуально более богатые правила и учитывают несколько интерпретаций
несогласованные слова. Во-вторых, мы предлагаем
оценки вероятностей и процедура обучения для взвешивания этих правил. Мы сравниваем разные подходы на реальных
примеры показывают, что наши оценки, основанные на множественных выводах, отдают предпочтение фразовому
переупорядочивания, которые лингвистически лучше мотивированы, и установить, что наши
более крупные правила обеспечивают увеличение на 3,63 балла BLEU по сравнению с минимальными правилами.
 Моделирование лексической избыточности для
машинный перевод
 Дэвид Талбот и Майлз Осборн
 Определенные различия, сделанные в лексиконе одного языка
могут быть излишними при переводе на другой язык. Мы количественно оцениваем избыточность
между исходными типами по сходству их распределения по целевым типам.
Мы предлагаем независимую от языка основу для минимизации лексической избыточности.
который можно оптимизировать непосредственно из параллельного текста. Оптимизация источника
лексика для данного целевого языка рассматривается как выбор модели по набору
кластерные модели перевода.
 Могут проявляться избыточные различия между типами
одноязычные закономерности, например, флективные паттерны. Мы определяем априорную
над структурой модели с использованием марковского случайного поля и изучением признаков над наборами
одноязычных типов, которые предсказывают двуязычную избыточность. до
делает выбор модели более надежным без необходимости использования языка
предположения относительно избыточности. Использование этих моделей в SMT на основе фраз
системы, мы показываем значительное улучшение качества перевода для некоторых
языковые пары.
 Эмпирические нижние границы
Сложность трансляционной эквивалентности
 Бенджамин Веллингтон, Соня Ваксмонски и И. Дэн Меламед
 В этой статье описывается
изучение паттернов переводческой эквивалентности, демонстрируемых различными
битексты. Исследование показало, что сложность этих паттернов в каждом битексте
был выше, чем предполагалось в литературе. Эти открытия проливают новый свет на
почему «синтаксические» ограничения не помогли улучшить статистический перевод
модели, в том числе модели на основе фраз с конечным состоянием, модели «дерево-строка» и
модели «дерево к дереву». В статье также представлены доказательства того, что инверсия
грамматики трансдукции не могут генерировать некоторые отношения трансляционной эквивалентности,
даже в относительно простых реальных битекстах на синтаксически близких языках с
жесткий порядок слов. Инструкции по воспроизведению наших экспериментов находятся на
http://nlp.cs.nyu.edu/GenPar/ACL06
 15B: Языковое моделирование 
 Председатель сессии: Цзяньфэн Гао                                                                                                                                 
На основе процессов Питмана-Йора
 Yee Whye Teh
 Мы предлагаем новую иерархическую
Байесовская n-граммная модель естественных языков. В нашей модели используется
обобщение обычно используемых распределений Дирихле, называемых Питманом-Йором
процессы, которые производят степенные распределения, более похожие на те,
на естественных языках. Мы показываем, что приближение к иерархическому
Языковая модель Питмана-Йора восстанавливает точную формулировку интерполированного
Kneser-Ney, один из лучших методов сглаживания для языковых моделей n-грамм. Эксперименты подтверждают, что наша модель дает результаты перекрестной энтропии, превосходящие
интерполированный метод Кнезера-Нея и сравним с модифицированным методом Кнезера-Нея.
 Фонетический подход к китайскому языку
Нормализация текста в чате
 Юньцин Ся, Кам-Фай Вонг и Вэньцзе Ли
 Общение в чате является популярным средством общения в Интернете.
через ICQ, чаты и т.д. Язык чата отличается от естественного из-за
своей аномальной и динамической природе, которая делает обычные инструменты НЛП
неприменим. Динамическая проблема чрезвычайно трудна, потому что она делает
корпус статического языка чата быстро устарел в представлении современного чата
язык. Для решения динамической проблемы мы предлагаем фонетическое отображение
модели для представления сопоставлений между терминами чата и стандартными словами с помощью фонетических
транскрипция, т.е. китайский пиньинь в нашем случае. Отличие от персонажа
отображения, фонетические отображения могут быть построены из доступных стандартных
Китайский корпус. Для выполнения задачи термина языка динамического чата
нормализации, мы расширяем модель исходного канала, включая фонетические
картографические модели. Экспериментальные результаты показывают, что этот метод эффективен и
стабилен в нормализации терминов языка динамического чата.
 Дискриминационная обрезка языка
Модели для сегментации китайских слов
 Jianfeng Li, Haifeng Wang, Dengjun Ren и Guohua Li
 This
В статье представлен метод дискриминативной обрезки языковой модели n-грамм для
Сегментация китайских слов. Чтобы уменьшить размер языковой модели,
используемой в китайской системе сегментации слов, важность каждой биграммы
вычисляется с точки зрения дискриминационного критерия обрезки, который связан с
потеря производительности, вызванная обрезкой биграммы. Тогда предлагаем пошагово
алгоритм роста для построения языковой модели желаемого размера. Экспериментальный
результаты показывают, что метод дискриминационного сокращения приводит к гораздо меньшему
модель по сравнению с моделью, обрезанной с использованием современного метода. В
F-мера сегментации того же китайского слова, количество биграмм в модели
можно уменьшить до 90%. Корреляция между запутанностью языковой модели и
Также обсуждается производительность сегментации слов.
 15C: Поиск информации II 
 Председатель заседания: Рози Джонс                                                             
Поиск с двойной проверкой
 Хсин-Хси Чен, Мин-Шун Линь и Ю-Чуан Вэй
 Поиск в Интернете с двойной проверкой предлагается для
исследовать Интернет как живой корпус.
Пять ассоциативных показателей, включая варианты Dice, Overlap Ratio,
Жаккара и косинуса, а также двойной проверки совпадения (CODC).
представлены. В экспериментах с эталонным набором данных Рубинштейна-Гуденафа,
показатель CODC достигает коэффициента корреляции 0,8492, который конкурирует с
производительность (0,8914) модели с использованием WordNet. Эксперименты по ссылке
обнаружение именованных сущностей с использованием стратегий прямой ассоциации,
матрица ассоциации и скалярная матрица ассоциации подтверждают, что перепроверка
частоты надежны. Дальнейшее изучение кластеризации именованных сущностей показывает, что
пять мер весьма полезны. В частности, показатель CODC очень стабилен.
на экспериментах слово-слово и имя-имя. Применение меры CODC к
расширить цепочки сообществ для устранения неоднозначности личных имен достигает 90,65% и
Увеличение на 14,22% по сравнению с системой без расширения сообщества. Все
эксперименты показывают, что новая модель веб-поиска с двойной проверкой
возможно для горнодобывающих ассоциаций из Интернета.
 Семантический поиск для точных
Идентификация реляционных понятий в массивных текстовых базах
 Юсуке Мияо, Томоко Охта, Кацуя Масуда, Ёсимаса Цуруока, Казухиро Ёсида, Такаши Ниномия и Дзюнъити Цудзи
 поиск реляционных понятий из огромных текстов. Перед поиском все предложения
аннотированные предикатными структурами аргументов и онтологическими идентификаторами
применение глубокого синтаксического анализатора и распознавателя терминов. Во время выполнения запросы пользователей
преобразованы в запросы региональной алгебры по этим аннотациям. Структурное согласование с предварительно рассчитанным
семантические аннотации обеспечивают точный и эффективный поиск
реляционные концепции. Эта структура
был применен к поисковой системе для MEDLINE. Эксперименты по извлечению биомедицинских
корреляции показали, что стоимость достаточно мала для реального времени
приложений и что точность поиска значительно улучшена.
 Изучение дистрибутивного подобия
Модели на основе исправления орфографии в запросах
 Му Ли, Мухуа Чжу, Ян Чжан и Мин Чжоу
 релевантность веб-поиска. В этой статье описаны новые методы использования
сходство распределения оценивается по журналам запросов при изучении улучшенного запроса
Модели исправления орфографии. Ключом к нашим методам является свойство
дистрибутивное сходство между двумя терминами: оно высоко между часто
встречающаяся опечатка и ее исправление, а также низкий уровень между двумя не относящимися к делу терминами
только с похожим написанием. Мы представляем две модели, способные
преимущество этого свойства. Экспериментальные результаты показывают, что
модели, основанные на сходстве распределения, могут значительно превзойти их
базовые системы в задаче исправления орфографии веб-запросов.
 15D: Поколение I 
 Председатель сессии: Дония Скотт                                                                              
 Автоматически получаемые LFG Approximations
 Aoife Cahill и Josef van Genabith
 Мы представляем новую архитектуру на основе PCFG для надежной
вероятностная генерация на основе LFG с широким охватом
аппроксимации (Cahill et al., 2004), автоматически извлекаемые из берегов деревьев,
максимизация вероятности дерева с заданной f-структурой. Мы оцениваем наши
подход с использованием оценки на основе строк. В настоящее время мы достигаем покрытия
95,26%, оценка BLEU 0,7227 и точность строки 0,7476 на Penn-II WSJ
Раздел 23 предложения длиной ≤20.
 Инкрементная генерация пространственных
ссылки на выражения в расположенном диалоге
 Джон Д. Келлехер и Герт-Ян М. Круифф
 В этой статье представлен подход к поэтапному
образование локативных выражений. Он решает проблему комбинаторики.
взрыв, присущий построению моделей реляционного контекста: (а)
контекстуально определяя набор объектов в контексте, который может функционировать как
ориентир, и (b) последовательность, в которой пространственные отношения
рассматривается с помощью когнитивно-мотивированной иерархии отношений, визуально-
выразительность дискурса.
 Обучение прогнозированию маркеров случаев в
Японский
 Хисами
Сузуки и
Кристина Тутанова
 Японские падежные маркеры, обозначающие грамматические
отношение дополнения NP к сказуемому, часто создают проблемы для
создание японского текста, будь то изучающий иностранный язык или
система машинного перевода (МТ). В данной статье мы описываем задачу
прогнозировать японские маркеры падежа и предлагать методы машинного обучения для
решить ее в двух условиях: (i) одноязычный, когда информация предоставляется только от
японское предложение; и (ii) двуязычный, когда также предоставляется информация от
соответствующее английское исходное предложение в контексте МП. Мы формулируем задачу
после хорошо изученного задания по маркировке семантических ролей в английском языке и изучить
особенности синтаксической зависимой структуры предложения. Для
одноязычной задачи, мы оценили наши модели на Kyoto Corpus и достигли более
Точность 84% при назначении правильных маркеров регистра для каждой фразы. Для
билингвальное задание, мы достигли точности 92% за фразу при использовании двуязычного
набор данных из технической области. Мы показываем, что в обоих случаях функции, которые
использовать информацию о зависимостях, независимо от того, получена ли она из аннотаций золотого стандарта
или автоматически назначаемые, вносят значительный вклад в прогнозирование случая
маркеры.
 Пятница, 21 июля, 400 вечера - 17:00.0003 
 Эти документы написаны из
Различные точки зрения? Тест различных точек зрения, основанный на статистических
Дивергенция распределения
 Вей-Хао Линь и Александр Гауптманн
 В этой статье мы исследуем, как автоматически
определить, написаны ли две коллекции документов из разных
перспективы. По перспективам мы
означают точку зрения, например, с точки зрения демократов или
Республиканцы. Предлагаем пройти тест
различные точки зрения, основанные на расхождении распределения между статистическими
модели двух коллекций.
Экспериментальные результаты показывают, что тест может успешно различать
коллекции документов различных точек зрения из других типов коллекций.
 Смысл слова и субъективность
 Дженис Виб и Рада Михалча
 Субъективность и
оба значения являются важными свойствами языка. В данной статье исследуется их
взаимодействия и приводит эмпирические данные в поддержку гипотезы о том, что
(1) субъективность — это свойство, которое может быть связано со смыслом слова, и (2)
Устранение неоднозначности смысла слова может напрямую выиграть от субъективных аннотаций.
 16B: Ответы на вопросы III 
 Председатель заседания: Джон Прэндж                                                            
 Повышение точности обеспечения качества по вопросам
Инверсия
 Джон Прагер, Пабло Дюбу и Дженнифер Чу-Кэрролл
 Это
статья демонстрирует концептуально простой, но эффективный метод увеличения
точность систем обеспечения качества по фактоидным вопросам. Определим понятие инвертированного
вопрос и показать, что, потребовав, чтобы ответы на исходный и
перевернутые вопросы должны быть взаимно согласованы, неправильные ответы понижаются в
уверенность и правильные продвигаются.
Кроме того, мы показываем, что отсутствие валидации может быть использовано для утверждения
условия отсутствия ответа (nil). Мы
продемонстрировать повышение производительности по TREC и другим наборам вопросов, а также
обсудить виды будущей деятельности, которые могут быть особенно полезными для
подходы, как у нас.
 Переоценка ответов для проверки качества определений
Использование языкового моделирования
 Йи Чен, Мин Чжоу и Шилун Ван
 Методы статистического ранжирования на основе вектора центроида
(профиль), извлеченный из внешних знаний, получил широкое распространение в
лучшие определения систем обеспечения качества в TREC 2003 и 2004. В этих подходах термины
в векторе центроида рассматриваются как набор слов, основанный на независимом
предположение. Чтобы ослабить это предположение, в данной статье предлагается новый язык
метод переранжирования ответов на основе модели для улучшения существующей модели набора слов
подход, рассматривая зависимость слов в векторе центроида.
Были проведены эксперименты для оценки различных моделей зависимости.
Результаты набора тестов TREC 2003 показывают, что метод переранжирования с
двухтермная языковая модель значительно превосходит модель с мешком слов
модель и модель языка униграмм на 14.9% и 12,5% соответственно в
F-мера (5).
 16C: Грамматика III 
 Председатель сессии: Джеральд Пенн                                                     
грамматики
 Даниэль Файнштейн и Шули Винтнер
 Унифицирующие грамматики
широко используются в качестве выразительного средства для описания структуры
естественные языки. В общем случае проблема распознавания неразрешима для
унифицированные грамматики. Даже с ограниченными вариантами формализма, офлайн
анализируемые грамматики, проблема является вычислительно сложной. Мы представляем два натуральных
ограничения на унифицирующие грамматики, ограничивающие их выразительность. Мы первые
показать, что нереентерабельные унифицирующие грамматики порождают в точности класс
контекстно-свободные языки. Затем мы ослабляем ограничение и показываем, что
однореентерабельные унифицирующие грамматики порождают в точности класс смежных с деревом
языки. Таким образом, мы соотносим общеупотребительные и лингвистически мотивированные
формализм грамматик унификации к более ограниченным, вычислительно податливым
классы языков.
 Полиномиальный алгоритм разбора
топологическая модель, синхронизирующая грамматики составляющих и зависимостей,
Проиллюстрировано German Word Order Phenomena
 Kim Gerdes and Sylvain Kahane
 В этом документе описывается синтаксический анализ на основе минимальной топологии.
алгоритм для топологических грамматик, который синхронизирует грамматику перезаписи и
грамматика зависимости, получение двух лингвистически мотивированных синтаксических
структуры. Использование нелокальной косой черты и функций посетителей может быть ограничено.
для получения анализа типа CKY за полиномиальное время. немецкое междугороднее
явления иллюстрируют алгоритм, выдвигая на первый план процессуальные потребности
анализа несоответствий синтаксиса и топологии в подходах, основанных на ограничениях
как, например, HPSG.
 16D: Поколение II 
 Председатель сессии: Дония Скотт                                                                                                    
WIDL-выражения и их применение в машинном переводе и обобщении
 Раду Сорикут и Даниэль Марку
 Мы предлагаем WIDL-выражения как гибкий формализм, который
облегчает интеграцию системы реализации общего предложения в
приложения для сквозной обработки языка. WIDL-выражения представляют
компактные распределения вероятностей по конечным наборам реализаций-кандидатов,
и иметь оптимальные алгоритмы реализации через интерполяцию с языком
модель распределения вероятностей. Мы показываем эффективность NLG на основе WIDL
система в двух задачах реализации предложения: автоматический перевод и заголовок
поколение.
 Учимся красиво говорить: переоценка
Реализации по прогнозируемому качеству синтеза
 Кристал Накацу и Майкл Уайт
 способ адаптации языкового генератора к сильным и слабым сторонам
синтетический голос, тем самым улучшая естественность синтетической речи в
диалоговая система разговорного языка. Метод обучает дискриминационный реранкер
выберите парафразы, которые, по прогнозам, будут звучать естественно при синтезе.
Ranker обучается функциям реализации и синтезатора под наблюдением,
использование человеческих суждений о качестве синтетического голоса на примере перефразирования
представитель возможностей генератора. Результаты перекрестной проверки
исследования показывают, что дискриминационная переоценка перефразирования может достичь существенного
улучшения естественности в среднем, улучшая проблему сильно
переменное качество синтеза, обычно встречающееся при сегодняшнем выборе устройства
синтезаторы.
 DT 30088 – Блог кроссвордов Большого Дейва 
 Daily Telegraph Cryptic No 30088 
 Советы и подсказки Senf 
 + – + – + – + – + – + – + – +
 Рейтинг BD – Сложность ***/ **** – Enjoyment ***/****
 Доброе утро из Виннипега, где мы также оплакиваем кончину Ее Величества королевы как королевы Канады за ее 70 лет и 7 месяцев на троне, что на самом деле означает, что наша шестым монархом она служила более 70 из 155 лет существования Канады.
 Сильванус на прошлой неделе, Зандио две недели назад, значит, сегодняшнее задание от proXimal? X отсутствует, как и две другие буквы, так что это не панграмма без X, что приводит меня к выводу, что это произведение Zandio с как минимум двумя подсказками, которые могут получить негативные комментарии с некоторых сторон.
 Кандидаты в фавориты – 1а, 10а, 1д, 7д, 16д и 23д.
 В приведенных ниже подсказках определения подчеркнуты. Ответы скрыты под кнопкой Нажмите здесь! кнопки, поэтому не нажимайте, если не хотите их видеть.
 Пожалуйста, оставьте комментарий, что вы думаете.
  Через 
 1a Вырезать туры в  звукозаписывающую компанию  (6) 
 MOTOWN: Отглагольный синоним причастия прошедшего времени отрезать (применительно к чьей-то лужайке) «окружает» (тур) ДО от подсказки.
 4a  Необычный   (8) 
 НЕТИПИЧНЫЙ: Анаграмма («Что идет не так») комбинации (включающей) римской цифры «один», ДЕЙСТВИЕ и ИГРАТЬ.
 9a  Лихой , чтобы немного поцеловаться в Королевском Альберт-Холле (6) 
 РАКИШ: Синоним поцелуя с удаленной последней буквой (бриф), вставленный в сокращенную форму Королевского Альберт-Холла.
 10a  Линии  в речной ловле моллюсков? Наоборот (8) 
 МОРЩИНЫ: Не речные моллюски, а (наоборот) тип моллюсков во множественном числе, содержащий (ловить) одну букву для Реки.
 12a  Отсутствующая одежда   явно несоответствующая  (8) 
 UNSUITED: двойное определение — первое может относиться к «верхнему» слою одежды.
 13a  Домашнее животное   бабочка  ? (6) 
 ИНСУЛЬТ: Двойное определение – второе – это не насекомое, а атлетизм в бассейне.
 15a Признайте, что ледник может быть преобразован  этим окунем  (7,6) 
 ЦИФРОВАЯ КАМЕРА: анаграмма (может быть преобразована) ДОПУСТИМ ЛЕДНИК.
 18а  Сад  , отмена набора? (13) 
 РАЗОЧАРОВАНИЕ: Написано как (3-10) термин, который эквивалентен отмене набора?
 20a  Призыв к  собаке, чтобы следовать указаниям (6) 
 ENTAIL: синоним собаки (как в дальнейшем), помещенный после (следовать) основным направлениям компаса –  У меня были некоторые проблемы с обоснованием ответа определением, но я в конце концов нашел его в онлайн-тезаурусе .
 22a  Животное  шкура дорогая, мы слышим (8) 
 Северный олень: Омофоны (мы слышим) как синонима шкуры (когда ассоциируется с осадками), так и синонима дорого.
 24a Миссис Перон отремонтировала симпатичный ретрит   (8) 
 ЭВАКУАТИРОВАТЬ: Имя миссис Перон и небольшая анаграмма (отремонтированная) МИЛОГО.
 25a  Выставка оружия  ? (6) 
 ТАТУИРОВКА: военная демонстрация или, возможно, как показано на рисунке.
 26a Торнадо бушует вокруг Франции,  сначала в одну сторону, потом в другую  (2,3,3) 
 ТУДА И ОБЯЗАТЕЛЬНО: Анаграмма (бушующая) ТОРНАДО, содержащая (круглую) букву IVR для Франции.
 27а  Избегает  сатиры о республиканце (6) 
 ЮБКИ: Синоним сатиры, содержащей (о) одну букву для республиканца.
  Вниз 
 1d  Тихо, скажем  , повышенное питье дважды (6) 
 ШУМУР: Алкогольный напиток повторяется и переворачивается (возвышается... дважды).
 2d С поступлениями банки  проявляют фаворитизм  (4,5) 
 ПРИНИМАЮТ СТОРОНЫ: Синоним поступлений (как в доходах от продажи?) и синоним банков.
 3d  Необходимо дезинфицировать  уханьских свиней, предположительно (7-2,6) 
 ЖИДКОСТЬ ДЛЯ МЫТЬЯ ДЛЯ МЫТЬЯ: Что ж, благослови мою душу, новый веб-сайт Puzzles доказал, что он действительно полезен! На старом веб-сайте Puzzles, который дает более качественную распечатку, было перечисление (10,6), что невозможно, но новый сайт имеет правильное перечисление, как показано выше. 
 По-моему, это обратная анаграмма, раньше мне не приходилось намекать на нее. Ответ - материал анаграммы (7-2) и индикатор анаграммы (6), который даст вам (предположительно) WUHAN PIGS. Вы только посмотрите на иллюстрацию!
 5d  Заклинание  фокус для «Вдохновитель» (4) 
 ТЕРМИН: Четыре буквы в центре (фокусе) Гений.
 6d  Маленькая черточка, возможно,  , которая могла бы придать пикантность человеку, поедающему рыбу (11,4) 
 ЗНАК ПУНКТУАЦИИ: Общий термин (возможно) для маленькой черточки, которая при добавлении между «человек» и «есть» могла, как говорит BRB, «добавьте интересное качество» (придайте остроты/оживления) фразе в конце подсказки, чтобы она изменилась с человека, который ест рыбу на обед, скажем, на, о, я не знаете, большая белая акула?
 7d После тюрьмы Оскар будет  частью оркестра  (5) 
 ВИОЛОНЧОНКА: Буква, представленная Оскаром в фонетическом алфавите, ставится после тюрьмы для одного.
 8d  Рискни здесь  — ломтик колбасы против рулета с салями (3,5) 
 ЛАС-ВЕГАС: перевернутый люркер (кусок. .. рулета), найденный в остальной части подсказки.
 11d Парни без сексуальной привлекательности превращаются в  интимные  (7) 
 УПОМИНАНИЕ: все зависит от произношения определения – синоним парней, за которым следует (с) НЕТ из подсказки, и две буквы, обозначающие сексуальную привлекательность, перевернуты ( превращение).
 14d  Украсть альбом , чтобы найти статьи на французском и немецком языках (7) 
 ГРАБЛЕНИЕ: две буквы винилового альбома, перевернутые (для поиска), за которыми следует французский неопределенный артикль и немецкий определенный артикль.
 16d  Один смешивает ингредиенты  , например, меньше, чем потребитель в Великобритании (3,6) и синоним потребителя (продуктов питания).
 17d Пришедшая из-за границы, ее восторженная  последователь  (8) 
 ПРИВЕРЖЕННЫЙ: Скрытня (пришедшая из), найденная в трех словах в подсказке.
 19d  Марши  на улице, чтобы поддержать нуждающихся (6) 
 ВОЙСКА: Разворот (поднятие) всех двухбуквенных сокращений улицы, содержащих (поддерживать) синоним нуждающихся.