Разбор слова настольный по составу: Страница не найдена

Содержание

Как разобрать по составу слово «настольный»? — 4 info

Сотрудник офиса взглянул на настольный

календарь, и удивился, что на дворе уже был

месяц октябрь…

— на — приставка;

— столь— корень слова «настольный»;

— н — суффикс слова «настольный»;

—ый— окончание; настольн — основа.

Вот так выглядит разбор слова «настольный» на бумаге.

Так как это прилагательное, то должно быть окончание. Изменим слово по родам и числам.

я настольный,

она настольная,

оно настольное,

они настольные.

Все что в словах поменялось будет окончанием. В нашем случае это -ый-. Все слово без окончания будет его основой. А именно -настольн-.

Теперь корень слова -столь-. Однокоренное слово «стол» не оставляет никаких сомнений в своей правильности. Можно еще парочку подобрать для убедительности: столешница, застолье, столовый, престол, стольник. Ну а «ь» идет вдобавок к корню. Остались приставка -на- и суффикс -н-.

Подбирая однокоренные слова к слову «настольный», например, «столовая», «столик», вычленяем корень «стол» (в данном случае — «столь»). Соответственно, «на» — приставка, «н» — суффикс, «ый» — окончание. Таким образом, слово «настольный» имеет все части.

Слово «настольный» есть прилагательное мужского рода, единственного числа и отвечает на вопрос: какой?

Вначале определим окончание — «ый» (настольная, настольное, настольные)

Основой послужит — «настольн»

Обозначим корень — «столь» (стол, столик, столешница)

Имеем приставку — «на» ( как напольный, надомный)

Суффикс — «н»

Графический разбор — на/столь/н/ый — приставка/корень/суффикс/окончание

Школьники всей гурьбой пошли играть в настольный теннис.

Слово настольный является прилагательным мужского рода, в единственном числе, в именительном/винительном падежах.

Сделаем разбор по составу слова Настольный;

Корень слова -столь- (однокоренные слова: столовый, стол и тд)

Изменим слово по родам (настольнАЯ, настольнОЕ) или же просклоняем его по падежам (настольнОГО, к настольнОМУ и тд) и определим, что в этом слове окончанием является -ый-.

Выделим оставшиеся морфемы слова:

приставка -на-
суффикс слова -н-

Основой слова является -настольн-.

Данное слово настольный как часть речи является прилагательным.

Окончание данного слова — ЫЙ —

Значит основа будет — НАСТОЛЬН-

Префикс здесь — НА —

Корень — СТОЛЬ —

Суффикс — Н —

Способ образования — ПРИСТАВОЧНО-СУФФИКСАЛЬНЫЙ.

Слово » настольный » содержит следующие морфемы или части:

Приставка — » -на- » .

Корень — » -стол- «.

Суффикс — » -н- » .

Окончание — » -ый- » .

И последнее, о чем нужно помнить, основа — » настол_н «.

Слово «настольный» является прилагательным традиционным, где стол — корень слова, на — приставка, ьн — является в данном случае суффиксом прилагательного. ый -окончание в именительногом падеже единственного числа

Прилагательное «настольный» можно разобрать очень просто: у этого слова корень — столь, приставка у слова «настольный» — на, н — это суффикс, остатся определить окончание это — ый. Основа слова «настольный» — настольн.

100 ballov.kz образовательный портал для подготовки к ЕНТ и КТА

Код и классификация направлений подготовки	Код группы образовательной программы	Наименование групп образовательных программ	Количество мест
8D01 Педагогические науки
8D011 Педагогика и психология	D001	Педагогика и психология	45
8D012 Педагогика дошкольного воспитания и обучения	D002	Дошкольное обучение и воспитание	5
8D013 Подготовка педагогов без предметной специализации	D003	Подготовка педагогов без предметной специализации	22
8D014 Подготовка педагогов с предметной специализацией общего развития	D005	Подготовка педагогов физической культуры	7
8D015 Подготовка педагогов по естественнонаучным предметам	D010	Подготовка педагогов математики	30
	D011	Подготовка педагогов физики (казахский, русский, английский языки)	23
	D012	Подготовка педагогов информатики (казахский, русский, английский языки)	35
	D013	Подготовка педагогов химии (казахский, русский, английский языки)	22
	D014	Подготовка педагогов биологии (казахский, русский, английский языки)	18
	D015	Подготовка педагогов географии	18
8D016 Подготовка педагогов по гуманитарным предметам	D016	Подготовка педагогов истории	17
8D017 Подготовка педагогов по языкам и литературе	D017	Подготовка педагогов казахского языка и литературы	37
	D018	Подготовка педагогов русского языка и литературы	24
	D019	Подготовка педагогов иностранного языка	37
8D018 Подготовка специалистов по социальной педагогике и самопознанию	D020	Подготовка кадров по социальной педагогике и самопознанию	10
8D019 Cпециальная педагогика	D021	Cпециальная педагогика	20
		Всего	370
8D02 Искусство и гуманитарные науки
8D022 Гуманитарные науки	D050	Философия и этика	20
	D051	Религия и теология	11
	D052	Исламоведение	6
	D053	История и археология	33
	D054	Тюркология	7
	D055	Востоковедение	10
8D023 Языки и литература	D056	Переводческое дело, синхронный перевод	16
	D057	Лингвистика	15
	D058	Литература	26
	D059	Иностранная филология	19
	D060	Филология	42
		Всего	205
8D03 Социальные науки, журналистика и информация
8D031 Социальные науки	D061	Социология	20
	D062	Культурология	12
	D063	Политология и конфликтология	25
	D064	Международные отношения	13
	D065	Регионоведение	16
	D066	Психология	17
8D032 Журналистика и информация	D067	Журналистика и репортерское дело	12
8D032 Журналистика и информация	D069	Библиотечное дело, обработка информации и архивное дело	3
		Всего	118
8D04 Бизнес, управление и право
8D041 Бизнес и управление	D070	Экономика	39
	D071	Государственное и местное управление	28
	D072	Менеджмент и управление	12
	D073	Аудит и налогообложение	8
	D074	Финансы, банковское и страховое дело	21
	D075	Маркетинг и реклама	7
8D042 Право	D078	Право	30
		Всего	145
8D05 Естественные науки, математика и статистика
8D051 Биологические и смежные науки	D080	Биология	40
	D081	Генетика	4
	D082	Биотехнология	19
	D083	Геоботаника	10
8D052 Окружающая среда	D084	География	10
	D085	Гидрология	8
	D086	Метеорология	5
	D087	Технология охраны окружающей среды	15
	D088	Гидрогеология и инженерная геология	7
8D053 Физические и химические науки	D089	Химия	50
8D053 Физические и химические науки	D090	Физика	70
8D054 Математика и статистика	D092	Математика и статистика	50
8D054 Математика и статистика	D093	Механика	4
		Всего	292
8D06 Информационно-коммуникационные технологии
8D061 Информационно-коммуникационные технологии	D094	Информационные технологии	80
8D062 Телекоммуникации	D096	Коммуникации и коммуникационные технологии	14
8D063 Информационная безопасность	D095	Информационная безопасность	26
		Всего	120
8D07 Инженерные, обрабатывающие и строительные отрасли
8D071 Инженерия и инженерное дело	D097	Химическая инженерия и процессы	46
	D098	Теплоэнергетика	22
	D099	Энергетика и электротехника	28
	D100	Автоматизация и управление	32
	D101	Материаловедение и технология новых материалов	10
	D102	Робототехника и мехатроника	13
	D103	Механика и металлообработка	35
	D104	Транспорт, транспортная техника и технологии	18
	D105	Авиационная техника и технологии	3
	D107	Космическая инженерия	6
	D108	Наноматериалы и нанотехнологии	21
	D109	Нефтяная и рудная геофизика	6
8D072 Производственные и обрабатывающие отрасли	D111	Производство продуктов питания	20
	D114	Текстиль: одежда, обувь и кожаные изделия	9
	D115	Нефтяная инженерия	15
	D116	Горная инженерия	19
	D117	Металлургическая инженерия	20
	D119	Технология фармацевтического производства	13
	D121	Геология	24
8D073 Архитектура и строительство	D122	Архитектура	15
	D123	Геодезия	16
	D124	Строительство	12
	D125	Производство строительных материалов, изделий и конструкций	13
	D128	Землеустройство	14
8D074 Водное хозяйство	D129	Гидротехническое строительство	5
8D075 Стандартизация, сертификация и метрология (по отраслям)	D130	Стандартизация, сертификация и метрология (по отраслям)	11
		Всего	446
8D08 Сельское хозяйство и биоресурсы
8D081 Агрономия	D131	Растениеводство	22
8D082 Животноводство	D132	Животноводство	12
8D083 Лесное хозяйство	D133	Лесное хозяйство	6
8D084 Рыбное хозяйство	D134	Рыбное хозяйство	4
8D087 Агроинженерия	D135	Энергообеспечение сельского хозяйства	5
8D087 Агроинженерия	D136	Автотранспортные средства	3
8D086 Водные ресурсы и водопользование	D137	Водные ресурсы и водопользования	11
		Всего	63
8D09 Ветеринария
8D091 Ветеринария	D138	Ветеринария	21
		Всего	21
8D11 Услуги
8D111 Сфера обслуживания	D143	Туризм	11
8D112 Гигиена и охрана труда на производстве	D146	Санитарно-профилактические мероприятия	5
8D113 Транспортные услуги	D147	Транспортные услуги	5
8D113 Транспортные услуги	D148	Логистика (по отраслям)	4
8D114 Социальное обеспечение	D142	Социальная работа	10
		Всего	35
		Итого	1815
		АОО «Назарбаев Университет»	65
		Стипендиальная программа на обучение иностранных граждан, в том числе лиц казахской национальности, не являющихся гражданами Республики Казахстан	10
		Всего	1890

В русском языке есть только приставка С

Автомобили
Астрономия
Биология
География
Дом и сад
Другие языки
Другое
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Металлургия
Механика
Образование
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Туризм
Физика
Философия
Финансы
Химия
Черчение
Экология
Экономика
Электроника

⇐ ПредыдущаяСтр 7 из 9Следующая ⇒

Например: сделать, сбежать, спилить, съесть, списать, слетать.

Приставки З- не бывает ! Запомни слова, ГДЕ буква З является частью корня: здесь, здание, здоровье, зги, здравствуй.

2. Составь и запиши новые слова, добавляя приставку с-: …делать, …бегать, …ездить, …дуть, …бить, …мотать, …крыть, …лететь, …ехать.

Части слова

Приставка Корень Суффикс Окончание
Что это? — это часть слова, стоит перед корнем. — это главная часть слова. — это часть слова, стоит после корня. — это изменяемая часть слова.
Для чего служит? Приставка служит для образования новых слов. Прилетел, пролетел, вылетел. В корне заключен общий смысл всех однокоренных слов. Мороз, морозный. Суффикс служит для образования новых слов. Сын — сынок, лиса-лисёнок. Окончание служит для связи слов в предложении. Хорошо мед-ведю зимой в берлоге.
Основа -это часть слова без окончания. В основе слова заключено значение данного слова. Осина, осинка, осинник, осиновый, подосиновик .
Разбор слова по составу

Чтобы разобрать слово по составу, надо выделить части, из которых оно состоит.Разберем слово настольный.

1. Найдем и выделим окончание и основу. Для этого изменим форму слова: настольный — (нет) настольного — (любуюсь) настольным — (думаю о) настольном. Окончание — ый , основа настольн-

2. Выделим корень. Для этого подберем к слову однокоренные слова: стол, столик, столовая. Общая часть родственных слов – стол -. Это корень слова.

3. Выделим суффикс (если он в слове есть) и докажем, что такой же суффикс есть и в других словах. Часть слова между корнем и окончанием -н- . Это и есть суффикс. Такой же суффикс есть в словах школьный, классный, летний.

4. Выделим приставку (если она в слове есть) и докажем, что такая же приставка есть и в других словах. Часть слова перед корнем на — . Это и есть приставка. Такая же приставка есть и в других словах: наручный, настенный, напольный.

Образец полного письменного разбора слова по составу:

1) приозерный (приозерного , приозерному , приозерным )

2) приозерный (озеро, озерцо, озерный)

3) приозерный (лесной, дорожный, речной)

4) приозерный (пришкольный, приморский, привокзальный)

5) приозерный .

Помни: ! бывают слова с нулевым окончанием (вечер , медведь )

! есть слова, которые не имеют окончания – это неизменяемые слова (пальто, кино, кафе, метро, пианино, эскимо, пони, шоссе, меню, радио, желе, кофе, кенгуру, какао, такси).

Сделай полный письменный разбор по составу.

ИЗБУШКА, СОННЫЙ, ПРИШКОЛЬНЫЙ, ОХОТНИКИ.

Слова для разбора по составу

( однокоренные имена существительные, имена прилагательные, глаголы)

Обозначьте части слова

Алый , аленький , алеет ;

аппетит , аппетитный ;

белый , беленький , белеет , побелел ;

берег , бережок , левобережный , побережье ;

береза , березка , березонька ;

брат , братик , братец , братишка , братский , собрат ;

билет , билетик , безбилетный ;

вагон , вагонный , вагончик ;

ванна , ванночка ;

вода , водолаз , водопад ;

год , годик , годок ;

голова , головка , головушка ;

голос , отголосок , голосует ;

дед , дедушка , прадедушка ;

дорога , дорожка , дороженька , подорожник ;

друг , дружок , дружище , подруга , дружный , дружил ;

ель , елка , ельник , еловый ;

журавль , журавлик , журавленок , журавлиный , журавушка ;

звезда , звездочка , звездный , беззвездный , звездопад ;

изба , избушка , избища ;

класс , классный , одноклассник ;

лед , ледок , льдина , наледь , гололед , заледенел ;

мороз , морозец , морозный , безморозный , морозит ;

орел , орлица , орленок , орлиный ;

пар , парной , парник , паровоз , паровозик ;

пух , пушок , пушинка , пуховой , пушистый , распушился ;

сад , садик , садовник , посадки , садовый , садовод , посадит ;

снег , снежок , снежинка , снежный , бесснежный , подснежник , снегопад ;

сторож , сторожиха , сторожка , сторожевой , сторожит ;

сын , сынок , сынишка , пасынок ;

терраса , терраска , террасный ;

ум , умишко , умный , умник , умница , безумный , безумец , разум ; поумнел , разумный , умненький ;

хлеб , хлебец , хлебушек , хлебный нахлебник , хлеборез ;

цвет , цветок , цветочный , цветет , цветник ;

час , часик , часок , часовой , почасовой ;

язык , язычок , языковой .

Имя существительное

— это самостоятельная часть речи

— обозначает название предмета

— отвечает на вопросы кто? что?

Постоянные признаки имени существительного:

одушевленные неодушевленные Кто? девочка, люди, человек, корова, козленок, конь, Что? парта, стол, книга, лимон, гроза, молния, стул
собственные нарицательные Москва, Волга, Мария, Каштанка, Алексей Петрович, ученик, учебник, страна, лес, река, стрела, город
мужской род женский род средний род Он (мой) — журнал, пенал, автомобиль, космос, учебник Она (моя) — передача, трава, книга, тарелка, музыка Оно (мое) — солнце, перо, облако, ведро, дерево, окно !Род неизменяемых имен существительных надо запоминать. Пальто, радио, шоссе, кино, метро, пианино, какао, эскимо, желе, меню — среднего рода. Пони, какаду, шимпанзе, фламинго, кенгуру, кофе – муж. р.
1 склонение 2 склонение 3 склонение Им. сущ. мужского и женского рода с окончаниями —а, -я в начальной форме (в им. п. ед. ч): сосн а , Ван я . Им. сущ. муж. р. с нулевым окончанием и им. сущ. среднего рода с окончаниями -о, -е: конь, озер о . Им. сущ. женского рода, имеющие в начальной форме нулевое окончаниеи ьна конце: ночь, кость, рожь.
Непостоянные признаки имени существительного: Изменяется по числам Единственное число: месяц, договор, торт, лес Множественное число: месяцы, договоры, торты, леса !Имеют форму только ед.ч.: молоко, сметана, дружба. !Имеют форму только мн.ч.: чернила, каникулы, именины, очки, брюки, сани, ворота, ножницы, очистки.
Изменяется по падежам
Падеж Вспомога-тельное сл. Падежный вопрос Смысловой вопрос предлоги
И.п. есть кто? что?
Р.п. нет кого?чего? откуда? куда? где? без,у,от,до,с, из,около, возле,через
Д.п. рад кому? чему? куда? где? к,по
В.п. вижу кого? что? куда? где? на, за, под, в,через,про
Т.п. любуюсь кем? чем? куда? где? над,за, под, перед, с, между
П.п. говорю о ком? о чем? где? в, о, об, на, при
В предложении имя существительное является чаще всего подлежащим или дополнением: Птичкисолнышка ждут, птичкипесни поют… (И. Никитин.)

Правописание безударных окончаний

имен существительных

Безударные гласные в окончаниях имен существительных обозначаются той же буквой, что и ударные гласные в словах этого склонения.

Безударные окончания имен существительных 1-го склонения можно проверить по ударным окончаниям словвесна, земля.

Падеж Опорное слово Другое слово Окончание
Родительный Дательный Творительный Предложный с земл и, весны к земл е, весне земл ей, весной о земл е, о весне с деревн и к деревн е деревн ей о деревн е -и, -ы -е -ей, -ей, -ой -е
Для существительных 2-го склонения опорными словами будут слон, колесо.

Падеж Опорное слово Другое слово Окончание
Родительный Дательный Творительный Предложный у слона, без колеса к слону, колесу слоном, колесом о слоне, о колесе с поля к полю полем о поле -а , -я -у, -ю -ом, -ем -е

Для существительных 3-го склонения опорное слово не особенно-то и нужно. Смотрите сами:

Падеж Слова Окончание
Родительный Дательный Предложный Нет (чего?) ржи, осени, тетради Рад (чему?) ржи, осени, тетради Говорю (о чем?) О ржи, об осени, о тетради -и -и -и

В родительном, дательном и предложном падежах существительные 3-го склонения будут иметь окончание -и. Это надо твердо запомнить.

Во множественном числе у существительных 1-го, 2-го и 3-го склонения окончания совпадают.

Безударные окончания имен существительных множественного числа можно проверить ударным окончанием слова стол или по таблице.

Именительный падеж -и, -ы, -а

Родительный падеж , -ов, -ев, ей

Дательный падеж -ам, -ям

Винительный падеж -и, -ы

Творительный падеж -ами, -ями

Предложный падеж -ах, -ях

Учимся писать окончания имён существительных

1. Допиши окончания имён существительных.

на ветк_ осин_, беседа о музык_, в тетрадк_ по математик_, в клетк_ с черепах__, на ветк_ бере з_, в чашк_ с ряженк__, по дорог_ к бабушк_, над ошибк__ в работ_, с мам__ в комнат_, о неудач_ в игр_, к дедушк_ в деревн_, на тропинк_ в рощ_, дотянуться до полк_, уступить девочк_.

2. Подчеркни имена существительные с окончанием –и. Обозначь склонение этих существительных.

Букет сирен_, много сол_, рассказ о жизн_, лежит в сумк_, работа в тетрад_, книга об Африк_, ошибка в диктант_, варенье из вишн_, мечта о мор_, заметка о книг_, стоит на площад_, побывать в Сибир_.

3. Выпиши в тетрадь только те слова, в которых рпопущено окончание –е.

О бесед_, про гост_, на ветк_, о мыш_, о мышк_, за речк__, из вишн_, в тетрад_, в комнат_, к цел_, от молодёж_, из избушк_, в неб_, о плащ_, от радост_, после болезн_, в огн_, из картофел_, от мам_, к дедушк_, от дедушк_, к ел_, к ёлк_, вдоль речк_, из речк_, на речк_, в жизн_, в фильм_, от ветк_, к ветк_, на кроват_, на кроватк_, на лошад_, на лошадк_, по одёжк_, о лошад_, у дочк_, о дочк_, к дочер_, о мам_, о матер_, к кочк_.

Гласные в окончаниях имён существительных после шипящих и Ц.

Под ударением после шипящих и буквы Ц звук [о] обозначается буквой О. В безударной позиции в этих же окончаниях пишется буква Е.

1.Поставь ударение в словах. Вставь пропущенные буквы.

Ключ_м, свеч_й, туч_й, дач_й, чертеж_м, карандаш_м, ландыш_м, мяч_м, плащ_м, месяц_м, нож_м, овц_й, рощ_й, круч_й, шприц_м, врач_м, учениц_й, улиц_й, задач_й, куриц_й, лапш_й, крыш_й, конц_м, зайц_м, ш_рстка, жуч_к.

2. Выдели часть слова, в которой пропущена буква. Вставь букву.

Зайч_нок, знач_к, ключ_м, ч_рный, ш_лковый, ш_рох, ш_пот, огурц_м, птиц_й.

Окончания имён существительных на –ий, -ия, -ие

У слов на –ий, -ие (гербарий, здание) в предложном падеже, у слов на –ия в дательном и предложном падежах пишется окончание –и.

О здании, об окончании, к линии, о линии.

1. Запиши данные слова в форме предложного падежа.

Армия, фамилия, профессия, движение, занятие, собрание, санаторий, планетарий, экскурсия, путешествие, астрономия.

2. Запиши , дописывая окончания.

По алле_, в Япони_, о зме_, в Америк_, на собрани_, о геро_, о внимани_, в чащ_, о шве_, о здоровь_, о трамва_, в музе_, о фамили_, на лин_, по лини_.

Форму родительного падежа множественного числа некоторых имён существительных надо запомнить.

Нет (чего?) апельсинов, помидоров, бананов, метров, носков, килограммов, но

нет (чего?) яблок, мест, стёкол.

Имя прилагательное

— это самостоятельная часть речи

— обозначает признак предмета

— отвечает на вопросы какой? какая? какое? какие?

Имя прилагательное согласуется с существительным в числе, роде и падеже. Прилагательное изменяется по родам:

Существительное Прилагательное Род
мальчик пес бант умный смешной синий мужской
девочка лента умная синяя женский
дитя небо умное синее средний
Имя прилагательное изменяется по числам:

Единственное число Множественное число
быстрый шаг быстрая река быстрое движение быстрые шаги быстрые реки быстрые движения
Склонение имен прилагательных мужского рода
Поиск по сайту:

Урока русского языка «Разбор слова по составу»

Приложение 2

ЗАЯВКА

участника конкурса для учителей начальных классов

«Новое качество урока. Работаем по ФГОС»

Приложение 3

Форма технологической карты урока

Анисимова Ольга Борисовна

ФИО участника

Невский район, ГБОУ СОШ№20

Район, название ОУ (кратко)

Начальная школа XXI века

Используемый УМК (учебно-методический комплекс)

русский язык

Учебный предмет

Класс

«Лучший урок русского языка»

Номинация, подноминация

Тип: урок отработки умений и рефлексии

Цель урока: отработать алгоритм разбора слова по составу

Планируемые результаты

Предметные: разбирать слово по составу, определять способ словообразования, составление слова из заданных морфем

Метапредметные: составлять план работы над упражнением, работать по алгоритму, осуществлять самопроверку результата учебных действий

Личностные: интерес к происхождению слов

Ресурсы урока: интерактивная доска, анимированные изображения в PowerPoint, ЭФУ, учебник

Ход урока:

Содержание деятельности учителя

Содержание деятельности обучающихся

Мотивация к деятельности

На экране изображения: ягода и конфета (подписи под изображениями «ягода», «конфета») под изображениями суффиксы

-К-, -ИЩ-

Задает вопрос классу: «Какой суффикс надо выбрать, чтобы уменьшить изображение?… А для того чтобы увеличить?»

— Как с помощью суффикса изменялось значение слов?

— Зачем нужны суффиксы? (Помогает сформулировать ответ)

Уточняет название темы урока: «Состав слова и словообразование»

Дети отвечают, что суффикс –к- уменьшит предмет, а суффикс –ищ- — увеличит.

Подходят к интерактивной доске и выбирают суффикс.

Если выбран суффикс -к- на экране появляется уменьшенное изображение и запись: например: «ягодка», затем «конфетка»

Для того, чтобы увеличить изображение нужно выбрать суффикс –ищ-, тогда появится увеличенное изображение и запись «ягодища», затем «конфетища».

— Суффиксы –к- и –ищ- изменяли значения слов: большой предмет или маленький предмет. Суффиксы нужны для образования новых слов

Приводят примеры: рыбка дорожка, волчище, медведище

Предлагают варианты темы урока. Формулируют цели урока: повторить как разбирать слово по составу, узнать о том, как образуются новые слова

Актуализация необходимых знаний

Организует письменную работу детей, при необходимости напоминает о правильности посадки при письме, о правильном оформлении числа, записи «Классная работа».
Вызывает к доске трех сильных учеников, для написания однокоренных слов на доске.

— Приведите примеры других слов с использованными суффиксами

Предлагает разобрать слово загородный по составу. Для этого нужно вспомнить алгоритм разбора слова, изученного на уроке 8.

Вызывает к доске сильного ученика, помогает ему сформулировать алгоритм разбора слова.

Записывает на доске схематичный порядок разбора слова по составу.

На дороге суффикс –ищ-

Там за деревом волчище

На тропинке суффикс –к-

В норке спряталась лисичка

На ладошку мне упал суффикс –инк-

А с ним дождинка

Пролетает суффикс –ок-

Это легкий ветерок.

Подобрать слово с заданным корнем, подходящее по значению
Записать в тетрадь
Выделить корень и суффикс

Один из сильных учеников разбирает слово загородный у доски, комментируя свои действия.

Находим окончание, изменяя форму слова, с помощью вспомогательных слов: нет загородного, любуюсь загородным, выделяем основу слова – часть слова без окончания
Находим корень слова, подбирая однокоренные слова город, городок. Выделяем корень.
Выделяем суффикс – часть слова между корнем и окончанием, приводим примеры слов с таким же суффиксом
Выделяем приставку, приводим примеры слов с такой же приставкой.

Шагают, при слове суффикс, ладошки домиком над головой

Повторяют движения за учителем

Организация познавательной деятельности

Предлагает самостоятельно разобрать по составу слова березка и стирка, пользуясь алгоритмом написанным на доске.
Организует фронтальную проверку
Задает вопрос о значении суффикса –к- в слове берзка, называя слова с таким же суффиксом – конфетка, ямка, кроватка.

Спрашивает о значении суффикса –к- в слове стирка, называя слова с этим суффиксом: варка, глажка, засолка. Поясняет, что в этих словах значение суффикса не уменьшительное, а произведенное действие.

Предлагает детям проверить как Вова справился с заданием, найти ошибки в его работе. Придумать и записать по два своих примера. Упражнение 4 на с.30.

Проводит фронтальную проверку, придуманных примеров.

Задание выделить синим цветом слова с приставками.

Нажимает на кнопку «Проверить». Если верно, появляется надпись «Молодец», если есть ошибки, предлагает их найти.

Задает домашнее задание: записать в тетрадь и разобрать по составу слова: настольный, пальто, начало, старушка, ручка, строитель, кенгуру. Слова напечатаны на листочках.

Отвечают, что в слове «березка», суффикс –к- имеет значение «маленький», а в слове стирка, суффикс –к- имеет другое значение

Находят ошибки в работе Вовы, устно, фронтальная работа.
Придумывают и записывают свои примеры. Желающие пишут на доске. Остальные по очереди читают свои примеры слов.

Выходят к доске по цепочке, выделяя синим цветом, слова с приставками.

Рефлексия деятельности

-Чему сегодня научились?

-Что было интересным на уроке?

Предлагает оценить свою работу на уроке:

С помощью цветного кружка.

«зеленый» — не возникло затруднений

«желтый» — возникли трудности

«красный» — было трудно и непонятно

Отвечают на вопросы.

Поднимают цветные кружки.

Приложение 4

Форма экспертного заключения

(первый этап Конкурса)

_____________________________________________________________________________

ФИО участника

_____________________________________________________________________________номинация, подноминация

Баллы:

0 – отсутствие данного критерия

1 – частичное наличие данного критерия

2 – наличие данного критерия

Баллы выставляются по каждому критерию

Член жюри:______________________/____________________________/ Дата ___________

Приложение 5

Форма экспертного заключения

по итогам проведения мастер-класса

_____________________________________________________________________________

ФИО участника

_____________________________________________________________________________номинация, подноминация

Баллы:

0 – отсутствие данного критерия

1 – частичное наличие данного критерия

2 – наличие данного критерия

Баллы выставляются по каждому критерию

Член жюри:______________________/____________________________/ Дата ___________

Конспект урока для 5 класса «Состав слова и словообразование»

Тема урока: «Состав слова и словообразование» 5 класс

Урок: Морфемика. Словообразование. Морфемный и словообразовательный разбор слова

1. Морфемика – это раздел языкознания, в котором изучается система морфем языка и морфемная структура слов.

Морфема – это минимальная значимая часть слова.

Морфемы: корень, суффикс, приставка, окончание.

Рис. 1. Морфемы.

2.Корень – это обязательная часть слова.

Только из корня состоят служебные слова (но, для, если), междометия (ах, алло), многие наречия (очень, весьма), неизменяемые существительные (алоэ, кенгуру) и прилагательные (беж, макси).

Корни, которые могут употребляться только в сочетании с приставками или суффиксами, называются связанными (об-у-ть, раз-у-ть; о-де-ть, раз-де-ть).

3.Приставка — словообразовательная морфема, стоящая перед корнем или другой приставкой (пере-делать, пре-хорошенький, при-морье, кое-где, пере—о-деть).

Рис.2. Приставка.

4.Суффикс — словообразовательная морфема, стоящая после корня (стол-ик, красн-е-ть).

Рис. 3. Суффикс.

В лингвистике наряду с суффиксом выделяют также постфикс — словообразовательную морфему, стоящую после окончания или формообразующего суффикса (умы-ть-ся, к-ого-либо).

5.Окончание — формообразующая морфема, выражающая грамматические значения рода, лица, числа и падежа (хотя бы одно из них!) и служащая для связи слов в словосочетании и предложении,

Окончание есть только у изменяемых слов. Нет окончаний у служебных слов, наречий, неизменяемых существительных и прилагательных, деепричастий, инфинитива.

У некоторых сложных существительных и числительных несколько окончаний.

Сравните: тр-и-ст-а, тр-ех-сот-□, диван□-кровать□, диван-а-кроват-и.

Нулевая морфема – это значимое отсутствие морфемы.

Стола – Р.п.

Стол□ – И.п. или В.п.

Нулевой суффикс мы выделяем, например, в форме прошедшего времени нёс (сравните: нес-л-а) или форме повелительного наклонения читай.

План морфемного разбора слова:

1. Выделяем окончание и основу слова.

2. Выделяем корень слова, подбирая однокоренные слова.

3. Выделяем приставки и суффиксы.

Образец морфемного разбора:

Двухэтажный (окончания –ух, -ый, основа … (такая основа называется прерывистой), корни дв-, этаж-, суффикс –н-).

Переулок (окончание нулевое, основа переулок, корень –ул-, приставка пере-, суффикс –ок).

Словообразование – это процесс образования производных слов и раздел языкознания, изучающий этот процесс.

Способы словообразования:

Приставочный: делать – переделать

Суффиксальный: синий – синенький

Приставочно-суффиксальный: стакан – подстаканник

Усечение: заместитель – зам

Сложение: лес+степь – лесостепь

Сращение: вечнозеленый

Аббревиация: Московский государственный университет – МГУ, сберегательный банк – сбербанк

Субстантивация (переход прилагательного или причастия в существительное): столовая

Смешанные способы словообразования: орден+носить = орденоносец (сложение и суффиксация)

План словообразовательного разбора слова:

1. Поставить слово в начальную форму.

2. Определить слово, от которого оно образовано. Например, обновление – обновить (а не новый).

3. Объяснить значение исследуемого слова через значение слова, от которого оно образовано (например, слушатель – тот, кто слушает).

4. Выделить основу, от которой образовано исследуемое слово.

5. Указать средство словообразования.

6. Указать способ словообразования.

Образец словообразовательного разбора:

1. Под-окон-ник – окно

Основа окн-

Средства словообразования: приставка под- и суффикс –ник. Способ словообразования: приставочно-суффиксальный

2. Мир(о)твор-ец – мир+творить

Основы, от которых образовано слово, — мир- и твор-

Средства словообразования: сложение основ и суффикс –ец.

Способ словообразования: сложение и суффиксация

10.Домашнее задание

Упражнения №

Задание №1. Даны слова: петь, учить, одеть, знал, столик, верхом, рано, волчонок, новее, ворча. Для каких слов из перечисленных годится следующий морфемный разбор:?

Задание №2. Даны слова: обучить, приходила, узнали, подоконник, треугольник, встряска, настольный, излишне, снова. Для каких слов из перечисленных годится следующий морфемный разбор:

Задание №3. Какое слово неправильно разобрано по составу?

Задание №4. Какое слово неправильно разобрано по составу?

Основа слова. Разбор слова по составу

Здравствуйте, друзья мои!

Сегодня мы с вами продолжим разговор о составе слова и будем учиться разбирать слова по составу. Но прежде я хочу загадать вам загадку. Что это?

Она выражает значение слова

И называется просто – …

Вы догадались? Многие сейчас скажут: «Вообще-то, не она, а он. Ведь это – корень слова». Ну конечно, в корне заключено основное лексическое значение слова. Но ведь случается, что однокоренные слова могут иметь совершенно противоположное значение. Например, однокоренные слова открыть и закрыть, приклеить и отклеить, одеть и раздеть. В этих словах противоположное значение придают приставки. А вот, например, слова ученик и учитель. Здесь значение меняют суффиксы. Кстати, обратите внимание на то, что в этих словах не по одному, а по два суффикса.

Так что полное значение слова выражается не только в корне. Если есть суффиксы и приставки, они тоже участвуют в лексическом значении слова. И вся часть слова, в которой выражено его значение, называется его основой. В основу не входит только окончание. Как написано в одном стихотворении.

Та часть слова, что изменяется,

Окончанием называется,

Остальную же часть слова

Именуем мы основой.

Основа в слове обозначается горизонтальной квадратной скобочкой, вертикальные линии которой показывают начало и конец основы.

Как же найти основу в слове? Элементарно! Возьмём, например, слово посадка. Изменяем его.

Посадки, посадку, посадкой.

Выделяем окончание -а. Всё остальное – это основа.

А какая основа в слове школьник? Изменяем слово: школьника, школьнику, о школьнике. В слове школьник нулевое окончание и основа – школьник.

Друзья мои, вы поняли, насколько это просто – выделить основу слова? Изменяем его, находим окончание. И часть слова без окончания является его основой.

Сейчас вы убедитесь, что найти основу слова – это просто. Найдите сами основу в словах дорога, подсказка, настольный, глобус.

Вы готовы проверить свою работу? Я уверен, вы справились с нею.

Дорога – дорогу, дороги. Основа дорог-.

Подсказка – подсказки, подсказку. Основа подсказк-.

Настольный – настольная, настольную, настольные. Основа настольн-.

Глобус – глобуса, глобусу. Основа глобус.

Друзья мои, помните ли вы, что есть слова, которые нельзя изменять, например, такие как кино, пальто, кофе, пианино, метро, кенгуру, шоссе. Так как в этих словах нет окончаний, то их основа – это всё слово полностью.

Кстати, хочу обратить ваше внимание на слово шоссе. Шоссе – это дорога с твёрдым покрытием. Слово ШОССЕ надо запомнить. В словах дорога и шоссе первые гласные – О.

А ещё в слове шоссе удвоенное С с гласной Е.

А теперь пришло время разбирать слова по составу.

Возьмём, например, слово разведка.

Первое, что мы должны сделать, – объяснить смысл слова и определить, к какой части речи оно относится.

Слова разведка отвечает на вопрос что?, значит, – это имя существительное. Обозначает сбор каких-либо сведений.

Слово разведка можно изменить: разведка – разведки, разведку. Таким образом, окончание в нём –а. Выделяем его прямоугольником.

Выделяем основу. Это часть слова без окончания – разведк-.

Теперь надо найти в слове корень. Для этого подбираем однокоренные слова: сведения, выведать. Общая часть этих слов – -вед-. Это и есть корень. Выделяем его дугой.

Перед корнем стоит приставка раз-.

А после корня перед окончанием – суффикс -к-.

Конечно, приставки и суффиксы есть не во всех словах, но в слове разведка они есть.

Итак, теперь можно сказать, что в слове разведка окончание -а, основа – разведк-, корень —вед-, приставка раз-, суффикс -к-.

И ещё разберём по составу слово пирог.

Находим окончание, изменив слово. Пирога, пирогу. В слове пирог нулевое окончание. А основа – пирог.

Находим корень, подбирая однокоренные слова. Пирожок, пирожковый. Чередование согласных г-ж..Корень пирог. В этом слове нет ни приставки, ни суффикса. Есть только нулевое окончание, основа пирог и корень пирог.

Кстати, слово пирог, как и слово шоссе, надо запомнить. В прежние времена ни один пир не обходился без ПИРогов. Испекли ПИРоги – будет ПИР.

Но вернёмся к разбору слов по составу. Я надеюсь, вы запомнили, как его выполнять? А для тех, у кого это ещё не совсем хорошо получается, я предлагаю известную запоминалку:

Школьник, при разборе слова

Окончанье и основу

Первым делом находи.

После корня будет суффикс,

А приставка – впереди.

Хочу сказать вам, ребята, что иногда встречаются слова, которые трудно бывает разобрать по составу. И тогда нам на помощь могут прийти словообразовательные словари.

В таких словарях часто собраны рядом однокоренные слова, и все части слов отделены друг от друга. Например, вот так:

Ну, вот и истекает наше время. Что же вам необходимо запомнить?

Часть слова без окончания называется основой слова. Основа выражает лексическое значение слова.

Чтобы найти основу слова, нужно отделить окончание.

Как разобрать слово по составу?

* Объяснить смысл слова и определить, к какой части речи оно относится.

* Изменить слово для того, чтобы выделить в нём окончание и основу.

* Выделить в слове корень. Для этого подобрать однокоренные слова.

* Обозначить приставку (если она есть). Приставка стоит перед корнем.

* Обозначить суффикс (если он есть). Суффикс стоит после корня перед окончанием.

А ещё не забудьте, как пишутся слова ШОССЕ и ПИРОГ.

Ну а я прощаюсь с вами сегодня. До новых встреч, мои друзья!

Дидактический материал по русскому языку для обучающихся 3 класса «Разбор слов по составу»

Муниципальное бюджетное общеобразовательное учреждение

«Средняя общеобразовательная школа № 65»г. Кемерово

Дидактический материал по русскому языку для обучающихся 3 класса

«Разбор слов по составу»

Квасникова Наталья Юрьевна

учитель начальных классов

работа предназначена для учителей начальной школы

1. Разбери слова по составу.

Тайна, тайник, тайный, потайной. Бег, бегать, бегун, беглец, беговой, бегство, побег, убегать, сбегать, выбегать. Ель, ельник, еловый.

2. Разбери слова по составу.

Ходьба, походка, ходики, ходить, уход, проход, вход, выход, поход. Кот, котёнок, котище, котик, котята. Диван, диванный, диванчик.

3. Разбери слова по составу.

Стол, столик, столовая, настольный. Стена, настенный, стенка, стенной.

Мир, мирный, мирить, помирить. Двор, дворовый, дворник, дворняжка.

4. Разбери слова по составу.

Свет, светить, засветить, просвет, осветит. Солонка, посолить, соль, пересолить, засолю, солёное. Лошадь, лошадка, лошадиный.

5. Разбери слова по составу.

Школа, школьный, школьник, пришкольный. Мыло, мыльный, мылить, намылить, мылкий. Лёд, ледок, ледяной, наледь.

6. Разбери слова по составу.

Смотреть, посмотреть, смотр, смотровой, досмотр, осмотр, смотритель. Вес, весы, весить, взвесить. Рыба, рыбак, рыбалка, рыбный, рыбачить, рыбка.

7. Разбери слова по составу.

Надымил, подсказка, снежинка, травинка, тропинка, сосновый, переход, думать, небеса, прибрежная, ветер, лисята.

8. Разбери слова по составу.

Зелёный зеркальный позолота ловец замазка игривый игрушка, робкий, садовый, лесник, голубь, подъезд, котёнок, пригорок, море.

9. Разбери слова по составу.

Крикливый, кровинка, ледник, летучий, ловушка, травушка, разговор, рябой, ветерок, самовар, город, чайник, прилетел, морское.

10. Запиши слова. Разбери по составу.

Птенчики, пригорок, вагончик, лисята, стаканчик, диванчик.

11. Запиши слова. Разбери по составу.

Ландыши, перевозка, носик, повозка, волнистый, косточка.

12.Запиши слова. Разбери по составу.

Лесник, глазки, светлый, рыбный, поле, ветер, ледовый.

Адрес публикации: https://www.prodlenka.org/metodicheskie-razrabotki/399489-didakticheskij-material-po-russkomu-jazyku-dl

Blackboard — Импорт контрольных вопросов из файла Word — База знаний UVM

Генераторы тестов

позволяют создавать тестовые вопросы и ответы в Word, а затем сразу загружать их в пул Blackboard. Это может сэкономить время, поскольку вам не нужно выполнять несколько утомительный процесс Blackboard по созданию одного вопроса за раз в инструменте тестирования.

Чтобы использовать генератор тестов, вы создаете свой тест в Word, следя за тем, чтобы он был точно отформатирован — без лишних пробелов, строк или символов.Затем вы копируете и вставляете результат в генератор тестов, и он создает файл для загрузки в Blackboard.

Этот файл представляет собой набор вопросов для загрузки — не импортируемый тест или пул

Вы должны сначала создать пул вопросов или тест, прежде чем сможете загружать эти вопросы.

После загрузки ваши вопросы будут в пуле, готовом для использования в новом тесте. Затем вы можете назначить баллы за вопросы и использовать обычный тест.

Генератор викторины может создавать следующие типы вопросов Blackboard: «Множественный выбор», «Множественный ответ», «Верно / неверно», «Эссе», «Заполнить пробел», «Соответствие». Если вам нужны другие типы вопросов, такие как «Горячая точка», «Изображение» или «Уравнение», вам нужно будет создать эти вопросы непосредственно на холсте теста Blackboard после того, как вы загрузите вопросы, созданные генератором тестов.

* Важное примечание: Генератор Western Sydney создает вопрос на доске Пул , из которого можно создать тест.

При желании вы можете продолжать использовать старый генератор тестов Blackboard Test Generator Христианского университета Оклахомы или преобразователь экзаменов Нью-Йоркского технологического института. Однако они стареют и имеют некоторые проблемы.

Другие способы создания тестов

Respondus Test Editor — аналогичная программа, но доступна только для Windows. Как и веб-сайты, которые мы рекомендуем выше, вы форматируете и загружаете документ Word с вашими вопросами. Однако использовать его сложнее.Редактор тестов Respondus можно загрузить с сайта программного обеспечения UVM, инструкции находятся здесь.

Используйте файлы Excel или Word , сохраненные как текст. Этот метод можно использовать для создания вопросов Blackboard любого типа. Однако мы рекомендуем последний, потому что это наиболее сложный процесс: вопросы должны быть отформатированы с высокой точностью — каждая часть вопроса и ответы должны быть разделены одной вкладкой, поэтому внимание к деталям имеет решающее значение. Если есть какие-либо ошибки, Blackboard просто не учитывает вопрос, поэтому вам необходимо тщательно проверить их на наличие ошибок.Однако, если вы предпочитаете работать в Excel, а не в Word, или любите Word и являетесь приверженцем точности, это может быть для вас хорошим вариантом. Узнайте больше о том, как это сделать, на веб-сайте Blackboard. Или загрузите инструкции в формате PDF из Калифорнийского государственного университета в Станиславе.

Новые парадигмы для оценки и нейронного анализа нормализации времени

Trans Assoc Comput Linguist. Авторская рукопись; доступно в PMC 2020 19 мая.

Опубликован в окончательной отредактированной форме как:

PMCID: PMC7236559

NIHMSID: NIHMS1571612

Школа информации, Университет Аризоны, Тусон, AZ

^* Эти два автора на равных.

См. Другие статьи в PMC, в которых цитируется опубликованная статья.

Abstract

В этой статье представлена первая модель для нормализации времени, обученная на корпусе SCATE. В схеме SCATE временные выражения аннотируются как семантическая композиция временных сущностей. Эта новая схема отдает предпочтение подходам машинного обучения, поскольку ее можно рассматривать как задачу семантического синтаксического анализа. В этой работе мы предлагаем нейронную сеть с несколькими выходами символьного уровня, которая превосходит предыдущие современные технологии, построенные на схеме TimeML.Чтобы сравнить прогнозы систем, которые следуют как SCATE, так и TimeML, мы представляем новую метрику оценки для временных интервалов. Мы также применяем эту новую метрику для проведения сравнительного анализа аннотаций обеих схем в одном корпусе.

1. Введение

Нормализация времени — это задача перевода выражений времени на естественном языке в машиночитаемые формы. Например, выражение три дня назад может быть нормализовано до формального представления 2017-08-28 в стандарте ISO-8601.Поскольку нормализация времени позволяет размещать объекты и события на временной шкале, это важный шаг для многих задач извлечения информации. Со времени появления первых общих задач по нормализации времени (Verhagen et al., 2007) интерес к проблеме и разнообразию приложений рос. Например, Lin et al. (2015) используют нормализованные метки времени из электронных медицинских карт, чтобы способствовать мониторингу пациентов и обнаруживать потенциальные причины заболеваний. Vossen et al. (2016) идентифицируют многоязычные случаи появления одних и тех же событий в новостях, среди прочего, путем нормализации выражений времени на разных языках с помощью одного и того же стандарта ISO.Фишер и Стретген (2015) извлекают и нормализуют выражения времени из большого корпуса немецкой художественной литературы в качестве отправной точки глубокого исследования тенденций и моделей использования дат в литературе.

Ключевым моментом для систем нормализации времени является то, к какому формальному представлению следует нормализовать выражения времени. Самой популярной схемой для аннотирования нормированных выражений времени является ISO-TimeML (Pustejovsky et al., 2003a; Pustejovsky et al., 2010), но она не может представить несколько важных типов выражений времени (например, Pustejovsky et al., 2003a; Pustejovsky et al., 2010).g., ограниченный набор интервалов, например по субботам с 6 марта) , и он не поддается машинному обучению (HeidelTime, основанный на правилах (Strötgen et al., 2013), по-прежнему обеспечивает высочайшую производительность ). Бетард и Паркер (2016) предложили альтернативную схему, семантически композиционную аннотацию выражений времени (SCATE), в которой время аннотируется как композиционные временные объекты (), и предположили, что это должно быть более поддающимся машинному обучению. Однако, создав аннотированный корпус, они не обучали на нем никаких автоматических моделей.

Аннотация выражения Суббота с 6 марта по схеме SCATE.

Мы представляем первые модели машинного обучения, обученные на корпусе нормализации времени SCATE. Мы вносим в процесс несколько вкладов:

Мы вводим новую метрику оценки для нормализации времени, которая может сравнивать нормализованное время из различных схем аннотаций путем измерения перекрытия интервалов на временной шкале.
Мы используем новую метрику для сравнения аннотаций SCATE и TimeML в одном корпусе и подтверждаем, что SCATE охватывает более широкий спектр выражений времени.
Мы разрабатываем рекуррентную нейронную сеть для обучения нормализации времени в стиле SCATE и показываем, что наша модель превосходит современную модель HeidelTime (Strötgen et al., 2013).
Мы показываем, что наша символьная архитектура нейронной сети с несколькими выходами превосходит как модели с одним выходом, так и словарные модели.

2. Предпосылки

ISO-TimeML (Pustejovsky et al., 2003a; Pustejovsky et al., 2010) — самая популярная схема для аннотирования выражений времени.Он аннотирует выражения времени как фразы и назначает нормализацию ISO 8601 (например, 1990-08-15T13: 37 или PT24H) в качестве атрибута VALUE нормализованной формы. ISO-TimeML используется в нескольких корпусах, включая TimeBank (Pustejovsky et al., 2003b), WikiWars (Mazur and Dale, 2010), TimeN (Llorens et al., 2012) и общие задачи TempEval (Verhagen et al. , 2007; Верхаген и др., 2010; УзЗаман и др., 2013).

Однако схема ISO-TimeML имеет несколько недостатков. Во-первых, времена, которые соответствуют более чем одной календарной единице (день, неделя, месяц и т. Д.)), например, суббот с 6 марта (где задействовано несколько суббот), не могут быть описаны в формате ISO 8601, поскольку они не соответствуют ни одному префиксу ГГГГ-ММ-ДДТЧЧ: ММ: СС. Во-вторых, каждый раз, когда выражение получает одно ЗНАЧЕНИЕ , независимо от диапазона слов, композиционная семантика выражения не представлена. Например, в выражениях с прошлой недели и с марта 6 семантика с идентична — найдите интервал между временем привязки ( на прошлой неделе или марта 6, ) и сейчас.Но ISO-TimeML должен был бы аннотировать эти две фразы независимо, без возможности указать общую часть их семантики. Эти недостатки ISO-TimeML, особенно отсутствие композиционности, затрудняют разработку моделей машинного обучения. Таким образом, в большинстве предшествующих работ использовался подход, основанный на правилах: поиск каждого токена выражения времени в лексиконе нормализации и последующее отображение этой последовательности лексических записей в нормализованную форму (Strötgen and Gertz, 2013; Bethard, 2013; Lee et al. al., 2014; Стрётген и Герц, 2015).

В качестве альтернативы TimeML и вдохновленные предыдущими работами, Schilder (2004) и Han and Lavie (2004), Bethard и Parker (2016) предложили семантически композиционную аннотацию временных выражений (SCATE). В схеме SCATE каждое временное выражение аннотируется в терминах композиционной временной сущности по интервалам на временной шкале. Пример показан в, где каждая аннотация соответствует формально определенной временной сущности. Например, аннотация поверх , начиная с , соответствует оператору Between, который определяет интервал, начинающийся с самого последнего марта 6 и заканчивающийся временем создания документа (DCT).Оператор Between формально определяется как:

Между ([t1, t2): интервал, [t3, t4): интервал): интервал = [t2, t3).

Схема SCATE может представлять широкий спектр выражений времени и обеспечивает формальное определение семантики каждой аннотации. В отличие от TimeML, SCATE использует структуру графа для фиксации композиционной семантики и может представлять выражения времени, которые не выражаются непрерывными фразами. Схема также имеет то преимущество, что ее можно рассматривать как задачу семантического синтаксического анализа, и, следовательно, она больше подходит для подходов к машинному обучению.Однако Бетард и Паркер (2016) представляют только корпус; они не представляют никаких моделей для семантического анализа.

3. Интервальная метрика оценки для нормализованного времени

Перед тем, как пытаться построить модели с машинным обучением из корпуса SCATE, мы были заинтересованы в оценке утверждения Бетхарда и Паркера (2016) о том, что схема SCATE может представлять более широкий выбор выражений времени, чем TimeML. Для этого мы предлагаем новую метрику оценки для сравнения нормализации времени, аннотированной как в формате TimeML ISO 8601, так и в формате объекта времени SCATE.Эта новая оценка интерпретирует нормализованные аннотации как интервалы на временной шкале и измеряет перекрытие интервалов.

Аннотации TimeML TIMEX3 (выражение времени) преобразуются в интервалы в соответствии с семантикой ISO 8601 их атрибута значения. Так, например, 1989-03-05 преобразуется в интервал [1989-03-05T00: 00: 00, 1989-03-06T00: 00: 00), то есть 24-часовой период, начинающийся с первой секунды. дня на 1989-03-05 и заканчивая непосредственно перед первой секундой дня на 1989-03-06.Аннотации SCATE преобразуются в интервалы в соответствии с формальной семантикой каждой сущности с использованием библиотеки, предоставленной Bethard и Parker (2016). Так, например, Next (Year (1985), SimplePeriod (YEARS, 3)), 3 года после 1985 года, преобразуется в [1986-01-01T00: 00, 1989-01-01T00: 00). Обратите внимание, что с одной аннотацией может быть связано более одного интервала, как в примере Субботы с 6 марта . После того, как все аннотации были преобразованы в интервалы на временной шкале, мы можем измерить, насколько перекрываются интервалы различных аннотаций.

Учитывая два набора интервалов, мы определяем точность интервала P _int как общую длину интервалов, общих между двумя наборами, деленную на общую длину интервалов в первом наборе. Вызов интервала, R _int определяется как общая длина интервалов, общих между двумя наборами, деленная на общую длину интервалов во втором наборе. Формально:

IS⋂IH = {i∩j: i∈IS∧j∈IH}

Пинта (IS, IH) = ∑i∈COMPACT (IS⋂IH) ∣i∣∑i∈IS∣i∣

Rint (IS, IH) = ∑i∈COMPACT (IS⋂IH) ∣i∣∑i∈∪IH∣i∣

где I _S и I _H — это наборы интервалов, i ∩ j — возможно, общий пустой интервал между интервалами i и j , | i | — длина интервала i , а compact берет набор интервалов и объединяет любые перекрывающиеся интервалы.

Учитывая два набора аннотаций (например, по одной из двух систем нормализации времени), мы определяем общую точность, P , как среднее значение интервальной точности, когда каждая аннотация из первого набора сочетается со всеми аннотациями, которые текстуально перекрываются. это во втором комплекте. Общий отзыв определяется как среднее количество интервальных повторений, когда каждая аннотация из второго набора сочетается со всеми аннотациями, которые текстуально перекрывают ее в первом наборе. Формально:

OIa (B) = ⋃b∈B: OVERLAPS (a, b) ИНТЕРВАЛЫ (b)

P (S, H) = 1∣S∣∑s∈SPint (ИНТЕРВАЛЫ (s), OIs (H))

R (S, H) = 1∣H∣∑h∈HRint (ИНТЕРВАЛЫ (h), OIh (S))

где S и H — это наборы аннотаций, интервалы ( x ) дают временные интервалы, связанные с аннотацией x , а перекрытия ( a, b ) определяют, будут ли аннотации a и b имеют по крайней мере один общий текстовый символ.

Важно отметить, что эти метрики могут применяться только к выражениям времени, которые дают ограниченные интервалы. Выражения времени, которые относятся к интервалам с неопределенными границами, выходят за рамки, например, «это занимает всего минуту» или «я работаю каждую субботу».

4. Анализ данных

4.1. TimeML против SCATE

Аннотации TimeML и SCATE доступны в подмножестве корпуса TempEval 2013 (UzZaman et al., 2013), который содержит коллекцию новостных статей из разных источников, таких как Wall Street Journal, New York Times, Кабельная сеть новостей и Голоса Америки.показывает статистику данных. Документы из AQUAINT и TimeBank образуют набор данных по обучению и развитию. Корпус SCATE содержит 2604 объекта времени (отдельные компоненты выражения времени, например every, month, last, Monday, и т. Д.), Аннотированные в наборе train + dev (то есть AQUAINT + TimeBank). Эти сущности составляют в общей сложности 1038 выражений времени ( каждый месяц, последний понедельник, и т. Д.), Из которых 580 дают ограниченные интервалы, то есть интервалы с указанным началом и концом ( в прошлый понедельник ограничено, а каждый месяц равно нет).

Таблица 1:

Количество документов, аннотаций TimeML TIMEX3 и аннотаций SCATE для подмножества корпуса TempEval 2013, аннотированных обеими схемами.

9022 9022 9022 9022 9022 9022

	AQUAINT	TimeBank	Тест
Документы	10	68	20
61	499	158
Объекты SCATE	333	1810	461
Время SCATE ист.	114	715	209
Ограничение SCATE	67	403	93

Мы применяем метрику оценки на основе интервалов, представленную в разделе 3, для обработки набора данных BQUAINT и времени Аннотации TimeML как системный аннотатор ( S ) и аннотации SCATE как аннотатор человека ( H ). показывает, что аннотации SCATE охватывают разные временные интервалы, чем аннотации TimeML.В первой строке мы видим, что TimeML имеет отзыв только 92% временных интервалов, определенных SCATE в корпусе AQUAINT, и только 83% в корпусе TimeBank. Мы вручную проанализировали все места, где аннотации TimeML и SCATE различались, и обнаружили, что интерпретация SCATE всегда была правильной.

Таблица 2:

Сравнение аннотаций TimeML и SCATE.

902 902 902 902 902 9022

AQUAINT

TimeBank

92,2

82,4

83,0

82,7

Весь текст

92,2

67,1

77,7

82,4

9028 пример 76,2

случай, когда аннотации TimeML и SCATE перекрываются, но не идентичны, — это выражения времени, которым предшествует предлог типа «с». Аннотация TimeML для «Since 1985» (с DCT 1998-03-01T14: 11) охватывает только год «1985», в результате получается временной интервал [1985-01-01T00: 00,1986-01-01T00: 00).Аннотация SCATE представляет полное выражение и, следовательно, дает правильный временной интервал [1986-01-01T00: 00,1998-03-01T14: 11).

Другой частый случай разногласий — это когда TimeML не смог скомпоновать все части сложного выражения. Аннотация TimeML для «10:35 утра (07:35 GMT) пятницы» аннотирует два отдельных интервала, время и день (и полностью игнорирует «07:35 GMT»). Аннотация SCATE распознает это как описание одного временного интервала [1998-08-07T10: 35, 1998-08-07T10: 36).

Аннотации TimeML и SCATE также различаются по тому, как интерпретируются ссылки на определенные прошлые периоды. Например, TimeML предполагает, что «последний год» и «год назад» имеют идентичную семантику, относящуюся к самому последнему календарному году, например, если DCT — 1998-03-04, то оба они относятся к интервалу [1997- 01-01T00: 00,1998-01-01T00: 00). SCATE имеет ту же семантику для «прошлого года», но признает, что «год назад» имеет другую семантику: период с центром за год до DCT.Под SCATE «год назад» относится к интервалу [1996-09-03T00: 00,1997-09-03T00: 00).

Помимо этих различий в интерпретации, мы также заметили, что, хотя корпус SCATE аннотирует выражения времени в любом месте документа (в том числе в метаданных), аннотации TimeBank TIMEX3 ограничиваются основным текстом документов. Вторая строка показывает оценку при сравнении всего текста в документе, а не только основного текста. Неудивительно, что TimeML хуже запоминает временные интервалы из аннотаций SCATE при этой оценке.

4.2. Типы аннотаций SCATE

Изучая часть набора данных для обучения и разработки, мы заметили, что аннотации SCATE можно удобно разделить на три категории: неоператоры, явные операторы и неявные операторы. Мы определяем неоператоры как числа, периоды (например, три месяца), явных интервалов (например, годы, например, 1989 ) и повторяющиеся интервалы (дни недели, например, пятница, месяцев года, например января, и т. Д.). Неоператоры в основном атомарны; их можно интерпретировать без ссылки на другие аннотации. Операторы не атомарны; их можно интерпретировать только в отношении других аннотаций, на которые они ссылаются. Например, ЭТОТ оператор в может быть интерпретирован только путем первой интерпретации неоператора дня недели и оператора Между, с которым он связан. Мы разделяем операторы на два типа: явные и неявные. Мы определяем оператор как явный, если он не перекрывается с какой-либо другой аннотацией.Это происходит, например, когда связка времени с вызывает оператор Between в. Оператор считается неявным, если он перекрывается с другой аннотацией. Это происходит, например, с оператором LAST in, где марта подразумевает марта прошлого года, , но нет явного сигнала в тексте, и это должно быть выведено из контекста.

Мы изучаем, как эти группы аннотаций распределяются в документах AQUAINT и TimeBank. показывает, что неоператоры встречаются гораздо чаще, чем операторы (как явные, так и неявные).

Таблица 3:

Распределение аннотаций временных сущностей в AQUAINT + TimeBank.

9022 9022% %

Non-Op	Exp-Op	Imp-Op	Всего
1497	305	219	2021
100%

5. Модели

Мы разложим нормализацию выражений времени на две подзадачи: a) идентификация объекта времени , которая определяет интервалы символов, принадлежащих каждому выражению времени, и маркирует их их соответствующая временная сущность; и b) временная композиция объекта, которая связывает соответствующие объекты вместе, соблюдая ограничения типа объекта, налагаемые схемой SCATE.Эти две задачи выполняются последовательно, используя выходные данные первой в качестве входных для второй. После завершения этапов идентификации и компоновки мы можем использовать конечный продукт, то есть семантическую композицию временных объектов, для подачи на интерпретатор SCATE ^¹ и кодирования временных интервалов.

5.1. Идентификация временной сущности

Идентификация временной сущности — это тип задачи маркировки последовательности, в которой каждой части временного выражения присваивается метка, которая идентифицирует временную сущность, которую она вызывает.Мы выражаем такие метки с помощью системы тегов BIO, где B обозначает начало аннотации, I — внутреннюю часть, а O — внешнюю сторону любой аннотации. В некоторой степени отличаясь от стандартных задач маркировки последовательностей, схема SCATE позволяет использовать несколько аннотаций для одного и того же отрезка текста (например, «Суббота» — это как День недели, так и Это), поэтому модели идентификации сущностей должны уметь обрабатывать такие многокомпонентная классификация.

5.1.1. Нейронные архитектуры

Рекуррентные нейронные сети (RNN) — это новейшие достижения в задачах маркировки последовательностей (Lample et al., 2016a; Graves et al., 2013; Plank et al., 2016) благодаря их способности сохранять память о последовательности, когда они ее читают, и делать прогнозы с учетом характеристик на большом расстоянии, поэтому мы также применяем их здесь. Мы представляем три архитектуры RNN, которые имеют схожую внутреннюю структуру, но различаются тем, как они представляют выходные данные. Они преобразуют входные данные в функции, которые питают слой встраивания. Затем встроенные векторы признаков подаются в два объединенных в стек двунаправленных стробированных рекуррентных блока (GRU), а второй GRU, за которым следует функция активации, выводит по одному тегу BIO для каждого входа.Мы выбираем GRU для наших моделей, поскольку они могут превзойти другой популярный рекуррентный модуль LSTM (Long Short Term Memory) с точки зрения обновлений параметров и сходимости во времени процессора с тем же количеством параметров (Chung et al., 2014).

Наша модель 1-сигмоида () подходит к задаче как к задаче классификации с несколькими метками с набором сигмоидов для каждого выхода, что позволяет одновременно прогнозировать ноль или более меток BIO. Это стандартный способ кодирования задач классификации с несколькими метками для нейронных сетей, но в наших экспериментах мы обнаружили, что эти модели работают плохо, поскольку они могут создавать избыточные метки для каждого входа, например.g., 03 можно было пометить как день месяца, так и месяц года одновременно.

Архитектура модели 1-сигмоида. Вводится 25 мая. В аннотации в стиле SCATE May — это месяц года (неоператор), с неявным Last (оператор) в том же интервале, а 25 — это день. Месяца. На векторном слое M — заглавная буква (Lu), a и y — строчные буквы (L1), пробел — разделитель (Zs), а May — существительное собственное (NNP).

Наша модель 2-Softmax () разбивает пространство вывода меток на два набора: неоператоры и операторы (как определено в разделе 4.2). Очень маловероятно, что какой-либо фрагмент текста будет аннотирован более чем одним неоператором или более чем одним оператором, ^², хотя обычно текст аннотируется одним неоператором и одним оператором (см. ). В результате мы можем использовать два softmax, один для неоператоров и один для операторов, и, таким образом, модель 2-Softmax может создавать 0, 1 или 2 метки для каждого входа.Мы разделяем входные и встраиваемые слои, но связываем отдельный набор составных Bi-GRU с каждой выходной категорией, как показано на. ^³

Архитектура модели 2-Softmax. Вводится May . Аннотации и функции SCATE такие же, как в.

Наш 3-Softmax далее разделяет операторы на явные и неявные операторы (опять же, как определено в разделе 4.2). Мы ожидаем, что это поможет модели, поскольку задача обучения для этих двух случаев сильно различается: с явными операторами модель просто должна запоминать, какие фразы вызывают какие операторы, а с неявными операторами модель должна научиться выводить оператор из контекст (время глагола и т. д.). Мы используем три softmax, по одному для неоператоров, явных операторов и неявных операторов, и, как и в случае с 2-Softmax, мы разделяем уровни ввода и внедрения, но связываем отдельный набор составных Bi-GRU с каждой выходной категорией. Модель похожа на, но с тремя выходными группами вместо двух.

В качестве входных данных в RNN мы вводим три функции:

Текст:

Само входное слово для пословной модели или один входной символ для посимвольной модели.

Категории символов Unicode:

Категория каждого символа, как определено стандартом Unicode. ^⁴ Это кодирует такую информацию, как наличие прописных (Lu) или строчных (Ll) букв, знаков препинания (Po), цифр (Nd) и т. Д. Для пословной модели мы объединяем категории символов все символы в слове (например, May становится LuLlLl).

Часть речи:

Часть речи, определенная устройством тегов Stanford POS (Toutanova et al., 2003). Мы ожидаем, что это будет полезно, например, для нахождения глагольного времени, чтобы помочь различать неявные операторы Last и Next. Для посимвольной модели мы повторяем тег части речи на уровне слова для каждого символа в слове, а символы без части речи (например, пробелы) не получают тега.

5.1.2. Ввод: слова и символы

Идентификация временной сущности в стиле SCATE — это задача маркировки последовательностей, аналогичная распознаванию именованных сущностей (NER), поэтому мы черпаем вдохновение из недавних работ в области нейронных архитектур для NER.Первые нейронные модели NER следовали предыдущей (не нейронной) работе по подходу к NER как проблеме классификации слов, применяя такие архитектуры, как нейронные сети с прямой связью со скользящим окном (Qi et al., 2009), сверточные нейронные сети (CNN) с условными слои случайного поля (CRF) (Collobert et al., 2011) и LSTM со слоями CRF и элементами ручной работы (Huang et al., 2015). Совсем недавно нейронные сети на уровне символов были также предложены для NER, в том числе несколько, которые объединяют CNN или LSTM для изучения символьных представлений слов с LSTM или LSTM-CRF для пословной маркировки (Чиу и Николс, 2016; Лампле и др., 2016b; Ma and Hovy, 2016), а также сети посимвольных последовательностей (Gillick et al., 2016; Kuru et al., 2016).

На основе этих работ мы рассматриваем две формы обработки ввода для наших RNN: пословное и посимвольное. Некоторые аспекты проблемы нормализации времени делают подход, основанный на символах, особенно привлекательным. Во-первых, во многих временных фразах используются числа, которые необходимо интерпретировать семантически (например, хорошая модель должна усвоить, что месяцы не могут быть числом больше 12), а цифровая обработка чисел позволяет такую интерпретацию, при этом обрабатывая каждое число как слово. привести к редкой, трудноразрешимой проблеме обучения.Во-вторых, модели, основанные на словах, предполагают, что мы знаем, как преобразовать текст в слова, но временами представляем сложные форматы, такие как за ночь, , где на вызывает последнего оператора, а ночь — это часть дня. Наконец, символьные модели могут улучшить слова вне словарного запаса (OOV), которые являются распространенной проблемой при обучении разреженных наборов данных. (Гибридные модели слово-символ, такие как LSTM-CNNs-CRF (Ma and Hovy, 2016), могут решить эту последнюю проблему, но не две предыдущие.\ d \ W] + | \ S »для разделения буквенно-цифровых выражений, например 1620EDT . Однако токенизатор не может разделить выражения, такие как 19980206, и , за ночь. Для нашей символьной модели токенизация не применяется, и каждый символ (включая символы пробела) подается как ввод.

5.2. Составление сущностей времени

После того, как сущности выражений времени идентифицированы, они должны быть составлены, чтобы получить их семантическую интерпретацию.Этот этап анализа состоит из двух частей: связывания сущностей, составляющих выражение времени, и дополнения свойств сущностей соответствующими значениями. Для обоих случаев мы устанавливаем простой набор правил, которые следуют ограничениям, налагаемым схемой SCATE ^⁵.

5.2.1. Объект времени, связывающий

, показывает процесс, выполняемый для получения связей между объектами времени. Сначала мы определяем пустой стек, в котором будут храниться объекты, принадлежащие одному и тому же выражению времени.Затем мы перебираем список сущностей документа, отсортированных по смещению их начальных символов (SortByStart). Для каждой из этих сущностей ( сущность ₁) и для каждой сущности в стеке ( сущность ₂) мы проверяем, указывают ли руководящие принципы возможную связь (LinkIsValid) между типами сущности ₁ и субъект ₂. Если такая ссылка возможна, и она еще не была заполнена другой аннотацией, мы жадно делаем ссылку (CREATELINK).Когда расстояние в количестве символов между объектом и концом стека больше 10, мы предполагаем, что объекты не принадлежат выражению времени. Таким образом, мы очищаем стек. ^⁶

Алгоритм 1

конец если

стек = ∅

для entity ₁ в SortByStart ( entity ) do

if Start ( entity ₁) — End ( stack )> 10 then стек = ∅

конец, если

для объект ₂ дюйм стек до

если LinkIsValid ( entity ₁, entity ₂) then CreateLink ( entity ₁, entity ₂)

конец для

Push ( стек , entity ₁)

конец для

Например, наша модель идентификации времени год, месяц года и день месяца для выражения времени 1992-12-23 .Затем наш алгоритм композиции временных объектов выполняет итерацию по этим объектам. Вначале стек пуст, он просто помещает в стек объект 1992 (год). Для объекта 12 (Месяц-года) он проверяет, определяют ли руководящие принципы возможную связь между этим типом объекта и тем, который в настоящее время находится в стеке (Год). В этом случае руководящие принципы устанавливают, что год может иметь ссылку на подинтервал с сезоном года, месяцем года или неделей года. Таким образом, алгоритм создает подинтервал связи между 1992 и 12 .Затем объект 12 помещается в стек. Этот процесс повторяется для объекта 23 (День месяца), проверяя, была ли возможная связь с объектами в стеке ( 1992, 12 ). Рекомендации определяют возможную связь подинтервалов между месяцем года и днем месяца, поэтому здесь также создается ссылка. Теперь предположим, что следующий объект времени в списке на несколько слов опережает 23 , поэтому расстояние между двумя объектами больше 10.В этом случае стек пуст, и процесс снова запускается для составления нового выражения времени.

5.2.2. Завершение свойства

Последний шаг — связать каждый временной объект временного выражения с набором свойств, которые включают информацию, необходимую для его интерпретации. Наша система определяет значения этих свойств следующим образом:

Тип:

Схема SCATE определяет, что некоторые объекты могут иметь только определенные значения. Например, сезон года может быть только весной, летом, осенью или зимой, месяцем года может быть только январь, февраль, март и т. Д.Чтобы завершить это свойство, мы берем диапазон текста временной сущности и нормализуем его до значений, принятых в схеме. Например, если интервал объекта «Месяц года» был числовым значением 01 , мы бы нормализовали его до января, если бы его интервал был Sep. , мы бы нормализовали его до сентября и так далее.

Значение:

Это свойство содержит значение числовой сущности, например день месяца или час дня. Чтобы завершить это, мы просто берем текстовый диапазон объекта и преобразуем его в целое число.Если он написан словами вместо цифр (например, , девятнадцать, вместо 19), мы применяем простую грамматику ^⁷ для преобразования в целое число.

Семантика:

В текстах в стиле новостей обычно выражения вроде last Friday , когда DCT является пятницей, относятся к дню как к DCT, а не к предыдущему событию (как это было бы в более стандартном использовании). из последних ). SCATE указывает на это с помощью свойства Semantics, где значение Interval-Included указывает, что текущий интервал включен при вычислении последнего или следующего вхождения.Для остальных случаев используется значение Interval-Not-Included. В нашей системе, когда оператор LAST обнаружен, если он связан с днем недели (например, Friday ), который соответствует DCT, мы устанавливаем значение этого свойства как Interval-Included.

Interval-Type:

Операторам, таким как Next или Last, требуется интервал в качестве ссылки для интерпретации. Обычно это ссылка на DCT. Например, на следующей неделе относится к неделе после DCT, и в таком случае значением свойства Interval-Type для оператора Next будет DocTime.Однако иногда оператор привязан к интервалу, который сам по себе служит ориентиром, например, «к 2000 году». В этом случае значение Interval-Type равно Link. Наша система устанавливает для этого свойства значение Link, если оператор связан с Year, и DocTime в противном случае. Это очень грубая эвристика; поиск правильного якоря для выражения времени — сложная открытая проблема, для решения которой необходимы дальнейшие исследования.

5.3. Автоматически сгенерированные данные обучения

Каждый документ в наборе данных начинается со времени создания документа.Эти выражения времени весьма специфичны; они встречаются изолированно, а не в контексте предложения, и всегда образуют ограниченный интервал. Таким образом, их идентификация является критическим фактором в метрике оценки на основе интервалов. Однако время документа отображается во многих разных форматах: «Понедельник, 24 июля 2017 г.», «24.07.17, 09:52», «08-15-17, 1337 PM» и т. Д. Многие из этих форматов не являются охвачены обучающими данными, которые взяты из небольшого количества источников новостей, каждый из которых использует только один формат.Поэтому мы разработали генератор времени для случайной генерации дополнительных 800 изолированных обучающих примеров для большого количества таких форматов выражений. Генератор поддерживает 33 различных формата ^⁸, которые включают варианты, охватывающие сокращение, с / без разделителей, смесь цифр и строк и различные последовательности единиц времени.

6. Эксперименты

Мы обучаем и оцениваем наши модели на корпусе SCATE, описанном в разделе 4. В качестве набора данных для разработки в качестве случайной стратифицированной выборки взяты 14 документов из части TempEval 2013 (TimeBank + AQUAINT), показанной в, включая вещательные новостные документы (1 ABC, 1 CNN, 1 PRI, 1 VOA) и документы новостной ленты (5 AP, 1 NYT, 4 WSJ).Мы используем метрику оценки на основе интервалов, описанную в разделе 3, но также сообщаем более традиционные метрики извлечения информации (точность, отзыв и F ₁) для этапов идентификации и компоновки временных объектов. Пусть S будет набором элементов, прогнозируемым системой, а H — набором элементов, созданных людьми, определены точность ( P ), отзыв ( R ) и F ₁ в виде:

F1 (S, H) = 2 · P (S, H) · R (S, H) P (S, H) + R (S, H) ⋅

Для этих вычислений каждый элемент является аннотацией, и одна аннотация считается равной другой, если она имеет тот же диапазон символов (смещения), тип и свойства (при этом определение применяется рекурсивно для свойств, которые указывают на другие аннотации).

Чтобы сделать эксперименты с разными нейронными архитектурами сопоставимыми, мы настроили параметры всех моделей для достижения наилучшей производительности на данных разработки. Из-за нехватки места мы перечисляем здесь только гиперпараметры для нашего лучшего Char 3-Softmax: размер встраивания текста на уровне символов, текста на уровне слов, тегов POS и функций категорий символов Юникода составляет 128, 300, 32. и 64 соответственно. Чтобы избежать переобучения, мы использовали отсев с вероятностями 0,25, 0,15 и 0.15 для 3 функций соответственно; размеры блоков GRU первого и второго уровня установлены равными 256 и 150. Мы обучили модель с помощью оптимизации RMSProp на мини-пакетах размером 120 и следовали стандартным рекомендациям, чтобы оставить настройки гиперпараметров оптимизатора на их значения по умолчанию. Каждая модель обучается не более 800 эпох, самое продолжительное время обучения для модели Char 3-Softmax составляет около 22 часов с использованием 2x NVIDIA Kepler K20X GPU.

6.1. Выбор модели

Мы сравниваем различные модели идентификации временных объектов, описанные в Разделе 5.1, обучая их на данных обучения и оценивая их на данных разработки. Среди эпох каждой модели мы выбираем эпоху на основе выходных данных, которые модель хорошо предсказывает, потому что из-за ее слабости модель будет давать нестабильные результаты в наших предварительных экспериментах. Например, для моделей 3-Softmax наш выбор зависит от характеристик не-операторов и неявных операторов. показывает результаты этапа разработки.

Таблица 4:

Точность ( P ), отзыв ( R ) и F ₁ для различных архитектур нейронных сетей на Идентификация объекта времени на данных разработки.

9022 Word.3

Модель

Слово 1-сигмоид

60,2

52,0

55 Char

6 9022 9022 9022 9022 9022 9022 56,4

Word 2-Softmax

58,7

63,9

61,2

Char 2-Softmax

74,8

72,4

73,6

64,9

66,6

Char 3-Softmax

88,2

76,1

81,7

Char 3-Softmax extra

80,6

73,4 9022 76,8 обнаружили, что модели на основе символов превосходят модели на основе слов. ^⁹ Например, лучшая символьная модель достигает F ₁ из 81,7 (Char 3-Softmax), что значительно лучше, чем лучшая модель на основе слов, достигающая F ₁ всего 66.6 (р = 0). ^¹⁰ Во-вторых, мы обнаруживаем, что модели Softmax превосходят модели Sigmoid. Например, модель Char 3-Softmax достигает значения F ₁ 81,7, что значительно лучше, чем 56,4 F ₁ модели Char 1-Sigmoid (p = 0). В-третьих, для моделей на основе символов и слов мы обнаружили, что 3-Softmax значительно превосходит 2-Softmax: Char 3-Softmax F ₁ из 81,7 лучше, чем Char 2-Softmax F ₁ из 73.6 (p = 0) и Word 3-Softmax F ₁ из 66,6 лучше, чем Word 2-Softmax F ₁ из 61,2 (p = 0,0254). Кроме того, мы обнаружили, что все модели лучше идентифицируют неоператоры, чем операторы, и что явные операторы труднее всего решить. Например, модель Char 3-Softmax получает 92,4 F ₁ для неоператоров, 36,1 F ₁ для явных операторов и 79,1 F ₁ для неявных операторов.Наконец, мы также обучаем лучшую модель, Char 3-Softmax, используя сгенерированные аннотации, описанные в разделе 5.3, и достигаем 76,8 F ₁ (Char 3-Softmax extra), то есть модель работает лучше без дополнительных данных ( р = 0). Вероятно, это результат переобучения из-за небольшого разнообразия форматов времени в данных обучения и развития.

Из этого анализа набора для разработки мы выбрали два варианта архитектуры Char 3-softmax для оценки на тестовом наборе: Char 3-Softmax и Char 3-Softmax extra.Затем эти модели были объединены с системой связывания на основе правил, описанной в Разделе 5.2, чтобы создать полную систему синтаксического анализа в стиле SCATE.

6.2. Оценка модели

Мы оцениваем как Char 3-Softmax, так и Char 3-Softmax extra на тестовом наборе для задач идентификации и компоновки. показывает результаты. В задаче идентификации Char 3-Softmax extra не хуже, чем при использовании исходного набора данных с общим значением F ₁ 61,5 против 61,3 (p = 0,5899), а с использованием дополнительных сгенерированных данных модель лучше предсказывает не- операторы и неявные операторы с более высокой точностью (p = 0.0096), что является ключом к созданию правильных ограниченных временных интервалов.

Таблица 5:

Результаты на тестовом наборе для Идентификация объекта времени (Идентификатор) и Составление объекта времени (Comp) шагов. Для первого мы сообщаем характеристики для каждого набора сущностей: неоператоры (Non-Op), явные операторы (Exp-Op) и неявные операторы (Imp-Op).

the art, мы запускаем HeidelTime на тестовых документах и используем метрику, описанную в разделе 3. Таким образом, мы можем сравнивать интервалы, созданные обеими системами, независимо от схемы аннотаций. показывает, что наша модель с дополнительными случайно сгенерированными обучающими данными превосходит HeidelTime с точки зрения точности со значительной разницей в 12.6 процентных пунктов (p = 0,011), в то время как HeidelTime показывает незначительно лучшие показатели с точки зрения отзыва (p = 0,1826). В целом наша модель получает на 3,3 процентных пункта больше, чем HeidelTime, с точки зрения F 1 (p = 0,2485). Обратите внимание, что, хотя модель, обученная без дополнительных аннотаций, лучше по времени составления сущностей (см.), Она работает намного хуже при создании окончательных интервалов. Это вызвано тем фактом, что эта модель не может идентифицировать неоператоров, которые составляют даты в невидимых форматах (см. Раздел 5.3).

Таблица 6:

Precision ( P ), отзыв ( R ) и F ₁ наших моделей на тестовых данных, дающих ограниченные временные интервалы. Для сравнения мы приводим результаты, полученные HeidelTime.

	Char 3-Softmax			Char 3-Soft. дополнительный
	P	R	F ₁	P	R	F 4 1 903 902 902 902 902 902 902	79.2	63,2	70,3	87,4	63,2	73,4
Exp-Op	52,6	36,6	43,2	39,8		39,8 9021		38,7 53,3	47,1	50,0	65,4	50,0	56,7

Идент.	70,0	54,5	61,3 694	55,3	61,5

Comp	59,7	46,5	52,3	57,7	46,0	51,2

73 9284 не быть полностью справедливым. HeidelTime был разработан в соответствии со схемой TimeML, и, как мы покажем в разделе 4, SCATE охватывает более широкий набор выражений времени. По этой причине мы проводим дополнительную оценку. Во-первых, мы сравниваем аннотации в тестовом наборе, используя нашу метрику на основе интервалов, аналогичную приведенному в сравнении, и выбираем те случаи, когда TimeML и SCATE полностью совпадают.Затем мы удаляем остальные случаи из набора тестов. Следовательно, мы также удаляем прогнозы, данные системами, как нашей, так и HeidelTime, для этих случаев. Наконец, мы запускаем счетчик интервалов, используя новую конфигурацию. Как видно, все модели улучшают свои характеристики. Однако наша модель по-прежнему работает лучше, когда она обучается с дополнительными аннотациями.

Таблица 7:

Precision ( P ), отзыв ( R ) и F ₁ на ограниченных интервалах на тестовых данных TimeML / SCATE с идеальным перекрытием .

Модель	P	R	F ₁
HeidelTime	70.9	76,87
Char 3-Softmax	73,8	62,4	67,6
Char 3-Softmax extra	82,7	71,0	76,4

Модель	P	R	F ₁
HeidelTime	70.7	80.2	70.7	80.2 9098 74,3	64,2	68,9
Char 3-Softmax extra	83,3	74,1	78,4

Интерпретатору SCATE, который кодирует временные интервалы, необходим композиционный график всех временных выражений. его элементы правильные.Таким образом, неспособность идентифицировать какую-либо сущность выражения времени приводит к совершенно не интерпретируемым графикам. Например, в выражении следующий год, , если наша модель определяет год как Период, а не Интервал, он не может быть связан с следующим , потому что это нарушает схему SCATE. Модель также может не распознавать некоторые временные объекты, например лето в выражении прошлым летом. Эти ошибки идентификации вызваны в основном разреженными данными обучения.Поскольку графики, содержащие эти ошибки, создают неразрешимые логические формулы, интерпретатор не может создавать интервалы, и, следовательно, отзыв уменьшается. В пределах тех интервалов, которые в конечном итоге генерируются, наиболее распространенной ошибкой является путаница операторов Last и Next и, как следствие, неправильно размещенный интервал даже с правильно идентифицированными неоператорами. Например, если для оператора October с неявным оператором NEXT вместо ссылки на [2013-10-01T00: 00,2013-11-01T00: 00) вместо ссылки на [2013-10-01T00: 00), он будет ссылаться на [2012-10 -01T00: 00, 2012-11-01T00: 00).Отсутствие неявных операторов также является основным источником ошибок для HeidelTime, который не работает со сложными композиционными графами. Например, в тот январский день 2011 года аннотируется HeidelTime как два разных интервала, соответствующих соответственно января и 2011 . Как следствие, HeidelTime предсказывает не один, а два неверных интервала, что влияет на его точность.

7. Обсуждение

Что касается задачи идентификации временной сущности, различия в производительности между разработанным и тестовым набором данных можно отнести к распределению аннотаций наборов данных.Например, в наборе тестов есть 10 аннотаций сезона-года, а в наборе данных разработки таких аннотаций нет; относительная частота аннотаций Minute-Of-Hour, Hour-Of-Day, Two-Digit-Year и Time-Zone в тестовом наборе намного ниже, и наши модели хорошо предсказывают такие аннотации. Явные операторы очень лексически зависимы, например Последнее соответствует одному слову из набора { последний , последний , ранее , недавно , после , после , недавний , ранее , прошлый , перед } , и большинство из них появляются один или два раза в обучающих и развивающих наборах.

Наши эксперименты подтверждают преимущества символьных моделей в прогнозировании аннотаций SCATE, которые согласуются с нашими объяснениями в Разделе 5.1.2: словесные модели, как правило, не могут отличить числа от цифровых выражений времени. Словесным моделям сложно уловить некоторые шаблоны выражений времени, такие как 24-е, и 25-е, и августа, и т. Д., В то время как символьные модели устойчивы к такой дисперсии. Мы провели эксперимент, чтобы выяснить, являются ли эти преимущества уникальными для композиционных аннотаций, таких как SCATE, или, в более общем смысле, для простого распознавания выражений времени.Мы использовали аннотации TimeML от AQUAINT и TimeBank (см.), Чтобы обучить два мультиклассовых классификатора идентифицировать аннотации TIMEX3. Модели были похожи на наши модели Char 3-Softmax и Word 3-Softmax, с теми же настройками параметров, но с одним выходным слоем softmax для прогнозирования четырех типов TIMEX3: Date, Time, Duration и Set. Как показано в, на тестовом наборе модель на основе слов значительно превосходит символьную модель с точки зрения как выражений времени (p = 0,0428), так и подмножества выражений времени, содержащих цифры (p = 0.0007). Эти результаты показывают, что символьные модели более успешны в аннотациях SCATE, потому что SCATE разбивает выражения времени на значимые подкомпоненты. Например, TimeML просто вызовет Monday, 1992-05-04 Date и вызовет 15:00:00 GMT Saturday Time. SCATE будет идентифицировать четыре и пять, соответственно, различных типов семантических сущностей в этом выражении; и каждый объект SCATE будет состоять либо из букв, либо из цифр. В TimeML модель сталкивается со сложными обучающими задачами, например.g., что иногда имя дня недели является частью даты, а иногда — частью времени, в то время как в SCATE имя дня недели всегда является днем недели.

Таблица 8:

Precision (P ), вызов (R), и F ₁ для моделей на основе символов и слов при прогнозировании аннотаций TimeML TIMEX3 на наборе тестов TempEval 2013. TIMEX3-Digits — это подмножество аннотаций, содержащих цифры.

₁ 9028 9028 другой стороны этап составления юридического лица с идентификацией золотого юридического лица достигает 72,6 с точки зрения F1. Одна из основных причин ошибок на этом шаге — эвристика для завершения свойства Interval-type. Как мы объясним в разделе 5.2, мы реализуем слишком грубый набор правил для этого случая. Другой источник ошибок — это расстояние в 10 символов, которое мы используем, чтобы решить, принадлежат ли временные объекты к одному и тому же выражению времени. Это условие предотвращает создание некоторых ссылок, например, выражение «Позже» в начале предложения обычно относится к другому временному интервалу в предыдущем предложении, поэтому расстояние между ними намного больше.

8. Заключение

Мы представили первую модель для нормализации времени, обученную на аннотациях в стиле SCATE.Модель превосходит современную модель, основанную на правилах, доказывая, что описание выражений времени в терминах композиционных временных сущностей подходит для подходов к машинному обучению. Это расширяет исследования в области нормализации времени за пределы более ограниченной схемы TimeML. Мы показали, что символьная архитектура нейронной сети имеет преимущества для решения задачи по сравнению с системой, основанной на словах, и что сеть с несколькими выходами работает лучше, чем создание одного выхода. Кроме того, мы определили новую метрику оценки на основе интервалов, которая позволяет нам выполнять сравнение аннотаций на основе схем SCATE и TimeML, и обнаружили, что SCATE предоставляет более широкий спектр выражений времени.Наконец, мы увидели, что доступный разреженный обучающий набор вызывает переобучение модели и что наибольшее количество ошибок совершается в тех случаях, которые реже появляются в аннотациях. Это более важно в случае явных операторов, потому что они очень зависят от лексики. Повышение производительности в этих случаях — наша главная цель в будущей работе. Согласно результатам, представленным в этой работе, кажется, что решением было бы получить более широкий обучающий набор, поэтому многообещающим направлением исследований является расширение нашего подхода для автоматической генерации новых аннотаций.

10. Благодарности

Мы благодарим анонимных рецензентов, а также редактора действий Мона Диаб за полезные комментарии к более раннему черновику этой статьи. Работа финансировалась проектом THYME (R01LM010090) из Национальной медицинской библиотеки, и использовались вычислительные ресурсы, поддерживаемые Национальным научным фондом в рамках гранта № 1228509. Авторы несут полную ответственность за содержание и не обязательно представляют официальную взгляды Национальной медицинской библиотеки, Национальных институтов здравоохранения или Национального научного фонда.

Сноски

¹ https://github.com/clulab/timenorm

² По данным обучения, только 4 из 1217 неоператоров перекрываются с другим неоператором, и только 6 из 406 операторов перекрываются с другим оператором. Например, NYT, указанное в редакционной статье в субботу, 25 апреля, , суббота, помечено как [Day-Of-Week, Last, Intersection], где последние две метки являются операторами.

³ В предварительных экспериментах мы также пытались совместно использовать слои GRU, но в целом это приводило к худшей производительности.

⁴ См. Http://unicode.org/notes/tn36/

⁵ https://github.com/bethard/anafora-annotations/blob/master/.schema/timenorm-schema.xml

⁶ Пороговое значение расстояния было выбрано на основе характеристик набора данных разработки.

⁷ https://github.com/ghewgill/text2num

⁸ Мы используем стандартные форматы, доступные в офисных пакетах, в частности, LibreOffice.

⁹ Мы кратко исследовали использование предварительно обученных встраиваний слов, чтобы попытаться улучшить производительность модели Word 1-Sigmoid, но она дала производительность, которая все еще была хуже, чем модель на основе символов, поэтому мы не исследовали это дальше.

¹⁰ Мы использовали парный тест значимости передискретизации начальной загрузки.

Ссылки

Бетард Стивен и Паркер Джонатан. 2016 г. Семантически композиционная схема аннотации для нормализации времени. В трудах Десятой Международной конференции по языковым ресурсам и оценке (LREC 2016), Париж, Франция, 5 Европейская ассоциация языковых ресурсов (ELRA). [Google Scholar]
Бетард Стивен. 2013. Синхронная свободная от контекста грамматика для нормализации времени.В материалах конференции 2013 г. по эмпирическим методам обработки естественного языка, страницы 821–826, Сиэтл, Вашингтон, США, 10 Ассоциация компьютерной лингвистики. [Бесплатная статья PMC] [PubMed] [Google Scholar]
Берд Стивен, Кляйн Юэн и Лопер Эдвард. 2009 г. Обработка естественного языка с помощью Python: анализ текста с помощью набора инструментов для естественного языка. O’Reilly Media, Inc. [Google Scholar]
Чиу Джейсон П. К. и Николс Эрик. 2016 г. Распознавание именованных объектов с помощью двунаправленных LSTM-CNN.Труды Ассоциации компьютерной лингвистики, 4: 357–370. [Google Scholar]
Чунг Джун Ён, Гульчере Каглар, Чо Гён Хён и Бенджио Йошуа. 2014 г. Эмпирическая оценка стробированных рекуррентных нейронных сетей при последовательном моделировании. Препринт arXiv arXiv: 1412.3555v1. [Google Scholar]
Коллобер Ронан, Уэстон Джейсон, Боттоу Леон, Карлен Майкл, Кавукчуоглу Корай и Кукса Павел. 2011 г. Обработка естественного языка (почти) с нуля. Журнал исследований в области машинного обучения, 12: 2493–2537, ноябрь.[Google Scholar]
Фишер Франк и Стретген Янник. 2015 г. Когда появляется (немецкая) литература? Об анализе временных выражений в больших корпусах. In Proceedings of DH 2015: Annual Conference of the Alliance of Digital Humanities Organizations, volume 6, Sydney, Australia. [Google Scholar]
Гиллик Дэн, Брюнк Клифф, Виньялс Ориол и Субраманья Амарнаг. 2016 г. Многоязычная языковая обработка байтов. В Knight Kevin, Nenkova Ani и Rambow Owen, редакторах, NAACL HLT 2016, Конференция 2016 Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, Сан-Диего, Калифорния, США, 12-17 июня 2016 г., стр. 1296–1306.Ассоциация компьютерной лингвистики. [Google Scholar]
Могилы Алекс, Мохамед Абдель-Рахман и Хинтон Джеффри. 2013. Распознавание речи с помощью глубоких рекуррентных нейронных сетей. В 2013 году Международная конференция IEEE по акустике, обработке речи и сигналов, страницы 6645–6649. IEEE. [Google Scholar]
Хан Бенджамин и Лави Алон. 2004 г. Фреймворк для разрешения времени на естественном языке. 3 (1): 11–32, март. [Google Scholar]
Хуан Чжихэн, Сюй Вэй и Юй Кай.2015 г. Двунаправленные модели LSTM-CRF для маркировки последовательностей. CoRR, абс. / 1508.01991. [Google Scholar]
Куру Онур, Джан Озан Аркан и Юрет Дениз. 2016 г. Charner: Распознавание именованных сущностей на уровне персонажа. В COLING 2016, 26-я Международная конференция по компьютерной лингвистике, Материалы конференции: Технические документы, 11–16 декабря 2016 г., Осака, Япония, страницы 911–921. [Google Scholar]
Лампле Гийом, Баллестерос Мигель, Субраманиан Сандип, Каваками Казуя и Дайер Крис.2016a. Нейронные архитектуры для распознавания именованных сущностей. В материалах конференции 2016 г. Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, страницы 260–270. Ассоциация компьютерной лингвистики. [Google Scholar]
Лампле Гийом, Баллестерос Мигель, Субраманиан Сандип, Каваками Казуя и Дайер Крис. 2016b. Нейронные архитектуры для распознавания именованных сущностей. В NAACL HLT 2016, Конференция 2016 Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, Сан-Диего, Калифорния, США, 12-17 июня 2016 г., страницы 260–270.[Google Scholar]
Ли Кентон, Арци Йоав, Додж Джесси и Зеттлемойер Люк. 2014 г. Контекстно-зависимый семантический синтаксический анализ для выражений времени. В материалах 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи), страницы 1437–1447, Балтимор, Мэриленд, 6 Ассоциация компьютерной лингвистики. [Google Scholar]
Лин Чен, Карлсон Элизабет В., Длигач Дмитрий, Рамирес Моника П., Миллер Тимоти А., Мо Хуан, Брэггс Натали С., Кейган Эндрю, Гейнер Вивиан С., Денни Джошуа С. и Савова Гергана К. 2015. Автоматическое определение токсичности печени, вызванной метотрексатом, у пациентов с ревматоидным артритом по электронной медицинской карте. Журнал Американской ассоциации медицинской информатики, 22 (e1): e151 – e161. [Бесплатная статья PMC] [PubMed] [Google Scholar]
Льоренс Гектор, Дерчинский Леон, Гайзаускас Роберт Дж. И Сакете Эстела. 2012 г. TIMEN: открытый ресурс нормализации временных выражений. В «Языковые ресурсы и конференция по оценке», страницы 3044–3051.Европейская ассоциация языковых ресурсов (ELRA). [Google Scholar]
Ма Сюэчжэ и Хови Эдуард. 2016 г. Сквозная маркировка последовательностей с помощью двунаправленного LSTM-CNNs-CRF. В материалах 54-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL; 2016), том 1 Ассоциация компьютерной лингвистики. [Google Scholar]
Мазур Павет и Дейл Роберт. 2010 г. Wikiwars: новый корпус для исследования темпоральных выражений. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ‘10, pages 913–922, Stroudsburg, PA, USA Ассоциация компьютерной лингвистики.[Google Scholar]
Планка Барбара, Согаард Андерс и Гольдберг Йоав. 2016 г. Многоязычная маркировка частей речи с двунаправленными моделями долговременной краткосрочной памяти и вспомогательными потерями. В материалах 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Краткие статьи), страницы 412–418, Берлин, Германия, август Ассоциация компьютерной лингвистики. [Google Scholar]
Пустеевски Джеймс, Кастаньо Хосе, Ингрия Роберт, Саури Розер, Гайсаускас Роберт, Сетцер Андреа и Кац Грэм.2003a. TimeML: надежная спецификация событий и временных выражений в тексте. В IWCS-5, Пятом международном семинаре по вычислительной семантике. [Google Scholar]
Пустеевски Джеймс, Хэнкс Патрик, Саури Розер, См Эндрю, Гайзаускас Роберт, Сетцер Андреа, Радев Драгомир, Сундхейм Бет, Дэй Дэвид, Ферро Лиза и Лазо Марсия. 2003b. Корпус TimeBank. В Proceedings of Corpus Linguistics 2003, Ланкастер. [Google Scholar]
Джеймс Пустеджовски, Ли Кийонг, Бунт Гарри и Ромэри Лоран.2010 г. ISO-TimeML: международный стандарт семантической аннотации. В материалах 7-й Международной конференции по языковым ресурсам и оценке (LREC’10), Валлетта, Мальта Европейская ассоциация языковых ресурсов (ELRA). [Google Scholar]
Ци Яньцзюнь, Кавукчуоглу Корай, Коллоберт Ронан, Уэстон Джейсон и Кукса Павел П., 2009 г. Объединение помеченных и немаркированных данных с обучением распределению классов слов. В материалах 18-й конференции ACM по управлению информацией и знаниями, ACM, страницы 1737–1740.[Google Scholar]
Шилдер Франк. 2004 г. Извлечение значения из временных существительных и временных предлогов. Транзакции ACM по обработке информации на азиатских языках (TALIP) — специальный выпуск по обработке временной информации, 3 (1): 33–50, март. [Google Scholar]
Стретген Янник и Герц Михаэль. 2013. Многоязычная и междоменная временная маркировка. Языковые ресурсы и оценка, 47 (2): 269–298. [Google Scholar]
Стретген Янник и Герц Михаэль. 2015 г. Базовый темпоральный теггер для всех языков.В материалах конференции 2015 г. по эмпирическим методам обработки естественного языка, страницы 541–547, Лиссабон, Португалия, сентябрь. Ассоциация компьютерной лингвистики. [Google Scholar]
Стретген Янник, Зелл Хулиан и Герц Михаэль. 2013. Heideltime: настройка английского языка и разработка ресурсов на испанском для TempEval-3. В материалах седьмого международного семинара по семантической оценке, SemEval ’13, страницы 15–19. Ассоциация компьютерной лингвистики. [Google Scholar]
Тутанова Кристина, Кляйн Дэн, Мэннинг Кристофер Д., и певец Йорам. 2003 г. Многофункциональная маркировка части речи с циклической сетью зависимостей. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology — Volume 1, NAACL ’03, pages 173–180, Stroudsburg, PA, USA Ассоциация компьютерной лингвистики. [Google Scholar]
Уззаман Наушад, Ллоренс Гектор, Дерчинский Леон, Аллен Джеймс, Верхаген Марк и Пустеевски Джеймс. 2013. SemEval-2013 Задача 1: TempEval-3: Оценка выражений времени, событий и временных отношений.На Второй совместной конференции по лексической и вычислительной семантике (* SEM), том 2: Материалы седьмого международного семинара по семантической оценке (SemEval 2013), страницы 1–9, Атланта, Джорджия, США, 6 Ассоциация компьютерной лингвистики. [Google Scholar]
Верхаген Марк, Гайзаускас Роберт, Шильдер Франк, Хеппл Марк, Кац Грэм и Пустеевски Джеймс. 2007 г. СемЭваль-2007 Задача 15: Идентификация временной связи TempEval. В материалах 4-го Международного семинара по семантическим оценкам, SemEval ’07, страницы 75–80, Прага, Чешская Республика.[Google Scholar]
Верхаген Марк, Саури Розер, Казелли Томмазо и Пустеевски Джеймс. 2010 г. СемЭвал-2010 Задача 13: ТемпЭвал-2. В материалах 5-го Международного семинара по семантической оценке, страницы 57–62, Упсала, Швеция, 7 Ассоциация компьютерной лингвистики. [Google Scholar]
Фоссен Пик, Аджерри Родриго, Альдабе Ициар, Цибульска Агата, Мариеке ван Эрп Антске Фоккенс, Лапарра Эгоитц, Минард Анн-Лизе, Алессио Палмеро Апросио Герман Ригау, Роспоче Марко и Сегерс Роксан.2016 г. NewsReader: использование ресурсов знаний в многоязычной читающей машине для получения дополнительных знаний из огромных потоков новостей. Системы, основанные на знаниях специального выпуска, Elsevier. [Google Scholar]

Семантический анализ композиции в полуструктурированных таблицах — arXiv Vanity

6.1 Алгоритм синтаксического анализа

Мы предлагаем новый плавающий парсер , более гибкий, чем стандартный парсер диаграмм. Оба парсера рекурсивно создают производные и соответствующие логические формы путем многократного применения правил дедукции, но плавающий синтаксический анализатор позволяет использовать предикаты логической формы генерироваться независимо от высказывания.

Анализатор диаграмм. Мы кратко рассмотрим алгоритм CKY для разбора диаграмм, чтобы ввести обозначения. Учитывая высказывание с токенами x1,…, xn, алгоритм CKY применяет правила дедукции следующих двух видов:

	TIMEX3			TIMEX3-цифры
	P	R	F ₁
Char	70.2	62,7	66,2	73,8	71,4	72,6
Word	81,3	69,0	74,7	86,2

	(\ emph {TokenSpan}, i, j) [s] → (c, i, j) [f (s)],		(4)
	(c1, i, k) [z1] + (c2, k + 1, j) [z2]		(5)
	→ (c, i, j) [f (z1, z2)].

Первое правило — лексическое правило который соответствует диапазону лексемы высказывания xi ⋯ xj (например, s = \ emph‘‘NewYork ′ ′) и создает логическую форму (например, f (s) = {NewYorkCity}) с категорией c (например, Entity). Второе правило берет два соседних пролета, дающих начало логическая форма z1 и z2 и строит новую логическую форму f (z1, z2). Алгоритмически, CKY хранит деривации категории c, покрывающие промежуток xi ⋯ xj в ячейке (c, i, j). CKY заполняет ячейки увеличения длины пролета, и возвращаются логические формы в верхней ячейке (\ emph {ROOT}, 1, n).

Правило		Семантика	Пример
→ Привязан к высказыванию
TokenSpan →	Организация	совпадение (z1)	Греция
(совпадение (я) = сущность с именами)			якорь «Греция»
TokenSpan →	Атомный	вал (z1)	2012-07-XX
(val (s) = интерпретируемое значение)			привязан к «июль 2012»
→ Без якоря (плавающий)
→ ∅ → Отношение		r	Страна
(r = отношение строка-сущность)
→ ∅ → Отношение		λx [r.p.x]	λx [{Год}. {Дата} .x]
(p = отношение нормализации)
→ ∅ → Записи		{Type}. {Row}	(список всех строк)
→ ∅ → Запись Fn		Индекс	(строка ← индекс строки)
→

Таблица 2: Базовые правила удержания. Сущности и атомарные значения (например, числа, даты) привязаны к промежуткам токенов, в то время как другие предикаты остаются плавающими.(a ← b представляет двоичное отображение b в a.) Таблица 3: Правила композиционной дедукции. Каждое правило c1,…, ck → c принимает логические формы z1,…, zk. построенные по категориям c1,…, ck соответственно, и создает логическую форму на основе семантики.

Плавающий парсер. При синтаксическом анализе диаграммы используются лексические правила (4) генерировать соответствующие логические предикаты, но в нашей настройке семантического синтаксического анализа таблиц, у нас нет роскоши начинать или создавать полноценный лексикон. Более того, есть несоответствие между словами в высказывании и предикаты в логической форме.Например, рассмотрим вопрос «В каком году Греция проводила свои последние летние Олимпийские игры?» в таблице на рисунке 1 и правильная логическая форма R [λx [{Год}. {Дата} .x]]. {Argmax} ({% Страна}. {Греция}, {Индекс}). Хотя объект «Греция» может быть привязан к токену «Греция» , некоторые логические предикаты (например, Страна) не может быть четко привязан к диапазону токенов. Мы потенциально могли бы научиться привязать логическую форму {Страна}. {Греция} к «Греция» , но если отношение Country не видно во время обучения, такое отображение невозможно узнать из обучающих данных.Точно так же некоторые известные жетоны (например, «Олимпийские игры» ) не имеют отношения к делу и не имеют привязанных к ним предикатов.

Следовательно, вместо привязки каждого предиката в логической форме к токенам в высказывании через лексические правила, мы предлагаем более свободный парсинг. Мы заменяем закрепленные ячейки (c, i, j) с плавающими ячейками (c, s) категории c и логической формы размера s. Затем мы применяем правила следующих трех видов:

	(\ emph {TokenSpan}, i, j) [s] → (c, 1) [f (s)],		(6)
	∅ → (c, 1) [f ()],		(7)
	(c1, s1) [z1] + (c2, s2) [z2]		(8)
	→ (c, s1 + s2 + 1) [f (z1, z2)].

Обратите внимание, что правила (6) аналогичны (4) при синтаксическом анализе диаграммы. за исключением того, что плавающая ячейка (c, 1) отслеживает только категорию и ее размер 1, а не диапазон (i, j). Правила (7) позволяют нам строить предикаты из воздуха. Например, мы можем построить логическую форму, представляющую отношение таблицы Country в ячейке (\ emph {Отношение}, 1) с помощью правила ∅ → \ emph {Отношение} [{Страна}] независимо от произнесения. Правила (8) исполняйте композицию, где индукция основана на размере логической формы s, а не на длине пролета.Алгоритм останавливается при достижении указанного максимального размера, после чего логические формы в ячейках (\ emph {ROOT}, s) для любых s включены в Zx. На рисунке 4 показан пример вывода, сгенерированного нашим плавающим синтаксическим анализатором.

Плавающий синтаксический анализатор очень гибкий: он может пропускать токены. и комбинируйте логические формы в любом порядке. Эта гибкость может показаться слишком неограниченной, но мы можем использовать строгие ограничения типизации, чтобы предотвратить создание бессмысленных производных.

Рисунок 4: Вывод для высказывания «В каком году Греция проводила свои последние летние Олимпийские игры?» Только Греция привязана к фразе «Греция» ; Год и другие предикаты являются плавающими.

Таблицы 2 и 3 покажите полный набор правил дедукции, которые мы используем. Мы предполагаем, что все названные сущности явным образом появится в вопросе x, поэтому мы привязываем все предикаты сущностей (например, Греция) в промежутки между токенами (например, «Греция» ). Мы также привязываем все числовые значения (числа, даты, проценты и т. Д.) обнаружен системой NER. Напротив, отношения (например, Страна) и операции (например, argmax) остаются плавающими, поскольку мы хотим узнать, как они выражаются в языке. Связи между фразами в x и сгенерированным отношения и операции в z устанавливаются в модели ранжирования через функции.

6.2 Характеристики

«В каком году Греция проводила свои последние летние Олимпийские игры?»
z = R [λx [{Год}. {Число} .x]]. {Argmax} (% Тип. {Строка}, {Индекс})
y = {\ emph {2012}} (тип: Num, столбец: Year)

Таблица 4: Примеры функций, которые активируются для (неправильной) логической формы z. Все функции бинарны. (lex = лексикализованный)

Мы определяем признаки ϕ (x, w, z) для нашей лог-линейной модели. чтобы зафиксировать взаимосвязь между вопросом x и кандидатом z. В таблице 4 показаны некоторые примеры функций каждого типа.Большинство функций имеют форму (f (x), g (z)) или (f (x), h (y)) где y = ⟦z⟧w — обозначение, а f, g и h извлекают некоторую информацию (например, идентификационные данные, теги POS) от x, z или y соответственно.

фраза-предикат: Конъюнкции между n-граммами f (x) из x и предикаты g (z) из z. Мы используем обе лексикализованные функции, где все возможные пары (f (x), g (z)) образуют различные особенности, и бинарные нелексикализованные функции, указывающие, f (x) и g (z) совпадают по строке.

пропущенный-предикат: Индикаторы наличия сущностей или отношений упомянуты в x, но не в z.Эти функции не лексикализованы.

обозначение: Размер и тип обозначения y = ⟦x⟧w. Тип может быть примитивным (например, Num, Date, Entity). или имя столбца, содержащего объект в y (например, Город).

фраза-обозначение: Соединения между n-граммами от x и типами y. Подобно функциям фразы-предиката, мы используем как лексикализованные, так и нелексикализованные функции.

заглавное слово-обозначение: Союзы между вопросительным словом Q (е.г., что , кто , сколько ) или заглавное слово H (первое существительное после вопросительного слова) с типами y.

6.3 Создание и обрезка

Из-за своей рекурсивной природы правила позволяют нам создавать высоко композиционные логические формы. Однако композиционность достигается за счет создания экспоненциально много логических форм, большинство из которых избыточны (например, логические формы с операцией argmax над набором размером 1). Мы используем несколько методов, чтобы справиться с этим комбинаторным взрывом:

Поиск луча.Мы вычисляем модельную вероятность каждой частичной логической формы на основе доступных функций (т.е. функций, которые не зависят от окончательного обозначения) и оставьте только K = 200 логических форм с наибольшим количеством очков в каждой ячейке.

Обрезка. Мы удаляем частичные логические формы, ведущие к недопустимым или избыточным конечным логическим формам. Например, мы исключаем любую логическую форму, которая не проверяет тип. (например, {Пекин} ⊔ {Греция}), выполняется в пустой список (например, {Год}. {Число}. \ emph {24}), включает в себя совокупность или превосходную степень для одноэлементного набора (е.g., {argmax} ({Год}. {Число}. \ emph {2012}, {Индекс})), или соединяет два отношения, противоположные друг другу (например, R [{Город}]. {Город}. {Пекин}).

Последние достижения в области машинного обучения

Руководство для чтения

Что это за страница? На этой странице слева показаны таблицы, извлеченные из документов arXiv. Он показывает извлеченные результаты с правой стороны, которые соответствуют таксономии в Papers With Code.

Какие цветные прямоугольники справа? Здесь показаны результаты, извлеченные из статьи и связанные с таблицами слева.Результат состоит из значения метрики, имени модели, имени набора данных и имени задачи.

Что означают цвета? Зеленый означает, что результат одобрен и показан на сайте. Желтый — результат того, что вы добавили, но еще не сохранили. Синий — это результат ссылки, полученный из другой бумаги.

Откуда берутся предлагаемые результаты? У нас есть модель машинного обучения, работающая в фоновом режиме, которая дает рекомендации по статьям.

Откуда берутся ссылочные результаты? Если мы находим в таблице результаты со ссылками на другие статьи, мы показываем проанализированный справочный блок, который редакторы могут использовать для аннотирования, чтобы получить эти дополнительные результаты из других статей.