Разбор по составу слова значительный: Страница не найдена

Содержание

Разбор слов по составу

Разбор слова по составу

Тип лингвистического анализа, в результате которого определяется структура слова, а также его состав, называется морфемным анализом.

Виды морфем

В русском языке используются следующие морфемы:

— Корень. В нем заключается значение самого слова. Слова, у которых есть общий корень, считаются однокоренными. Иногда слово может иметь два и даже три корня.
— Суффикс. Обычно идет после корня и служит инструментом для образования других слов. К примеру, «гриб» и «грибник». В слове может быть несколько суффиксов, а может не быть совсем.
— Приставка. Находится перед корнем. Может отсутствовать.
— Окончание. Та часть слова, которая изменяется при склонении или спряжении.
— Основа. Часть слова, к которой относятся все морфемы, кроме окончания.

Важность морфемного разбора

В русском языке разбор слова по составу очень важен, ведь нередко для правильного написания слова необходимо точно знать, частью какой морфемы является проверяемая буква. Многие правила русского языка построены на этой зависимости.

Пример

В качестве примера можно взять два слова: «чёрный» и «червячок». Почему в первом случае на месте ударной гласной мы пишем «ё», а не «о», как в слове «червячок»? Нужно вспомнить правило написания букв «ё», «е», «о» после шипящих, стоящих в корне слова. Если возможно поменять форму слова либо подобрать родственное ему так, чтобы «ё» чередовалась с «е», тогда следует ставить букву «ё» (чёрный — чернеть). Если чередование отсутствует, тогда ставится буква «о» (например, чокаться, шорты).

В случае же со словом «червячок» «-ок-» — это суффикс. Правило заключается в том, что в суффиксах, если стоящая после шипящих букв гласная находится под ударением, всегда пишется «о» (зрачок, снежок), в безударном случае — «е» (платочек, кармашек).

Как разобрать слово по составу

Для помощи начинающим существуют морфемно-орфографические словари. Можно выделить книги таких авторов, как Тихонов А.Н., Ожегов С.И., Рацибурская Л.В.

В любом слове непременно должны присутствовать корень и основа. Остальных морфем может и не быть. Иногда слово целиком может состоять из корня (или основы): «гриб», «чай» и т.д.

Этапы морфемного анализа

Чтобы морфемный разбор слов было легче осуществить, следует придерживаться определенного алгоритма:

— Сначала нужно определить часть речи, задав вопрос к слову. Для прилагательного это будет вопрос «какой?», для существительного — «что?» или «кто?».
— Затем нужно выделить окончание. Чтобы его найти, слово нужно просклонять по падежам, если часть речи это позволяет. Например, наречие изменить никак нельзя, поэтому у него не будет окончания.
— Далее нужно выделить основу у слова. Все, кроме окончания, — основа.
— Потом следует определить корень, подобрав родственные однокоренные слова.
— Определяется приставка, а потом суффиксы (при их наличии).

Особенности разбора

Иногда подход к морфемному разбору в программах университета и школы может отличаться. Во всех случаях различия аргументированы и имеют право на существование. Поэтому стоит ориентироваться на морфемный словарь, рекомендованный в конкретном учебном заведении.

Морфема

Discover Eckher Semantic Web Browser: «http://xmlns.com/foaf/0.1/Person», «http://schema.org/Organization», «http://www.w3.org/2004/02/skos/core#definition», «http://www.wikidata.org/entity/Q1».

Discover English pronunciations: «Olaf Scholz», «Karl Nehammer», «Alexander Schallenberg», «omicron», «Dimitrescu», «DOGE», «fatale», «Dogecoin», «Niçoise», «Nahum», «Oisín», «cheugy», «bamlanivimab».

Create sequence logos for protein and DNA/RNA alignments using Eckher Sequence Logo Maker.

Compose speech audio from IPA phonetic transcriptions using Eckher IPA to Speech.

Browse place name pronunciation on Eckher IPA Map.

Enter IPA characters using Eckher IPA Keyboard.

Navigate the Semantic Web and retrieve the structured data about entities published on the web using Eckher Semantic Web Browser.

Turn your phone into a compass using Eckher Compass.

Browse word pronunciations online using Eckher Dictionary.

Author, enrich, and query structured data using Eckher Database for RDF.

Create TeX-style mathematical formulas online with Eckher Math Editor.

Create knowledge graphs using Eckher RDF Graph Editor.

Send messages and make P2P calls using Eckher Messenger.

Build event-sourced systems using Eckher Database for Event Sourcing.

View PDB files online using Eckher Mol Viewer.

Listen to your text using Eckher Text to Speech.

View FASTA sequence alignments online with Eckher Sequence Alignment Viewer.

Convert Punycode-encoded internationalized domain names (IDNs) to Unicode and back with Eckher Punycode Converter.

Explore the human genome online with Eckher Genome Browser.

Edit text files online with Eckher Simple Text Editor.

Send test emails with Eckher SMTP Testing Tool.

Разбор слов по составу: «заметный», «сильнее», «беспрестанно», «грустно», «перерыв», «неряшливо», «крикливость», «невозможно», «наушник», «тихо».

What do you call a person from Barbados?

What do you call a person from New Zealand?

What do you call a person from Niger?

What do you call a person from Switzerland?

What do you call a person from Finland?

What do you call a person from Denmark?

Розбір слів за будовою: «ходити», «батько».

Разбор слоў па саставе: «рассыпаць», «крычаць», «засеяць», «асенні», «адбіраць», «ісці».

Ударения в словах: «Шеншин», «мальбек», «хуцпа», «начав», «Майкоп».

Синонимы к словам: «потешить», «подхалимство», «хтонь», «тужить», «неблагоприятный», «непостоянный».

Антонимы к словам: «сжать», «демпинг», «этатизм», «иллюзия».

Разбор по составу слова «удивительный»

Выполним раз­бор по соста­ву сло­ва «уди­ви­тель­ный», выде­лив при­став­ку, корень, суф­фик­сы и окончание.

Прежде чем разо­брать по соста­ву сло­во «уди­ви­тель­ный», опре­де­лим, к какой части речи оно при­над­ле­жит. Ведь в рус­ском язы­ке сло­во каж­дой части речи обла­да­ет сво­им типич­ным набо­ром морфем.

Какой уди­ви­тель­ный под­вод­ный мир пере­до мной!

Мир (какой?) удивительный.

Анализируемое сло­во обо­зна­ча­ет при­знак пред­ме­та и явля­ет­ся само­сто­я­тель­ной частью речи име­нем при­ла­га­тель­ным, кото­рое меня­ет свою грам­ма­ти­че­скую фор­му в зави­си­мо­сти от того, суще­стви­тель­ное како­го рода и чис­ла оно поясняет:

  • удивительн-ая история;
  • удивительн-ое дело;
  • удивительн-ые рыбки.

Сравнив фор­мы при­ла­га­тель­но­го, выде­лим сло­во­из­ме­ни­тель­ную мор­фе­му -ый в каче­стве окон­ча­ния, кото­рое не вклю­ча­ем в осно­ву — удивительн-.

Далее  ука­жем суф­фикс -тельн-, кото­рый заме­чен в мор­фем­ном соста­ве мно­гих прилагательных:

  • уди­вительный слу­чай;
  • зани­мательный кон­курс;
  • исклю­чительный ум;
  • увле­кательный поход.

Поясним, поче­му в соста­ве этих имён при­ла­га­тель­ных отме­тим имен­но суф­фикс -тельн-, а не суф­фик­сы -тель- и -н-. Чтобы ука­зать суф­фикс —тель-, необ­хо­ди­мо обра­зо­вать с его помо­щью новое сло­во. А это невоз­мож­но, так как не суще­ству­ет в рус­ском язы­ке слов «уди­ви­тель», «зани­ма­тель», «исклю­чи­тель» или «увле­ка­тель» .

В рус­ском язы­ке неко­то­рым име­нам суще­стви­тель­ным при­над­ле­жит суф­фикс —тель- , с помо­щью кото­ро­го обра­зу­ют­ся назва­ния лиц по роду дея­тель­но­сти, раз­лич­ных пред­ме­тов с опре­де­лен­ной функцией :

  • море­пла­ватель
  • учитель
  • создатель
  • удли­нитель
  • ука­затель

От гла­го­ла «уди­вить» это­му одно­ко­рен­но­му при­ла­га­тель­но­му доста­лись при­став­ка у- и суф­фикс -и-. Проследим за этим, если соста­вим сло­во­об­ра­зо­ва­тель­ную цепочку:

диво → дивить → удивить→ удивитель­ный.

Корнем явля­ет­ся мини­маль­ная зна­чи­мая часть див-, кото­рая про­сле­жи­ва­ет­ся в мор­фем­ном соста­ве род­ствен­ных слов, пред­став­лен­ных в сло­во­об­ра­зо­ва­тель­ной цепочке.

Закончим раз­бор по соста­ву иссле­ду­е­мо­го сло­ва и собе­рем все выде­лен­ные мор­фе­мы в ито­го­вую схему:

удивительный — приставка/корень/суффикс/суффикс/окончание.

Скачать ста­тью: PDFЛексическая категория

— обзор

5.2.1 Обзор ресурсов, разработанных для обработки сербского языка

Многочисленные ресурсы, которые могут быть использованы для целей нашего исследования, были разработаны для обработки сербского языка, но многие из них имеют быть измененным или улучшенным. Большая часть этих ресурсов была разработана в системе Unitex [22], а часть из них была адаптирована для системы GATE [23].

Система Unitex — это система с открытым исходным кодом, разработанная Себастьеном Помье в Институте Гаспара-Монж при Университете Парижа в Марн-ла-Валле в 2001 году.Это система обработки корпуса, основанная на автоматизированной технологии, которая находится в постоянном развитии. Система используется во всем мире для задач НЛП, поскольку она обеспечивает поддержку ряда различных языков и многоязычных задач обработки.

Одной из основных частей системы являются электронные словари типа DELA (Dictionnaires Electroniques du Laboratoire d’Automatique Documentaire et Linguistique или электронные словари LADL), которые представлены на рис.2. Система состоит из словарей DELAS (простые формы DELA) и DELAF (DELA флективных форм). Словари DELAS — это словари простых слов, не изменяемых форм, в то время как словари DELAF содержат все изменяемые формы простых слов. С другой стороны, система содержит словари составных DELAC (DELA составных форм) и словари складываемых составных форм DELACF (DELA составных склонных форм).

Рис. 2. Система электронных словарей DELA.

Морфологические словари в формате DELA были предложены Лабораторией автоматической документации и лингвистики под руководством Мориса Гросса. Формат словарей DELA подходит для решения задач сегментации текста и морфологической, синтаксической и семантической обработки текста. Подробнее о формате DELA можно найти в [24].

Морфологические электронные словари в формате DELA представляют собой простые текстовые файлы. Каждая строка в этих файлах содержит запись слова и измененную форму слова.Другими словами, каждая строка содержит лемму слова и некоторую грамматическую, семантическую и флективную информацию.

Пример записи из словаря DELAF на английском языке: « таблиц, таблица.N + Conc: p ». Флективная форма таблицы является обязательной, таблица является леммой записи, а N + Conc представляет собой последовательность грамматической и семантической информации (N обозначает существительное, а Conc обозначает, что это существительное — конкретный объект), p — флективный код, который указывает на то, что существительное является множественным числом.

Словари этого типа для сербского языка разрабатываются группой НЛП на факультете математики Белградского университета. Согласно [21], нынешний объем сербского морфологического словаря DELAS (простых слов) содержит 130 000 лемм. Большинство лемм из словаря DELAS относятся к общей лексике, а остальные относятся к разным видам простых имен собственных. Словарь DELAF содержит около 4 300 000 словоформ с заданными грамматическими категориями.Размер словарей DELAC и DELACF составляет примерно 10 500 и 54 000 лемм соответственно.

Аналогичный пример записи из сербского словаря простых словоформ с соответствующим грамматическим и семантическим кодом: padao, padati. V + Imperf + It + Iref: Gms, где словоформа padao является единственным (S) мужским родом (M) активного причастия прошедшего времени (G) глагола (V) padati «падать», который несовершенное (Imperf), непереходное (It) и рефлексивное (Iref).

Другой тип ресурсов, разработанный для сербского языка, — это различные типы конечных преобразователей. Конечные преобразователи используются для выполнения морфологического анализа, а также для распознавания и аннотирования фраз в текстах прогнозов погоды с соответствующими тегами XML, такими как ENAMEX, TIMEX и NUMEX, как мы объясняли ранее.

Пример графа конечного преобразователя для распознавания временных выражений и их аннотации с помощью тегов TIMEX представлен на рис. 3. Этот граф конечного преобразователя может распознавать последовательность « 14.01.2012 . » из текста нашего примера прогноза погоды и аннотируйте его тегом TIMEX, чтобы его можно было извлечь в форме «ДАТА_ВРЕМЯ: 14.01.2012».

Рис. 3. Граф преобразователя с конечным числом состояний для извлечения и аннотирования временных выражений.

Другая система, которая больше подходит для решения проблемы IE (и CM), — это бесплатное программное обеспечение с открытым исходным кодом GATE (General Architecture for Text Engineering). Система GATE или некоторые из ее компонентов уже используются для ряда различных задач НЛП на нескольких языках.Система GATE — это архитектура и среда разработки для приложений НЛП. GATE разрабатывается NLP Group Университета Шеффилда с 1995 года.

Архитектура GATE состоит из трех частей: языковые ресурсы, ресурсы обработки и визуальные ресурсы. Эти компоненты независимы, поэтому с системой могут работать разные типы пользователей. Программисты могут работать над разработкой алгоритмов для НЛП или настраивать внешний вид визуальных ресурсов для своих нужд, в то время как лингвисты могут использовать алгоритмы и языковые ресурсы без каких-либо дополнительных знаний о программировании.

Визуальные ресурсы, графический пользовательский интерфейс, останется в исходной форме для целей данного исследования. Это позволит визуализировать и редактировать языковые ресурсы и ресурсы обработки. Языковые ресурсы для этого исследования включают корпуса текстов прогнозов погоды на нескольких языках и концептуальную модель прогноза погоды, которая будет построена. Необходимая модификация ресурсов обработки, особенно модификации для применения в обработке сербских текстов, представлены ниже.

Задача IE в GATE встроена в систему ANNIE (почти новое извлечение информации). Подробную информацию об ANNIE можно найти в [25]. Система ANNIE включает в себя следующие ресурсы обработки: Tokeniser, Sentence Splitter, POS (часть речи) tagger, Gazetteer, Semantic Tagger и Orthomatcher. Каждый из перечисленных ресурсов создает аннотации, необходимые для следующего ресурса обработки в списке:

Tokeniser разбивает текст на токены (слова, числа, символы, белые шаблоны и знаки препинания).Токенизатор можно использовать для обработки текстов на разных языках с небольшими изменениями или без них.

Sentence Splitter сегментирует текст на предложения, используя каскады конечных преобразователей. Он также не зависит от приложения и языка.

POS Tagger назначает тег части речи (тег лексической категории, например, существительное, глагол) в форме аннотации к каждому слову. Английская версия POS Tagger, входящая в систему GATE, основана на тэггере Brill.Это не зависящий от приложения, но зависящий от языка ресурс, который должен быть полностью изменен для сербского языка.

Другой ресурс, зависящий от языка, но зависящий от приложения, — это Gazetteer, который содержит списки городов, стран, личных имен, организаций и т. Д. Gazetteer использует эти списки для аннотирования появления элементов списка в текстах. .

Semantic Tagger основан на языке JAPE (Java Annotations Pattern Engine) [26].JAPE выполняет конечную обработку аннотаций на основе регулярных выражений, и его важной характеристикой является то, что он может использовать концептуальные модели (онтологии).

Semantic Tagger включает набор грамматик JAPE, где каждая грамматика состоит из набора фаз, а каждая фаза представляет собой набор правил. Кроме того, правила содержат левую и правую стороны. Левая сторона (LHS) правила описывает шаблон аннотации, который обычно распознается на основе операторов регулярного выражения Клини.Правая сторона (RHS) правила описывает действие, которое должно быть предпринято после того, как LHS распознает шаблон, например, создание новой аннотации. Это ресурс, зависящий от приложения и языка.

Orthomatcher идентифицирует отношения между именованными объектами, обнаруженными Semantic Tagger. Он создает новые аннотации на основе отношений между именованными объектами. Это независимый от приложения и языка ресурс.

Основная цель — разработать ресурсы, зависящие от языка или приложения (Gazetteer, POS Tagger и Semantic Tagger) для сербского языка.Путь, который мы выбрали для решения этой проблемы, — использовать ранее описанные ресурсы, разработанные для системы Unitex, и адаптировать их для использования в системе GATE. Изменение списков географического справочника — это простой процесс перевода с одного языка на другой. Построение грамматик JAPE с поддержкой онтологий для области прогноза погоды требует первоначальной разработки соответствующего подъязыка и концептуальной модели, которые будут обсуждаться в следующем подразделе в качестве предмета текущих исследований авторов.Проблема создания подходящего POS Tagger очень сложна и не будет здесь подробно описываться.

Вкратце, мы сделали оболочку для Unitex, чтобы ее можно было использовать непосредственно в системе GATE для создания электронных словарей для заданных текстов прогноза погоды и механизма для создания соответствующей аннотации POS Tagger для каждого слова. Это решение проблемы, хотя и имеет несколько недостатков, может стать хорошей основой для создания семантических тегов на основе концептуальных моделей и систем IE в целом.

Что такое парсер? — Определение из Техопедии

Что означает синтаксический анализатор?

Анализатор — это компонент компилятора или интерпретатора, который разбивает данные на более мелкие элементы для облегчения перевода на другой язык. Анализатор принимает ввод в виде последовательности токенов, интерактивных команд или программных инструкций и разбивает их на части, которые могут использоваться другими компонентами в программировании.

Анализатор обычно проверяет все предоставленные данные, чтобы убедиться, что их достаточно для построения структуры данных в форме дерева синтаксического анализа или абстрактного синтаксического дерева.

Techopedia объясняет синтаксический анализатор

Чтобы код, написанный в удобочитаемой форме, мог быть понят машиной, он должен быть преобразован в машинный язык. Эту задачу обычно выполняет переводчик (интерпретатор или компилятор). Синтаксический анализатор обычно используется как компонент переводчика, который организует линейный текст в структуру, которой можно легко манипулировать (дерево синтаксического анализа). Для этого он следует набору определенных правил, называемых «грамматикой».

Общий процесс синтаксического анализа включает три этапа:

  1. Лексический анализ: Лексический анализатор используется для создания токенов из потока входных строковых символов, которые разбиваются на небольшие компоненты для формирования значимых выражений.Токен — это наименьшая единица языка программирования, имеющая какое-то значение (например, +, -, *, «функция» или «новый» в JavaScript).

  2. Синтаксический анализ: Проверяет, образуют ли сгенерированные токены осмысленное выражение. Это использует контекстно-свободную грамматику, которая определяет алгоритмические процедуры для компонентов. Они работают, чтобы сформировать выражение и определить конкретный порядок, в котором должны быть размещены токены.

  3. Семантический анализ: Заключительный этап синтаксического анализа, на котором определяется значение и значение проверенного выражения и предпринимаются необходимые действия.

Основная цель синтаксического анализатора — определить, могут ли входные данные быть получены из начального символа грамматики. Если да, то каким образом можно получить эти входные данные? Это достигается следующим образом:

  • Нисходящий синтаксический анализ: Включает поиск в дереве синтаксического анализа, чтобы найти самые левые производные входного потока, используя расширение сверху вниз. Анализ начинается с начального символа, который преобразуется во входной символ до тех пор, пока все символы не будут переведены и не будет построено дерево синтаксического анализа для входной строки.Примеры включают синтаксические анализаторы LL и синтаксические анализаторы с рекурсивным спуском. Анализ сверху вниз также называется прогнозным или рекурсивным анализом.

  • Анализ снизу вверх: Включает перезапись ввода обратно в начальный символ. Он действует в обратном порядке, отслеживая крайнее правое происхождение строки до тех пор, пока дерево синтаксического анализа не будет построено до начального символа. Этот тип синтаксического анализа также известен как синтаксический анализ с уменьшением сдвига. Одним из примеров является парсер LR.

Синтаксические анализаторы широко используются в следующих технологиях:

  • Java и другие языки программирования.

  • HTML и XML.

  • Интерактивный язык данных и язык определения объектов.

  • Языки баз данных, например SQL.

  • Языки моделирования, например язык моделирования виртуальной реальности.

  • Языки сценариев.

  • Протоколы, например вызовы удаленных функций HTTP и Интернета.

(PDF) Чтение слов Her, His, Him: значение для принципов синтаксического анализа, основанных на частоте и структуре

предшествующий поиск, когда структурно недоступный NP

сильно стереотипно относится к одному полу по сравнению с

другим и есть гендерное соответствие между NP и обрабатываемым местоимением или анафорой

.

Эффект гендерного соответствия, наблюдаемый в условиях NP

настоящего эксперимента, был подобен паттерну

крачка, наблюдаемому у Badecker и Straub (2002). Однако

предложений Бадекера и Штраубеса (2002) содержали антецедент

местоимению (см. 2a и b). Текущие результаты

показали, что более продолжительное время чтения, наблюдаемое

Бадекером и Штраубом (2002), могло быть получено, даже если в контексте не присутствовал структурно доступный антецедент

.Их результаты могут иметь результат

из-за совпадения пола между существительным pro-

и структурно недоступным субъектом, скорее

, чем результатом только совпадения пола между

структурно недоступным субъектом и структурно

доступным субъектом. предшествующий.

Спецификатор в сравнении с условиями NP

Изначально читателям, казалось, требовалось больше времени для обработки

условий NP, чем условий SPEC, когда субъект

предложения был женским именем собственным.Разница во времени чтения

была значительной в регионах 4–6:

F1ð1; 65Þ¼5: 05, MSE ¼64; 904, p <: 05, F2ð1; 29Þ¼

2:56, MSE 29; 437, p>: 05; F1ð1; 65Þ¼33: 49, MSE ¼

388; 326, p <: 05, F2ð1; 29Þ¼21: 90, MSE ¼312; 616,

p <: 05; и F1ð1; 65Þ¼5: 04, MSE ¼192; 742, p <: 05,

F2ð2; 29Þ¼4: 21, MSE ¼87; 325, p <: 05 соответственно.

Когда предметом предложения было собственное мужское имя

или местоимение множественного числа, время чтения в регионах

4 и 5 было больше в условиях NP, чем в условиях SPEC; тем не менее, различия не достигли значимости —

раз при анализе как участников, так и предметов (собственно самец

условия имени: регион 4, F1ð1; 65Þ¼3: 11, MSE ¼

56; 420, p>: 05, F2ð1; 29Þ¼2: 36, MSE ¼25; 751,

p>: 05 и область 5, F1ð1; 65×3: 35, MSE 118; 920,

p>: 05, F2ð1; 29Þ¼2: 54, MSE 52; 215, p> : 05 и

местоимений множественного числа, которые они определяют: область 4, F1ð1; 65Þ¼

5:90, MSE ¼37; 843, p <: 05, F2ð1; 29Þ¼3: 71, MSE ¼

17; 137, p>: 05 и область 5, Fs <1).Для мужского собственного имени

и местоимения множественного числа они произошла перестановка в

регионе 6; Время считывания было больше в условиях SPEC

, чем в условиях NP, F1ð1; 65Þ¼5: 16, MSE 187;

627, p <: 05, F2ð1; 29Þ¼5: 30, MSE ¼39; 732, p <: 05

и F1ð1; 65Þ¼6: 16, MSE ¼79; 527, p <: 05, F2ð1; 29Þ¼

6: 17, MSE 36; 260, p <: 05 соответственно. Эти представленные результаты

не предоставили четких доказательств против предположения Клифтона и др.

(1997) о том, что читатели изначально относились к существительному pro

недостаточно точно во время обработки,

, как это было предложено Клифтоном и соавт.(1997).

Прочие важные результаты

Единственными оставшимися значительными результатами были следующие

мычания. Время чтения в областях 1 и 2 было самым коротким

, когда предметом было местоимение множественного числа они, что привело к значительному основному эффекту типа предмета

: регион 1,

F1ð2; 130Þ¼4: 93, MSE ¼43; 538, p < : 05, F2ð2; 58Þ¼

4:36, MSE ¼19; 840, p <: 05 и область 2, F1ð2; 130Þ¼

4:28, MSE ¼50; 173, p <: 05, F2ð2; 58Þ¼5: 16,

MSE ¼22; 770, p <: 05.Ни основной эффект структурного типа

, ни взаимодействие между структурным типом

и типом субъекта не были значимыми для этих регионов,

Fs <1. Более продолжительное время чтения в единственном собственном имени

условий может быть частотным эффектом, так как существительное во множественном числе

встречается примерно в 300 раз чаще

, чем собственные мужские и женские имена, в среднем (как

по оценке Фрэнсиса). & Ku

ccera, 1982).Однако, как предположил анонимный рецензент

, другая возможность —

, что из-за используемых глаголов предложения были более правдоподобными с множественным числом

, чем с единственными предметами

(например, Они нарисовали … по сравнению с Мэри нарисовала .. .).

Наконец, время чтения в последней области представления

предложения (область 8) было длиннее в условиях SPEC

, чем в условиях NP, что привело к значительному основному эффекту

типа структуры, F1ð1; 65Þ¼5: 78, MSE ¼164; 661,

p <: 05, F2ð1; 29Þ¼2: 60, MSE ¼74; 705, p <: 12.

время чтения не оказывало существенного влияния на тип субъекта или

на взаимодействие с типом структуры и типом субъекта, Fs <1.

Таким образом, выводы, сделанные на основе этих

оценок относительно рассмотрения структурно не-

доступных сущностей во время разрешения совместных ссылок в местоимении

NP, следует рассматривать с одной оговоркой.

Местоимение ее синтаксически неоднозначно. Возможно, что эффект типа субъекта, наблюдаемый в условиях NP

, имел место потому, что местоимение her также могло функционировать как SPEC.Целью эксперимента 2 было

определить, будет ли эффект субъектного типа в NP-

словах возникать, когда предложения содержат неоднозначное местоимение «он»

.

Эксперимент 2

В Эксперименте 2 время чтения было измерено на

предложениях, аналогичных тем, что были проверены в Эксперименте 1. Предложения

тенге содержали однозначные местоимения его и

его, а не двусмысленное местоимение она. В таблице 3

показаны образцы предложений.

Метод

Участники

Семьдесят восемь дополнительных студентов в Государственном университете Окла-

Хома, которые хорошо говорили на

американском английском и не имели

евро для целей

эксперимента, участвовали в эксперименте. обмен на курс кредита.

Материалы

Материалы, использованные в Эксперименте 1, были модифицированы для использования

в Эксперименте 2. Местоимение her было заменено

на местоимения его и его, чтобы образовать грамматические

342 S.M. Kennison / Journal of Memory and Language 49 (2003) 335–352

Советы и ответы на часто задаваемые вопросы по синтаксическому анализу резюме

Содержание

Что такое анализ резюме?

Под синтаксическим анализом резюме понимается автоматическое хранение, организация и анализ резюме о работе. Программное обеспечение для анализа резюме предоставляет компаниям эффективный способ определения ключевых слов, навыков и т. Д. Для сортировки большого количества приложений и выявления лучших кандидатов.

Зачем нужен синтаксический анализ резюме?

Рекрутеры используют парсеры резюме, чтобы упростить процесс проверки резюме и кандидатов.Технология синтаксического анализа позволяет рекрутерам собирать, хранить и систематизировать большое количество резюме в электронном виде. После получения данные резюме можно легко найти и проанализировать.

Инструменты анализа резюме являются частью большинства платформ программного обеспечения для отслеживания кандидатов (ATS). По некоторым оценкам, лучшая технология анализа резюме не только работает экспоненциально быстрее, чем обработка резюме человеком, конвертируя часы труда в секунды, но и может воспроизводить человеческую точность со скоростью 95%.

Ознакомьтесь с нашим программным обеспечением ATS, чтобы узнать больше о том, как системы отслеживания кандидатов используют машинное обучение и технологии синтаксического анализа для ускорения процесса отбора.

Как работает возобновление синтаксического анализа?

Анализ резюме начинается с загрузки, автоматически или вручную, всех приложений для данной позиции в программное обеспечение синтаксического анализа. После загрузки приложений инструменты анализа резюме сканируют каждый документ и извлекают всю необходимую информацию и приложения в зависимости от потребностей рекрутера. В большинстве случаев соответствующая информация включает в себя конкретные профессиональные навыки, опыт работы, контактную информацию, сведения об образовании, профессиональные сертификаты и т. Д.

Выявляя и систематизируя приложения с соответствующей информацией или исключая этих кандидатов без нее, программное обеспечение для синтаксического анализа экономит менеджерам по найму бесчисленные часы, которые в противном случае требовались бы для ручного чтения каждого отдельного приложения.

Проблемы синтаксического анализа

Задача интерпретации языка и информации чрезвычайно сложна, что, следовательно, представляет собой серьезную проблему, когда дело доходит до использования компьютера для сортировки больших объемов информации.Язык одновременно очень разнообразен и неоднозначен. Например, в первом случае существует множество способов записать дату. В последнем случае одно и то же слово означает разные вещи в разных контекстах.

Следовательно, эффективное программное обеспечение для анализа резюме должно быть достаточно умным, чтобы интерпретировать сложные нюансы языка.

Советы по «передаче» программного обеспечения синтаксического анализа в качестве кандидата

Учитывая сложную природу программного обеспечения для анализа резюме, как соискатели могут максимизировать вероятность того, что их резюме пройдут проверку? Здесь важно помнить, что, поскольку компании все больше полагаются на программное обеспечение для синтаксического анализа, соискатели больше не создают резюме, чтобы произвести впечатление на менеджеров по найму.Вместо этого соискатели должны составлять свои резюме, имея в виду программное обеспечение для анализа как свою первоначальную аудиторию. Вот несколько советов:

Сделайте ваш текст, шрифт и стиль ПРОСТОЙ!

  • Не забудьте указать свое имя в имени файла вашего резюме
  • Отправьте свое резюме в формате .docx для максимальной совместимости с синтаксическим анализом
  • Если вы используете PDF-файл, экспортируйте его из MS word .doc. НЕ сканируйте PDF-файл как изображение
  • Избегайте верхних и нижних колонтитулов
  • Использовать один стандартный шрифт во всем документе
  • Избегайте таблиц и столбцов
  • Избегайте WordArt
  • Не путайте с интервалом

Почему все это так важно? Рассмотрим следующий пример.Допустим, кандидат по имени Изабель Джеймс подает заявку в организацию, которая использует программное обеспечение для анализа для проверки кандидатов. Изабель — высокообразованный кандидат, окончившая лучший в своем классе Йельский университет. Чтобы визуально выделить свое резюме, Изабель создает собственный баннер в фотошопе для своего образовательного опыта с надписью «Бакалавр искусств, деловое администрирование, Йельский университет, suma cum laude».

Вполне возможно, что когда программное обеспечение синтаксического анализа преобразует этот баннер в текст для анализа, оно может изменить интервал в этих учетных данных.Предположим, это происходит. Опыт обучения Изабель теперь читается как «бакалавр искусств, бизнес-администрирование, университет Я ле…». Если программа для синтаксического анализа ищет кандидатов со степенью «бакалавр искусств» или по таким терминам, как «бизнес-администрирование», потому что преобразование Баннер фотошопа изменил интервал, программа синтаксического анализа могла не уловить заявку Изабель, и поэтому она не могла перейти к следующему раунду интервью.

Таким образом, следуя инструкциям по форматированию и интервалу, изложенным в начале этого раздела, вы избежите риска потери вашего резюме при переводе.

Be Basic

Создание круто звучащих названий должностей в некоторой степени в моде, особенно в области технологий. Например, в Javascript некоторые их роли называются «ниндзя». Хотя это может быть забавной визитной карточкой, это плохие новости для программного обеспечения для анализа резюме. Почему? Потому что никакое программное обеспечение для синтаксического анализа не выполняет поиск по таким ключевым словам, как «ниндзя». Следовательно, если у вас уникальное название должности, вам следует подумать об изменении его на более распространенное название, которое переводится в разных организациях и, следовательно, с большей вероятностью будет включено в поиск программного обеспечения для синтаксического анализа.

Соответственно, вам также следует сделать следующее:

  • Сохраняйте свое резюме в хронологическом порядке
  • Используйте основные имена для разделов резюме, например. «Образование», «Опыт работы» и т. Д.
  • Используйте полные даты — день, месяц, год
  • Используйте только общепринятые сокращения — CEO, MBA и т. Д. Если это не так, синтаксические анализаторы не будут искать его
  • Проверка орфографии, проверка орфографии, проверка орфографии

Измерение сложности текста с использованием частоты синтаксического дерева

J Assoc Inf Sci Technol.Авторская рукопись; доступно в PMC 1 сентября 2018 г.

Опубликован в окончательной отредактированной форме как:

PMCID: PMC5644354

NIHMSID: NIHMS839750

Дэвид Каучак

1 904

, Gondy College 9, Clare Leroy

2 Департамент информационных систем управления, Колледж управления Эллера, Университет Аризоны, Тусон, Аризона

Алан Хог

3 Департамент лингвистики, Университет Аризоны, Тусон, Аризона

4 Google Inc., Mountain View, CA

1 Департамент компьютерных наук, Колледж Помона, Клермонт, Калифорния

2 Департамент информационных систем управления, Колледж менеджмента Эллера, Университет Аризоны, Тусон, AZ

3 Департамент Лингвистика, Университет Аризоны, Тусон, AZ

4 Google Inc., Mountain View, CA

Автор для корреспонденции: Дэвид Каучак, Департамент компьютерных наук, 185 E 6th St, Pomona College, Claremont, CA, Телефон: 909-607-0473, уд.anomop@kahcuak.divad См. другие статьи в PMC, в которых цитируется опубликованная статья.

Abstract

Для упрощения текста часто используются устаревшие недоказанные формулы для удобочитаемости. В качестве альтернативы, мотивированной успехом знакомства с терминами, мы тестируем дополнительный показатель: знакомство с грамматикой. Знакомство с грамматикой измеряется как частота дерева синтаксического анализа предложений уровня 3 -го уровня и используется для оценки отдельных предложений. Мы создали базу данных из 140K уникальных 3-х -х уровневых структур синтаксического анализа путем синтаксического анализа и сортировки всех 5.4 миллиона предложений в английской Википедии. Затем мы вычислили грамматические частоты в корпусе и создали 11 интервалов частот. Мы оцениваем этот показатель с помощью пользовательского исследования и анализа корпуса.

Для пользовательского исследования мы случайным образом выбрали 20 предложений из каждой корзины, контролируя длину предложения и частоту терминов, и набрали 30 читателей на каждое предложение (N = 6600) на Amazon Mechanical Turk. Мы измерили фактическую сложность (понимание) с помощью теста Клозе, воспринимаемую трудность с помощью 5-балльной шкалы Лайкерта и затраченное время.Предложения с более частой грамматической структурой, даже с очень разными поверхностными представлениями, были легче понимаемы, воспринимались как более легкие и требовали меньше времени для чтения. Результаты формул удобочитаемости коррелировали с воспринимаемой, но не с реальной трудностью. Наш анализ корпуса показывает, как эту метрику можно использовать для понимания грамматической регулярности в широком диапазоне корпусов.

Ключевые слова: Понимание, Медицинская грамотность, Обучение пациентов, Упрощение текста, Читаемость, Сложность текста

ВВЕДЕНИЕ

Создание читаемого и понятного текста имеет решающее значение во многих областях, таких как образование, здравоохранение и юридические материалы, поскольку текст является одним наиболее распространенных и рентабельных способов распространения информации (Farmer et al., 2008). Формулы удобочитаемости, такие как формула уровня оценки Флеша-Кинкейда (Kincaid, Fishburne Jr, Rogers, & Chissom, 1975), Simple Measure of Gobbledygook (SMOG) (McLaughlin, 1969) и индекс Ганнинга-Фокса (Kim et al., 2007). ), часто используются во многих областях для создания более понятного текста. К сожалению, существует мало свидетельств того, что они эффективны для улучшения понимания посредством их использования. Они используют слишком простую статистику текста, такую ​​как длина предложения и количество слогов, для измерения удобочитаемости, которая может коррелировать с уровнем удобочитаемости, назначенным экспертами, но не переводится в конкретные методы упрощения текста и не доказано доказывает, что позволяет надежно создавать более простые текст (Брюс, Рубин и Старр, 1981; Коннацер, 1999).В частности, в специализированных областях основные принципы не соблюдаются, например, в медицине не всегда легче понять более короткие слова: «апноэ» или «диабет». Простое использование более коротких предложений и слов с меньшим количеством слогов не делает текст более понятным и информативным.

В предыдущей работе мы разработали «знакомство с термином», новый метод измерения сложности слов, который использует Google Web Corpus для измерения сложности слов. На основе этого показателя мы разработали полуавтоматический инструмент для лексического упрощения.Инструмент определяет сложные термины, а затем предлагает более простые варианты на основе онтологий и тезаурусов. Автор выбирает из этих предложений для упрощения. Наш подход был подтвержден в исследованиях пользователей и показал, что он значительно снижает сложность текста и улучшает понимание пользователем (Leroy, Endicott, Kauchak, Mouradi, & Just, 2013).

На основании этих результатов мы выдвигаем гипотезу, что не только на уровне слов, но и в более общем плане, явления, с которыми читатели сталкиваются чаще, легче понять.В основе этого могут лежать грунтовочные эффекты. В этой статье мы исследуем, как грамматическая частота влияет на сложность предложения, и вводим новую меру сложности текста на уровне предложения, основанную на грамматической структуре предложения. В частности, мы утверждаем, что частота структуры дерева синтаксического анализа предложения будет влиять на читаемость и понятность текста; предложения, которые имеют более частую (и, следовательно, более знакомую) грамматическую структуру, будут рассматриваться как более простые , а будет легче понять.В отличие от традиционных мер удобочитаемости, наш подход может применяться естественным образом как к отдельным предложениям, так и к длинным текстам, и может дать конкретные советы по упрощению, то есть изменениям грамматической структуры. Кроме того, частота грамматики дополняет знакомство с термином; как слова, которые используются в предложении, так и грамматическая структура предложения влияют на понимание.

Наш подход не зависит от предметной области и основан только на корпусе предложений, однако сфера применения нашего долгосрочного проекта и сфера нашего исследования корпуса — это здравоохранение и медицина, поэтому мы кратко рассмотрим использование существующих показателей удобочитаемости в этой области и сравните наши результаты с этими.Медицинская сфера является особенно важной областью применения для измерения удобочитаемости и упрощения текста, поскольку, по оценкам, около 90 миллионов американцев не обладают достаточной санитарной грамотностью (Комитет по санитарной грамотности — Институт медицины национальных академий, 2004 г.), и этот дефицит стоит экономика США составляет от 106 до 238 миллиардов долларов в год (Vernon, Trujillo, Rosenbaum, & DeBuono, 2007). Один из ключевых методов устранения этого несоответствия — определение рентабельных и эффективных методов распространения информации.В настоящее время большинство методов сосредоточено на предоставлении текста, удобного для чтения пациентами и потребителями медицинской информации. Инструменты, продвигаемые и используемые для оптимизации сложности текста, представляют собой почти универсальные формулы удобочитаемости. В медицинской профессии их использование часто поощряется требованиями писать и общаться на уровне класса 5 или 6 (например, для информированного согласия на клинические испытания) (Weiss, 2007).

Формулы удобочитаемости применяются к учебным материалам для пациентов (Adkins & Singh, 2001; Brandt, McCree, Lindley, Sharpe, & Hutto, 2005), материалам об утрате близких (Rathbun, Thornton & Fox, 2008), формам информированного согласия (Brainard , 2003) и даже опросы (Maples, Franks, Stevens, & Wallace, 2010).К сожалению, хотя эти формулы удобочитаемости широко используются, не было доказано, что они положительно влияют на обучение необходимой информации. Наша работа здесь делает шаг к лучшим инструментам упрощения за счет 1) внедрения подхода на уровне предложения, основанного на данных для измерения грамматической сложности предложения и 2) конкретного измерения воздействия этой меры с использованием и того, насколько сложно выглядит предложение (предполагаемая трудность), а также насколько сложно понять предложение (реальная трудность).Немногие, если таковые имеются, проводят это различие.

ИСТОРИЯ ВОПРОСА

Чтобы обеспечить комплексный и систематический подход к измерению сложности текста, необходимо изучить множество различных типов функций, например лексический, синтаксический и дискурсивный. Каждая из этих категорий характеристик текста по-разному влияет на сложность текста и предоставляет возможности для упрощения. В этой работе мы сосредотачиваемся на синтаксической сложности, хотя мы кратко рассмотрим здесь роль слов, поскольку они играют решающую роль в большинстве систем упрощения.

Роль слов в упрощении

Слова играют решающую роль в понимании. Тексты, содержащие слова, которые читатель не знает, будет труднее понять. Многие ранние формулы удобочитаемости пытались уловить это и в значительной степени полагались на характеристики слов для измерения сложности текста (Kim et al., 2007; Kincaid et al., 1975; McLaughlin, 1969), например количество слогов (при условии, что более длинные слова труднее) или наличие слова в заранее определенном списке слов (Bailin & Grafstein, 2001).Недавние подходы к прогнозированию сложности текста, основанные на обученных моделях с использованием помеченных данных, обнаруживают, что функции на уровне слов позволяют в высокой степени предсказывать сложность текста (Collins-Thompson & Callan, 2005; Leroy, Miller, Rosemblat, & Browne, 2008; Pitler & Nenkova, 2008 г.).

Важность отдельных слов была также показана в исследованиях корпуса, в которых систематически сравнивается словарный запас текстов разного уровня сложности. Сравнение статей в Simple English Wikipedia — одном из крупнейших общедоступных корпусов упрощенного текста — со статьями в английской Wikipedia показало, что в простых текстах используются более простые слова, меньше общих слов и слов более общего характера (Coster & Kauchak, 2011; Napoles & Дредзе, 2010; Жу, Бернхард, Гуревич, 2010).Подобные результаты были обнаружены в других корпусах общих предметных областей, таких как упрощенные новостные тексты (Xu, Callison-Burch, & Napoles, 2015), а также в предметно-ориентированных анализах, например, медицинские тексты (Leroy, Endicott, Mouradi, Kauchak, & Just, 2012; Leroy & Endicott, 2011). Определенные типы слов также чаще встречаются в более простых текстах, включая функциональные слова и глаголы (Kauchak, Leroy, & Coster, 2012; Leroy & Endicott, 2011). Эффекты на уровне слов также были показаны на других языках, например.г. Португальский (Alu et al., 2008) и испанский (Bott & Saggion, 2011).

На основе этих исследований корпуса мы создали общий показатель сложности слов, знакомство терминов, который основан на частоте встречаемости слов в Интернете с использованием корпуса Google Web (Brants & Franz, 2006). Мы обнаружили, что в простых текстах используется более часто встречающиеся слова (т. Е. Более знакомые слова), в то время как в сложных текстах используются более редко встречающиеся слова (т. Е. Менее знакомые) (Leroy et al., 2012; Leroy & Endicott, 2011).Мы создали инструмент, который упрощает тексты, предлагая более простые (то есть более частые) слова для сложных (то есть менее частых) слов, обнаруженных в тексте. Исследование пользователей показало, что тексты, связанные со здоровьем, упрощенные медицинским библиотекарем с помощью этого инструмента, рассматривались как более простые, более легкие для понимания и приводящие к большему обучению (Leroy, Endicott, et al., 2013). Этот документ представляет собой естественное расширение этого процесса проверки на уровне слов, вместо этого для упрощения используется грамматика частота .

Роль синтаксиса в упрощении

Синтаксис или грамматика языка определяет, как слова и фразы взаимодействуют, образуя предложения. Исторически сложилось так, что тем, кто пишет медицинские тексты для пациентов, рекомендуется избегать проблемных синтаксических структур, например писать активным (а не пассивным) голосом и избегать длинных предложений («Краткое руководство по санитарной грамотности Health.gov»; «Как писать легко читаемые материалы о здоровье»). Исследования пользователей показали, что грамматика влияет на читаемость текста, что подтверждается тестом Клозе (Taylor, 1953), который просит участников заполнить пропущенные слова в текстах.Например, было показано, что разделение длинных предложений улучшает показатели Клозе (Kandula, Curtis, & Zeng-Treitler, 2010), а аддитивные и причинные соединительные элементы было легче заполнить, чем противоборствующие или последовательные соединители (Goldman & Murray, 1992). Было высказано предположение, что грамматические трудности особенно важны для изучающих L2, поскольку они все еще пытаются изучить соответствующие грамматические структуры для языка (Callan & Eskenazi, 2007; Clahsen & Felser, 2006). Задача заключается в определении полезной метрики для эффективного и действенного измерения грамматической сложности предложения с продемонстрированным влиянием на понимание читателем посредством пользовательских исследований, а не наблюдений экспертов.

В исследованиях корпусов наблюдались различные синтаксические различия между легкими и сложными текстами. Например, различия в частотах разных частей речи показывают, что простые тексты содержат более высокую долю глаголов, служебных слов и наречий, тогда как сложные тексты содержат более высокую долю прилагательных и существительных (Kauchak et al., 2012; Leroy et al. ., 2012; Leroy & Endicott, 2011, 2012; Leroy, Eryilmaz, & Laroya, 2006; Leroy, Helmreich, & Cowie, 2008), а также более длинные словосочетания с существительными (Napoles & Dredze, 2010).Кроме того, как предлагают медицинские руководства по написанию текстов, в простых текстах обычно используется активный голос вместо пассивного (Leroy, Helmreich, & Cowie, 2010a, 2010b). Также были замечены различия в структурах предложений высокого уровня, например субъект-глагол-объект против упорядочения объект-субъект-глагол (Devlin & Unthank, 2006). Некоторый первоначальный успех был достигнут с помощью автоматизированных систем упрощения, которые выполняют синтаксические преобразования, например отбрасывание предложных фраз и инфинитивов и изменение времен глаголов (Feblowitz & Kauchak, 2013; Laetitia Brouwers, 2014; Woodsend & Lapata, 2011; Zhu et al., 2010), хотя предстоит еще много работы.

В предыдущей работе мы провели предварительное исследование корпуса грамматической частоты, которое показало, что сложные тексты используют более широкий спектр грамматических структур высокого уровня (Kauchak et al., 2012). Однако из-за большого количества возможных структурных вариаций не было обнаружено четких указаний на то, что конкретные структуры преимущественно встречаются в простых или сложных документах. В этой работе мы предлагаем гораздо более детальный анализ.Мы предлагаем критерий сложности текста на основе грамматической частоты и показываем, как его можно использовать для определения предложений со сложной синтаксической структурой. В частности, грамматическая сложность предложения измеряется на основе частоты появления структуры дерева синтаксического анализа верхнего уровня предложения в большом корпусе.

МЕТОДЫ

Измерение грамматической частоты

Для измерения частоты различных грамматических структур мы использовали предложения из английской Википедии (https: // en.wikipedia.org/). Википедия является одним из наиболее распространенных ресурсов для получения общей информации для потребителей (Safran, 2012), а также полезен для корпуса по более специализированным темам, т. Е. Примерно 80% онлайн-пользователей читают в Интернете текст, связанный со здоровьем (Fox, 2011). ) .. Мы загрузили всех статей из английской Википедии в июне 2013 года. Затем мы предварительно обработали статьи, разбили их на предложения с помощью инструментария Stanford CoreNLP (Manning et al., 2014) (всего 5,4 миллиона предложений) и проанализировали каждый из них использует синтаксический анализатор Беркли (Петров, Барретт, Тибо и Кляйн, 2006).

показывает два примера предложения из корпуса с индуцированной структурой синтаксического анализа. 1 -й уровень дерева синтаксического анализа — это S , 2-й -й уровень [S [NP VP.]] и 3 -й уровень [S [NP [DT NN]] [ VP [VBZ NP]] [‥]] , который выделен на рисунке зеленой пунктирной рамкой. Точно так же 1 -й уровень дерева синтаксического анализа — это S , 2-й -й уровень [S [NP VP].]] и 3-й уровень [S [NP [DT JJS JJ NN] [ВП [ВБЗ НП, С] [‥]] .

Примеры деревьев синтаксического анализа, автоматически сгенерированных с помощью синтаксического анализатора Berkeley. Верхний пример (а) представляет высокочастотную структуру, а нижний пример (б) — низкочастотную структуру. Уровень 3 rd дерева синтаксического анализа выделен зеленой пунктирной рамкой.

Мы используем уровень 3 rd дерева синтаксического анализа для количественной оценки грамматической сложности предложения. Мы решили сосредоточиться на уровне 3 rd , поскольку он представляет собой компромисс между общностью и специфичностью.На уровне 2 и структуры более общие и поэтому с большей вероятностью будут соответствовать, однако степень детализации меньше, чем на уровне 3 ; уникальных 3-х уровневых структур -го и в 10 раз больше, чем 2-х уровней -го и . Например, предложения в одном и том же дереве синтаксического анализа 2 уровня и , но имеют разные деревья синтаксического анализа 3 уровней и . Однако, если мы используем более глубокую глубину, чем уровень 3 rd , будет слишком много уникальных структур, что снижает возможность обобщения структур в разных предложениях.45% предложений в корпусе (2.47M) имеют уникальные структуры дерева синтаксического анализа 4 -го уровня , часто потому, что уровень 4 -го регулярно включает лексические компоненты. Например, уровень 4 дерева синтаксического анализа будет включать слова «сердце», что делает маловероятным его обобщение на другие предложения.

Мы вычислили частоту всех возможных 3-х уровневых структур -го , обнаруженных в 5,4 миллионах предложений из Википедии, что привело к отображению любой 3-х уровневой структуры -го на его частоту.Например, структура в входит в число наиболее часто встречающихся грамматических структур. Даже при той же базовой структуре уровней 3 rd предложения могут быть представлены по-разному. показывает примеры для разных грамматических структур. В каждой строке показаны два предложения, которые имеют одинаковую структуру уровней 3 rd , но имеют разную частоту в порядке от наиболее частого к наименее частому. Поскольку мы фокусируемся на высокоуровневой структуре, длина предложений с одинаковой структурой также может сильно различаться.

Таблица 1

Примеры предложений из корпуса Википедии с их грамматической структурой 3-го уровня и частотой этой структуры.

1)
Грамматическая структура Корпус
Частота
Пример предложения
[S [NP [DT NN]]
[VP [VBZ NP]]
[‥]]
[[The] DT [живопись] NN ] NP [[предлагает] VPZ [изображение единственной фигуры Аарона
в его священнической одежде
празднует Йом Киппур в пустыне
Скиния] NP ] VP .
[[The] DT [пена] NN ] NP [[имеет] VPZ [антимикробные свойства
] NP ] VP .
[S [NP [NNP CC NNP]
[VP [ADVP VBD NP PP]
[‥]]
3
(корзина 6)
[[Кактус] NNP [и] CC ) [Молодой] NNP ] NP [кратко] ADVP
[удерживается] VBD [названия тегов CWA] NP [в конце 1988 года] PP ] VP .
[[Скотти] NNP [и] CC [Rikishi] NNP ] NP [успешно] ADVP
[защищено] VBD [их названия
четырехсторонняя пометка матч] NP [на WrestleMania XX] PP ] VP .
[S [NP [DT JJ JJS NN]]
[VP [VBZ NP, S]]
[‥]]
2
(корзина 11)
[[The] DT [ближайший] JJS [английский] JJ [перевод] NN ] NP [is] VBZ
[академия] NP , [относится к учреждениям среднего образования
] VP .
[[The] DT [самый ранний] JJS [такой] JJ [источник] NN ] NP [is] VBZ [жизнь
Dunstan by Osbern] NP , [вероятно,
написано в формате 1080] VP .

Чтобы удалить аномальные данные и вероятные ошибки анализа, мы проигнорировали любую структуру, которая только однажды встречалась среди 5,4 миллионов предложений. После фильтрации получается 139 969 уникальных 3-х -х уровневых структур.Даже после удаления уникальных грамматических структур частотное распределение предложений чрезвычайно искажено. показывает график логарифма повторяемости структур, отсортированных от наиболее частых к наименее частым. Подобно многим другим текстовым явлениям, грамматическая частота следует распределению, подобному Zipf, при этом наиболее общие структуры встречаются очень часто, а многие структуры встречаются нечасто, хотя грамматическая частота особенно высока.

График частоты корпуса (логарифмическая шкала) для 3-х уровневых структур -го уровня , отсортированных от наиболее частых к наименее частым.

Применение грамматической меры частоты

Для любого предложения грамматическую частоту можно вычислить следующим образом:

  1. анализирует предложение с помощью синтаксического анализатора Беркли,

  2. извлекает дерево синтаксического анализа 3-го уровня -го уровня и

  3. ищет частоту этой структуры в базе данных грамматических частот.

Не найденным структурам может быть присвоена частота 0. Мы предполагаем, что предложения с более частыми структурами легче понять, а те, которые встречаются реже, труднее понять.Этот подход к измерению грамматической сложности текста представляет собой обобщенный и основанный на данных подход, который выходит за рамки конкретных, основанных на теории сложных грамматических компонентов сложного текста (например, активный или пассивный залог, самовставленные предложения и т. Д. (Meyer & Rice, 1984)) и обеспечивает общую основу для измерения грамматической сложности. Индивидуальные структуры, такие как пассивная и активная, могут быть оценены как подмножество нашего общего подхода.

Оценка способности меры оценить сложность предложения: пользовательское исследование

Чтобы оценить грамматическую частоту и ее связь с пониманием читателем, мы провели пользовательское исследование с основной интересующей переменной — грамматической частотой предложения.Чтобы свести к минимуму мешающие факторы, которые могут повлиять на сложность предложения, мы контролируем длину предложения и знакомство с терминами.

Stimuli

Мы ранжировали 139 939 уникальных 3 rd структур уровней и разделили их на 11 интервалов частот. Блок 1 st содержал верхний 1% наиболее часто используемых грамматических структур. Следующие 10% наиболее частых попали в интервал 2 и , следующие 10% — в интервал 3 и и т. Д. Наконец, 11 интервал содержит оставшиеся предложения с 10% наименее часто встречающимися грамматическими структурами.Хотя можно протестировать разное количество интервалов, мы выбрали одиннадцать интервалов, чтобы увидеть эффект наиболее частых структур (верхний интервал), и десять дополнительных интервалов, чтобы увидеть тенденции, если они существуют.

Каждое из 5,4 миллиона предложений Википедии можно сопоставить с одним из 11 интервалов частот, и мы выбрали их подмножество для нашего исследования. Чтобы избежать очень длинных и очень коротких предложений и частично смягчить эффект длины, мы отбирали только те предложения, длина которых не превышала одного стандартного отклонения от средней длины предложения в корпусе.Предполагая, что длины следуют нормальному распределению, это выборка примерно из 2/3 рядов предложений, удаляя 1/6 -го -го и 1/6 -го самых длинных предложений.

Для каждого из 11 интервалов частот мы случайным образом выбрали 20 предложений. Чтобы контролировать другие характеристики текста, которые могут повлиять на сложность текста, и увидеть, как частота грамматики взаимодействует с вторичными характеристиками, мы контролировали две переменные при выборе этих предложений: длину предложения и знакомство с термином, оба из которых, как ранее было показано, влияют на сложность текста (Kim и другие., 2007; Кинкейд и др., 1975; Leroy et al., 2012; Лерой и Каучак, 2013; Маклафлин, 1969).

Для контроля длины предложения предложения в оставшемся корпусе были разделены на длинные, средние и короткие предложения, представляющие верхнюю треть, среднюю треть и нижнюю треть по длине соответственно. Затем в каждом интервале частот мы выбрали половину (десять) длинных предложений и половину коротких предложений. Чтобы контролировать степень знакомства с термином, мы рассчитали степень знакомства каждого предложения как среднюю степень знакомства с каждым словом в этом предложении.Знакомство с каждым словом измерялось как частота в Google Web Corpus, что примерно соответствовало частоте появления в Интернете. Как и в случае длины, мы разделили предложения на трети на основе средней степени знакомства, и каждая ячейка включала половину (десять) из верхней трети («высокая» осведомленность) и половину из нижней трети («низкая» осведомленность).

В результате этого процесса была получена выборка из 220 предложений в 11 диапазонах частот, каждый из которых содержит 5 длинных предложений с высокой степенью узнаваемости, 5 длинных с низкой степенью осведомленности, 5 коротких с высокой степенью осведомленности и 5 коротких с низкой степенью осведомленности.показывает примеры предложений для каждой из этих четырех категорий из трех корзин.

Таблица 2

Примеры предложений, использованных в этом исследовании.

Частота
Процентиль
бункеров
Предложение
Длина
Срок
Знакомство
Пример предложения
Верхний 1%
(1 9068 9068 9068 9068 9068 бин) , колбаса из целлофановой лапши и свиной крови
, широко употребляется в пищу.
Низкий Рукоположение, дающее законодательные дьяконы
женщин, было принято в 1986 году, и они были впервые рукоположены в
1987.
Длинный Высокий Массовое движение является важной частью процесса эрозии
, и часто является первой стадией разрушения и транспортировки выветрившихся материалов в горные районы.
Низкий Компания установила системы освещения
на основе дугового света, разработанные Tesla, а также разработала
конструкций для коммутаторов динамо-электрических машин,
первых патентов, выданных Tesla в США.
(6 th bin) Short High Не в силах победить его в лоб, Старк фальсифицирует кончину
Железного человека, намереваясь отказаться от костюма навсегда.
Низкий Его жена Ашхен занимала деньги у политбюро
жен, у которых было меньше детей.
Длинный Высокий Камень и кирпич стали строительными материалами города из
выбора после того, как строительство деревянных каркасных домов было ограничено
после Великого пожара 1835 года.
Низкий В 1990-х годах она снова отвлеклась от своей карьеры, чтобы перевезти
в румынскую больницу для чистки кроваток, мытья и ухода за
для больных и умирающих сирот.
(11 th bin) Short High Тем не менее, CBC продолжала программировать NWI, при этом
программ одновременно транслировались на внутренней службе Newsworld
.
Low Таким образом, «25th Century» стал треком, а
потенциальное название группы стало лейблом.
Длинный Высокий Кроме того, из-за притока реки вода в море имеет низкую соленость
и высокое содержание биологических веществ, таких как зеленые водоросли
, которые влияют на цвет воды.
Низкий Опытный игрок в парном разряде, Клиджстерс чрезвычайно комфортно играет
в сетке и смешивает свою агрессивную игру
с дроп-шотами и ударами наотмашь, чтобы втянуть
противников в сетку, где многим игрокам
неудобно.

показывает сводную статистику для 220 предложений, использованных в исследовании, усредненных по частотным интервалам. Длина предложений и знакомство с терминами были примерно одинаковыми для всех подборок. В среднем длинные предложения были в 1,8 раза длиннее (содержали на 14 слов больше), а предложения с более частыми словами содержали слова, которые в среднем встречались в 1,7 раза. Тест с парными выборками t показал эффективность двух контрольных переменных, длина которых значительно различалась между короткими и длинными предложениями (t (10) = -60.47, p <0,001), и частота слов значительно различается в группах с высоким и низким уровнем (t (10) = -38,47, p <0,001). Влияние частоты грамматики, нашей интересующей переменной, обсуждается в разделе результатов.

Таблица 3

Сводная статистика для 220 предложений, использованных в этом исследовании.


6 короткое низкий

4

0

4

4

96810 62 Сложность текста для Evalu
Частота
бин
Среднее
грамматика
частота
Среднее предложение
длина
Среднее слово
частота
(в миллиардах)
высокий
1 st бункер 3449 18.7 33,3 4,1 6,7
2 nd бин 75 18,9 32,6 4,0 6.9
33,3 4,1 7,1
4 т. бин 5,5 18,6 33,6 4,0 7,0
10 6 бин м1 19,3 32,1 3,8 7,1
6 тыс. бин 3,0 18,2 32,8 3,6 6,8 9681 4,8 17,5 32,5 3,9 6,5
8 т. бин 2,0 ​​ 18,4 33,9 4,0 7,2 2 7,2
17,2 31,6 3,8 6,6
10 т. 17,8 31,3 4,1 6,8
Среднее значение 323 18,2 32,7 3,9 6,8
, мы полагаемся на доказательства понимания непрофессионалами. Мы не полагаемся на экспертные заключения или формулы удобочитаемости . Следуя нашей предыдущей работе (Leroy et al., 2012; Leroy, Endicott, et al., 2013), мы разбиваем сложность текста на два отдельных компонента: фактическую сложность и воспринимаемую сложность. Фактическая сложность измеряет, насколько хорошо люди понимают конкретный текст, в то время как воспринимаемая сложность измеряет, насколько сложным людям кажется текст. Фактическая сложность измерялась множеством показателей, включая вопросы с несколькими вариантами ответов, вопросы решения проблем, вопросы вывода (McNamara, Kintsch, Songer, & Kintsch, 1996) и меру Клозе (Taylor, 1953).Разделение сложности текста на воспринимаемую и фактическую сложность важно, поскольку обе могут сыграть роль в том, получит ли читатель требуемую информацию из текста (Janz & Becker, 1984; Leroy, Kauchak, & Mouradi, 2013).

Для измерения фактической сложности (первая зависимая переменная) мы использовали тест Клозе. Базовый тест Cloze предполагает замену каждого слова n th в тексте пробелом. Затем участников просят заполнить пропуски и выставить баллы на основании того, сколько их ответов соответствует исходному тексту (Taylor, 1953).Первоначально тест Клозе предназначался для выявления различий в сложности разных текстов, хотя он также использовался для измерения уровней читабельности текстов (Collins, Currie, Bakken, Vawdrey, & Stone, 2012; Taylor, 1953) и понимания пользователем ( Бормут, 1969; Сиддхартхан, 2002). Он использовался во многих исследованиях, включая измерение уровня владения языком 2 и (Goldman & Murray, 1992), влияние навыков чтения на уровень владения языком (Leroy, Kauchak, et al., 2013) и для оценки процедур упрощения (Kandula et al. al., 2010).

Мы использовали тест Клозе с множественным выбором. Для каждого предложения случайным образом были выбраны четыре существительных, замененных пробелами. Для каждого предложения мы создаем пять вариантов множественного выбора, содержащих четыре удаленных слова в разных случайных порядках, одно из которых является правильным. Использование версии теста Cloze с множественным выбором позволяет автоматически выставлять баллы и устраняет любую субъективность во время оценки. показывает пример пустого предложения и его пяти вариантов (правильный ответ — вариант b ).Мы разрешили выбор предложений / существительных только в том случае, если порядок имен существительных был однозначным, например список существительных, разделенных запятыми, не будет разрешен, так как любое упорядочение существительных будет допустимым.

Пример тестовой задачи Cloze, назначенной пользователям.

Чтобы измерить воспринимаемую сложность (вторая зависимая переменная), участников попросили оценить предложения по 5-балльной шкале Лайкерта с более высокими числами, представляющими более сложные предложения. В частности, мы задали вопрос «Насколько сложно это предложение выглядело бы в тексте» и представили пять вариантов: Очень легко, Легко, Ни то, ни другое, Сложно и Очень сложно.

Помимо предполагаемой и фактической сложности, мы также собрали время, которое участники потратили на выполнение задания (третья зависимая переменная). Время завершения связано со временем чтения, которое часто используется в качестве меры когнитивной нагрузки (Raney, 1993) и сложности текста (Cirilo & Foss, 1980; Mandler & Goodman, 1982).

Участники исследования

Мы набрали участников для исследования из Amazon Mechanical Turk (MTurk). MTurk — это краудсорсинговый инструмент, с помощью которого запрашивающие могут загружать задачи, которые должны выполняться группой работников за определенную плату.MTurk использовался во многих исследовательских целях, начиная от пользовательских исследований и заканчивая аннотациями данных и формированием субъективных оценок (Hao, Rusanov, Boland, & Weng, 2014; Kittur, Chi, & Suh, 2008), и было показано, что он дает результаты, аналогичные тем от других людей. Кроме того, он позволяет использовать большую популяцию участников (более полумиллиона) из разнообразной группы с различными демографическими характеристиками (Паолаччи, Чандлер и Ипейротис, 2010; Росс, Ирани, Силберман, Залдивар и Томлинсон, 2010) .

Для каждого из 220 предложений мы набрали 30 участников, что дало N = 6600 образцов. Чтобы гарантировать качество и точность данных, участники были ограничены пребыванием в Соединенных Штатах и ​​имели предыдущий рейтинг одобрения 95%. Благодаря настройке MTurk участники могут выбирать, сколько предложений завершить. Затем MTurk гарантирует, что для данного предложения , каждый из 30 участников отличается. Для всех участников мы собрали демографические данные, включая пол, возраст, уровень образования, этническую принадлежность и расу.

РЕЗУЛЬТАТЫ

Участники

Всего в исследовании приняли участие 143 человека. В среднем участники завершили 46 предложений, хотя медиана была ниже и составляла 18 предложений. показывает демографическую информацию об участниках. Было примерно равное количество участников мужского и женского пола. 50% участников были моложе 30 лет и 90% — моложе 50. Каждый участник имел как минимум аттестат средней школы, а 43% имели как минимум степень бакалавра. Участники были преимущественно белыми (87%).

Таблица 4

Сводные демографические данные участников исследования.

222 96812 9661
Характеристика N = 143 (%)
Пол Мужской 72 50

Возраст
9104 9104 или моложе 71 40 36 25
41–50 21 15
51–60 12 8
61 2
71 и старше 0
9136 5
Образование (наивысшее законченное)
Меньше старшей школы 0
Степень младшего специалиста 28 20
Степень бакалавра 55 38
Степень магистра 4681

7

4

4

4

4

4

1

Раса (Допускается несколько вариантов)
Американские индейцы / коренные жители Аляски 4
7 Bl ack или афроамериканец 11 8 коренной житель Гавайских островов или другой выходец из тихоокеанских островов 1 1 Белый 1254 Этническая принадлежность Латиноамериканец или латиноамериканец 6 4 Не латиноамериканец или латиноамериканец 137 9682 910 Фактический 137 9682 910 910 Фактический анализ влияние грамматической частоты (основная интересующая переменная), а также длины предложения и знакомства с термином (две контрольные переменные) на фактическую сложность.Мы провели ANOVA с тремя независимыми переменными: интервал частот грамматики (1–11 интервалов), длина предложения (длинное или короткое) и средняя частота слов (высокая или низкая). Каждое условие (11 × 2 × 2) имело 5 предложений, и для каждого предложения мы собрали 30 ответов, в результате чего набор данных составил N = 6600. ANOVA позволяет нам определить, есть ли какие-либо основные эффекты какой-либо из наших переменных, т. Е. Влияние переменной на всех уровнях другой переменной, и эффекты взаимодействия, т. Е. Влияние переменной, которое изменяется в зависимости от уровня другой переменной. переменная между интересующими нас переменными (грамматическая частота, длина предложения и знакомство с термином) для нашей метрики оценки (в данном случае — реальной сложности.Это делается с помощью одного статистического теста, что позволяет избежать проблемы увеличения неопределенности при применении нескольких тестов, например t-тесты.

показывает фактические оценки сложности, усредненные по диапазонам частот. Поскольку тест Клозе с несколькими вариантами ответов дает участникам несколько подсказок для выбора правильного ответа, в целом оценки обычно выше. Для более частых структур точность теста Клозе довольно стабильна, около 90% правильных. Однако по мере того, как грамматические структуры становятся менее частыми, точность довольно последовательно падает до окончательного значения около 86% (начиная с ячейки 6).ANOVA показывает, что этот эффект является значимым (F (10,6556) = 5,404, p <0,001), то есть существует влияние частоты грамматики на фактическую сложность. Не было никаких основных эффектов от длины предложения или знакомства с термином.

Процент правильных ответов по тесту Cloze (фактическая сложность) для различных интервалов частот грамматики. Более высокие баллы означают лучшее понимание.

Наши результаты показали эффекты взаимодействия. Влияние частотности грамматики гораздо менее выражено для коротких предложений () и для предложений с более редкими словами ().ANOVA показывает, что эти различия значимы (F (10,6556) = 3,453, p <0,001) для грамматической частоты и длины предложения и (F (10,6556) = 1,870, p = 0,044) для грамматической частоты и срок знакомства. Кроме того, взаимодействие между всеми тремя переменными также значимо (F (10, 6556) = 4,650, p <0,001).

Чтобы завершить этот анализ и понять силу влияния на фактическую сложность, мы вычислили односторонний коэффициент корреляции Пирсона между грамматической частотой и фактической сложностью (правильный процент) как для исходных оценок, так и для оценок, агрегированных по интервалу частот.Обнаружилась отрицательная корреляция между грамматической частотой и фактической сложностью предложения (необработанные баллы: N = 6600, r = -0,053, p <0,01; средние значения: N = 11, r = -0,596, p <0,05), что указывает на то, что предложений, в которых использовались менее частые конструкции, было труднее понять .

Воспринимаемая сложность

Мы провели параллельный анализ воспринимаемой сложности. показывает средний воспринимаемый рейтинг сложности 220 предложений участников в каждой корзине.Следуя общепринятой практике, мы рассматриваем эту шкалу как непрерывную и рассчитываем средние баллы на ячейку (Norman, 2010). Более низкие баллы указывают на предложения, которые кажутся более легкими. Для более часто используемых структур рейтинг сложности колеблется в районе 2,0, однако по мере того, как структуры становятся менее знакомыми (уменьшаясь по частоте), они воспринимаются как более сложные. ANOVA для воспринимаемой трудности показывает основной эффект для диапазона частот (F (10, 6556) = 9,108, p <0,001). В отличие от реальной сложности, мы также находим основное влияние длины предложения на воспринимаемую сложность, при этом более длинные предложения считаются более сложными (в среднем 2.2), чем более короткие предложения (в среднем 2,0). Удивительно, но средняя частота семестра не повлияла на воспринимаемую сложность.

Воспринимаемая оценка сложности предложений в каждом из интервалов частот грамматики. Баллы варьировались от 1 до 5, причем более низкие баллы соответствовали более легким предложениям (1: «Очень легко» — 5: «Очень сложно»).

Как и в случае с реальной сложностью, несколько эффектов взаимодействия значительны, и их можно увидеть в. Влияние частоты грамматики на воспринимаемую сложность меньше в предложениях с более короткими словами и предложениями с меньшей частотой терминов.ANOVA показывает, что оба этих взаимодействия являются значимыми (F (10, 6556) = 5,648, p <0,001, для грамматической частоты и длины предложения, и F (10,6556) = 5,332, p <0,001, для грамматической частоты и степени знакомства терминов). ). Как высокочастотные, так и низкочастотные предложения показывают скачок сложности, хотя он происходит раньше (интервал 7) для низкочастотных предложений, чем для высокочастотных предложений (интервал 8).

Хотя это не наш главный интерес, мы также сообщаем о значительном взаимодействии между длиной предложения и знакомостью термина с воспринимаемой трудностью (F (10,6556) = 4.252, p = 0,039) и значимое трехстороннее взаимодействие между всеми тремя переменными (F (10,6556) = 5,734, p <0,001).

Мы завершаем наш анализ односторонним коэффициентом корреляции Пирсона между грамматической частотой и воспринимаемой трудностью. Существует положительная корреляция между частотой и воспринимаемой трудностью: участников оценили предложения с менее частыми грамматическими структурами как более сложные (N = 6600, r = 0,042, p <0,01).

Наконец, сравнивая обе наши зависимые переменные (фактическую и предполагаемую сложность), мы обнаружили значительную корреляцию между тем, насколько хорошо читатели выполнили тест Клозе и насколько сложным, по их мнению, было предложение.Более низкая точность коррелировала с более высокими оценками сложности (N = 11, r = -0,574, p <0,05; N = 6600, r = -0,203, p <0,01): предложений, которые было труднее понять участникам, также выглядели сложнее . Это подтверждает необходимость убедиться, что предложения более понятны (фактическая сложность), а также рассматриваются как более простые (воспринимаемая сложность).

Время

Мы провели ANOVA по общему времени, затраченному на выполнение задачи на предложение, которое включает время, затрачиваемое на чтение предложения, выполнение теста Клозе и вынесение субъективной оценки сложности.Однако, поскольку воспринимаемая сложность всегда измеряется по одной и той же 5-балльной шкале Лайкерта, мы полагаем, что затраченное время в основном отражает время, необходимое для чтения предложения и решения задачи Клозе. Мы обнаружили основное влияние грамматической частоты на время, когда предложения в ячейках с более низкой частотой занимают больше времени (F (10,6556) = 3,575, p <0,001). Вдобавок ожидаемый основной эффект от длины предложения - более длинные предложения занимают больше времени. Никакие другие основные или двусторонние взаимодействия не были значимыми, однако трехстороннее взаимодействие между всеми тремя независимыми переменными было значимым (F (10,6556) = 1.996, p = 0,030).

Корреляционный анализ подтверждает эти результаты и дает представление о силе взаимосвязи. Обнаружилась значимая корреляция между грамматической частотой и затраченным временем (N = 6600, r = 0,024, p <0,05): предложений с менее знакомыми грамматическими структурами заняло больше времени, чтобы выполнить задачу . Напомним, что предложения в подборках имеют одинаковую длину и знакомость терминов — два других фактора, которые могут сыграть роль в затраченном времени.

Как воспринимаемая, так и реальная сложность, как и ожидалось, коррелировали с затраченным временем: участники тратили больше времени на предложения, которые, по их мнению, были более сложными (N = 11, r = 0.936, р <0,01; N = 6600, r = 0,208, p <0,01), и они также тратили больше времени на предложения, которые на самом деле были более сложными (N = 11, r = -0,538, p <0,05; N = 6600, r = -0,093, p < 0,01).

Сводка эффектов

показывает сводку всех результатов ANOVA для трех показателей оценки.

Таблица 5

Сводные результаты ANOVA, показывающие статистическую значимость основного эффекта и эффектов взаимодействия для трех показателей оценки.

0,00 0,00 длина предложения
Главный эффект Эффекты взаимодействия p-значения
Фактическая сложность p <0.001
длина предложения p <0,001
термин знакомство p = 0,044
длина предложения и
термин
Воспринимаемая сложность p <0,001
длина предложения p <0,001
срок знакомства p <0.001
длина предложения и
срок знакомства
p <0,001

время p <0,001 p <0,001
срок знакомства не имеет значения
длина предложения и
срок знакомства
p = 0.030

Связь с существующими мерами сложности

Формулы удобочитаемости являются основным инструментом, используемым в медицинском сообществе для оценки сложности текста и «руководства» по упрощению текста (Weiss, 2007). Чтобы оценить эффективность этих формул удобочитаемости для прогнозирования сложности текста, мы рассчитали оценки читабельности для 220 предложений, используя три наиболее часто используемых показателя читабельности: показатель легкости чтения по Флешу, уровень оценки по Флешу-Кинкейду (FK) (Kincaid et al., 1975) и формулу читаемости SMOG (McLaughlin, 1969).

Мы рассчитали двусторонний коэффициент корреляции Пирсона между каждым из показателей удобочитаемости и зависимыми переменными, используемыми для измерения текста в нашем исследовании пользователей (воспринимаемая сложность, фактическая сложность и время). Ни один из трех показателей удобочитаемости существенно не коррелировал ни с реальной сложностью, ни с временем. Метрики читабельности, которые используются в настоящее время, не предсказывают, насколько вероятно, что пользователи поймут содержание текста .

Однако все три показателя читабельности достоверно коррелировали с воспринимаемой трудностью (Флеш: r = -0,22, p <0,001; FK: r = 0,25, p <0,001; SMOG: r = 0,10, p <0,01): предложения, которые были оценены как более простые по показателям удобочитаемости, были восприняты людьми как более легкие. Хотя поначалу это может показаться полезным, это также может быть проблематичным при использовании для упрощения текста. Эти показатели читабельности используются, чтобы помочь писателям-медикам создавать более понятный текст. Писатели могут создавать текст, который, по их мнению, является более простым, и проверять это с помощью формул удобочитаемости, однако они могут не создавать текст, который на самом деле легче понять читателям.

В качестве примера показывает фактическую сложность и воспринимаемую сложность предложений относительно уровня оценки Флеша-Кинкейда. Как показывают результаты корреляции, воспринимаемая сложность возрастает по мере повышения уровня обучения. Однако фактическая сложность остается более или менее постоянной по мере повышения уровня обучения, т.е. хотя Флеш-Кинкейд указывает, что текст становится все сложнее, участники понимали текст одинаково хорошо. Более шумные результаты на младших и средних уровнях обучения связаны с небольшим количеством предложений, содержащихся в этом классе.

Фактическая и воспринимаемая сложность, измеренная в нашем исследовании пользователей для 220 предложений, распределенных по классу Флеша-Кинкейда.

ГРАММАТИЧЕСКАЯ СЕМЬЯ КАК ИНСТРУМЕНТ АНАЛИЗА

Частота грамматики также может использоваться в качестве инструмента анализа корпуса для понимания грамматических характеристик корпуса высокого уровня.

Корпуса

В качестве демонстрационного исследования мы собрали три разных медицинских корпуса, в которых обсуждались распространенные заболевания. Мы выбрали заболевания из основных причин смерти из последнего исследования смертности CDC (Murphy, Kochanek, Xu, & Heron, 2015): болезни сердца, рак, респираторные заболевания, инсульт, болезнь Альцгеймера, диабет, грипп, пневмония, нефрит, нефроз и самоубийство.Корпуса были собраны из разных источников, к которым пациенты могли обратиться за медицинской информацией об этих заболеваниях:

  • PubMed : Мы провели поиск в базе данных PubMed, которая содержит выдержки из научных публикаций, связанных с медициной, по каждому из вышеуказанных заболеваний и загрузили все выдержки из полученных в результате сопоставленных статей.

  • Cochrane : Кокрановская база данных (http://www.cochrane.org/) содержит обзоры исследований здравоохранения и политики здравоохранения и может быть полезным источником исследований для пациентов и практикующих врачей, чтобы узнать о текущих медицинских исследованиях. исследование по теме.Как и в случае с PubMed, мы провели поиск по каждому из перечисленных выше заболеваний и загрузили аннотации всех статей для соответствующих обзоров.

  • Блоги : Мы определили десять различных блогов, в которых обсуждаются общие медицинские заболевания, и загрузили все сообщения с сайтов. Блоги не были написаны исследователями-медиками или медицинскими работниками.

Каждый из текстов был токенизирован и разбит на предложения с помощью инструментария Stanford CoreNLP, а затем проанализирован с помощью Berkeley Parser (такая же предварительная обработка, как и для интервалов частот).показывает количество статей и количество предложений для каждого из трех корпусов.

Таблица 6

Размер (количество текста и количество предложений) трех корпусов, проанализированных с использованием частотных интервалов грамматики.

Источник Кол-во текстов Кол-во предложений
PubMed 36,067 360,123

681

84
4
4
4
4
Cochrane 139 5,657

Для каждого предложения мы определили, к какому блоку грамматических знаний принадлежит предложение, на уровне 3 -го дерева синтаксического анализа.3 структуры уровня -го уровня , которые не были найдены (т.е.не были ранее замечены в базе данных), были помещены в последний (11 ) интервал, поскольку они представляют собой очень редко встречающиеся структуры (т.е.частоту 0 в базе данных).

Результаты

показывает долю предложений из каждого из трех корпусов, которые попали в каждый из 11 блоков грамматики. Следует отметить несколько ключевых выводов. Все корпуса следовали более или менее ожидаемому шаблону, при этом большинство предложений попадали в наиболее частые ячейки, а затем уменьшались числа в последующих ячейках.PubMed содержал наибольшее количество предложений в корзине 1 (наиболее частой корзине) из трех корпусов. Глядя на предложения в корзине 1, многие из них можно отнести к последовательному стилю письма, используемому при написании рефератов для исследований, связанных со здоровьем. У Кокрейна почти 10% предложений попали в корзину 8, что на первый взгляд удивительно. Однако это снова произошло из-за общей схемы, используемой в Кокрановских рефератах для выделения различных аспектов обзоров, например «Основной результат:…» и «Критерии отбора:…».Во всех трех корпусах также было много структур предложений, которые ранее не встречались, что привело к большому их количеству в ячейке 11. Поскольку блоги, как правило, использовали более небрежный (а иногда и грамматический) стиль написания, у блогов было больше всего в этой категории.

Доля предложений, попадающих в каждый из 11 интервалов частот грамматики для трех корпусов.

Для этих трех корпусов мы уже обладаем глубоким пониманием стиля написания (т. Е. Рефераты исследований, как правило, носят технический характер, но используются общие структуры, а в блогах обычно используются более разнообразные и более случайные грамматические структуры).Для новых корпусов знакомство с грамматикой может помочь понять регулярность используемых грамматических структур. Кроме того, даже для известных корпусов, это может помочь выявить другие закономерности / аномалии, ранее не известные, например, в Кокрановском корпусе.

В этом исследовании также подчеркивается, что частота грамматики — лишь один из компонентов сложности текста. Чтобы избежать мешающих факторов, в исследовании пользователей мы сохранили постоянство терминологии (как показатель сложности слова) в различных грамматических структурах.Без этого будет сложнее измерить влияние второстепенных характеристик сложности, таких как грамматика. Например, в приведенном выше анализе аннотации PubMed, как правило, труднее понять, чем блоги, но, основываясь только на грамматической частоте, они кажутся легче, поскольку содержат более часто встречающиеся структуры. Однако этот анализ игнорирует трудность слов. В корпусе PubMed используются более редкие термины со средней степенью узнаваемости терминов 2,83 млн / слово по сравнению с корпусом блогов 2,96 млн / слово.

ОБСУЖДЕНИЕ

В этом исследовании мы предлагаем два основных вклада.Во-первых, мы показываем, что текущие показатели удобочитаемости не позволяют эффективно измерить сложность текста. Показатели удобочитаемости, основанные на длине слова и предложения, коррелируют с тем, насколько сложными люди воспринимают предложения, но не коррелируют с тем, насколько вероятно, что человек поймет это предложение. Во-вторых, что более важно, мы вводим новую меру сложности текста, которая использует частоту встречаемости грамматической структуры уровня 3 rd , где частота вычисляется с использованием структур из всех предложений в английской Википедии.Этот показатель можно применять к новым предложениям, чтобы предсказать сложность предложения. Мы подтвердили эту новую меру сложности текста с помощью пользовательского исследования, изучившего 220 предложений с 30 оценками на предложение (N = 6600), и обнаружили, что существует значительное влияние грамматической частоты как на то, насколько сложным, по мнению человека, является данное предложение (воспринимаемая сложность). а также насколько легко понять это предложение (настоящая трудность).

Неудивительно, что грамматика в коротких предложениях меньше влияет на реальную сложность.Одно из объяснений может заключаться в том, что короткие предложения легко понять, а любой эффект грамматики трудно обнаружить (эффект потолка). Точно так же в предложениях с низким уровнем знакомства (то есть более сложных словах) знакомство с грамматикой не влияет на сложность текста, поскольку пользователи борются с лексической сложностью. Однако в предложениях с очень знакомыми терминами, которые легче понять, частота грамматики действительно влияет на реальную сложность; только в предложениях, где слова более знакомы, грамматическая частота имеет сильное влияние.Интересно, что в целом частота семестров очень мало повлияла на фактическую сложность. Основываясь на этих наблюдениях, мы предполагаем, что существует связь между грамматической частотой и частотой терминов. Для полной проверки этих гипотез необходимы дальнейшие исследования.

У нашего исследования есть ограничения. Понимание текста измерялось отдельными предложениями. Работа с более длинным текстом может уменьшить эффект, если доступно больше контекстной информации. Наш статистический анализ показывает только значимые взаимодействия, и мы использовали визуальный осмотр для интерпретации различных закономерностей.Для подтверждения этих закономерностей необходимы дальнейшие исследования.

Для нового предложения грамматическая частота может использоваться для автоматической оценки грамматической сложности предложения, как показано в анализе корпуса. Мы создали предварительный инструмент, который делает это путем синтаксического анализа предложения, извлечения дерева синтаксического анализа уровня 3 rd и последующего поиска соответствующего интервала грамматической частоты. Предложения, которые имеют проблемные (то есть низкочастотные структуры), могут быть автоматически помечены, чтобы медицинский писатель затем исправил их на более простой вариант (т.е. более высокочастотная структура). Например, даже простая эвристика идентификации всех предложений в ячейках 7–11 помечает предложения со значительно более низким уровнем понимания пользователем. В нашем исследовании, сравнивая предложения из ячеек 7–11 с предложениями в ячейках 1-6: воспринимаемая сложность ниже 2,26 по сравнению с 2,0, снижение на 12%; реальная сложность 87,6% против 91,4%, разница ~ 4%; а время, затрачиваемое на обработку предложения, составляет 39,8 секунды против 44,3 секунды, что на 4,5 секунды больше. Оптимальное количество и распределение интервалов можно проверить статистически путем оценки различных перестановок.Однако количество ящиков также имеет значение для нашего будущего инструмента. Меньшие ячейки представляют собой более высокую степень детализации и позволят получить более точную обратную связь и предложения, но требуют больше данных для получения хороших оценок качества ячейки. Для больших бункеров легче собирать данные, но они представляют меньшую степень детализации в грамматических различиях и потребуют от пользователей инструментов вносить более крупные изменения в грамматику без обратной связи с инструментами. В будущей работе мы планируем усовершенствовать текущий инструмент, предложив преобразования, улучшающие грамматическую частоту, например.г. путем изучения правил грамматических преобразований из параллельного корпуса нормальных и упрощенных предложений (Feblowitz & Kauchak, 2013; Woodsend & Lapata, 2011; Zhu et al., 2010).

Благодарности

Исследование, представленное в этой публикации, было поддержано Национальной медицинской библиотекой Национальных институтов здравоохранения под номером R01LM011975. Авторы несут полную ответственность за содержание, которое не обязательно отражает официальную точку зрения Национальных институтов здравоохранения.

ССЫЛКИ

  • Adkins AD, Singh NN. Уровень чтения и удобочитаемость учебных материалов для пациентов по психическому здоровью. Журнал исследований ребенка и семьи. 2001; 10 (1): 1–8. [Google Scholar]
  • Alu SM, Specia L, Pardo TAS, Maziero EG, Fortes RPM. На пути к автоматическим системам упрощения текста на бразильском португальском языке; Документ, представленный на Протоколах восьмого симпозиума ACM по документации; Сан-Паулу, Бразилия. 2008. № 237, sio. [Google Scholar]
  • Бейлин А., Графштейн А.Лингвистические допущения, лежащие в основе формул удобочитаемости: критика. Язык и общение. 2001. 21 (3): 285–301. [Google Scholar]
  • Bormuth JR. Факторная валидность тестов Cloze как мера способности понимания прочитанного. Ежеквартальное чтение исследования. 1969. 4 (3): 358–365. [Google Scholar]
  • Ботт С., Саггион Х. Упрощение испанского текста: предварительное исследование. Procesamiento del lenguaje natural. 2011; 47: 87–95. [Google Scholar]
  • Brainard J. Study обнаружил, что формы согласия на исследование трудны для понимания.Хроника высшего образования. 2003; 49 (19): A21 – A22. [PubMed] [Google Scholar]
  • Brandt HM, McCree DH, Lindley LL, Sharpe PA, Hutto BE. Оценка печатных учебных материалов по ВПЧ. Борьба с раком. 2005; 12 (приложение 2): 103–106. [PubMed] [Google Scholar]
  • Бранц Т., Франц А. 5-граммовый корпус Google Web 1T, версия 1.1. 2006 LDC2006T13. [Google Scholar]
  • Брюс BC, Рубин А., Старр К.С. Почему формулы удобочитаемости не работают. 1981 [Google Scholar]
  • Каллан Дж., Эскенази М.Сочетание лексических и грамматических характеристик для улучшения показателей читабельности текстов на первом и втором языках; Документ, представленный на NAACL HLT.2007. [Google Scholar]
  • Сирило Р.К., Foss DJ. Структура текста и время чтения предложений. Журнал вербального обучения и вербального поведения. 1980. 19 (1): 96–109. [Google Scholar]
  • Clahsen H, Felser C. Грамматическая обработка у изучающих язык. Прикладная психолингвистика. 2006; 27 (01): 3–42. [Google Scholar]
  • Коллинз С.А., Карри Л.М., Баккен С., Водри Д.К., Стоун П.В.Инструменты скрининга медицинской грамотности для приложений электронного здравоохранения: систематический обзор. Журнал биомедицинской информатики. 2012. 45 (3): 598–607. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Коллинз-Томпсон К., Каллан Дж. Прогнозирование трудностей чтения с помощью статистических языковых моделей. Журнал Американского общества информационных наук и технологий. 2005. 56 (13): 1448–1462. [Google Scholar]
  • Комитет по санитарной грамотности — Институт медицины национальных академий. 2004 Получено с https: // iom.nationalacademies.org/~/media/Files/ReportFiles/2004/Health-Literacy-A-Prescription-to-End-Confusion/healthliteracyfinal.pdf. [Google Scholar]
  • Connatser BR. Последние обряды для удобочитаемости формул в техническом общении. Журнал технического письма и общения. 1999. 29 (3): 271–288. [Google Scholar]
  • Костер В., Каучак Д. Простая английская Википедия: новая задача по упрощению текста; Доклад, представленный на Протоколах 49-го Ежегодного собрания Ассоциации компьютерной лингвистики: Технологии человеческого языка: краткие доклады — Том 2; Портланд, штат Орегон.2011. [Google Scholar]
  • Девлин С., Неблагодарность Г. Помощь афатическим людям в обработке онлайн-информации; Доклад, представленный на материалах 8-й международной конференции ACM SIGACCESS по компьютерам и доступности; Портленд, Орегон, США. 2006. [Google Scholar]
  • Farmer AP, Légaré F, Turcot L, Grimshaw J, Harvey E, McGowan JL, Wolf F. Печатные учебные материалы: влияние на профессиональную практику и результаты здравоохранения. Cochrane Database Syst Rev. 2008; 3 (3) [PubMed] [Google Scholar]
  • Фебловиц Д., Каучак Д.Упрощение предложения как преобразование дерева; Работа, представленная на Proc. Второго семинара по прогнозированию и улучшению читабельности текста для целевых групп читателей, 2013 г. [Google Scholar]
  • Фокс С. Вопросы здоровья. Pew Internet & American Life Project. 2011 [Google Scholar]
  • Goldman SR, Murray JD. Знание соединителей как устройств сцепления в тексте: сравнительное исследование носителей английского языка и носителей английского как второго языка. Журнал педагогической психологии.1992; 84 (4): 504. [Google Scholar]
  • Хао Т., Русанов А., Боланд М.Р., Венг С. Кластеризация клинических испытаний с аналогичными критериями приемлемости. Журнал биомедицинской информатики. 2014; 52: 112–120. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Health.gov Краткое руководство по санитарной грамотности. Получено с http://www.health.gov/communication/literacy/quickguide/factsbasic.htm.
  • Как писать удобные для чтения материалы о здоровье. Получено с http://www.nlm.nih.gov/medlineplus/etr.html.
  • Янц Н.К., Беккер М.Х. Модель веры в здоровье: десятилетие спустя. Санитарное просвещение и поведение. 1984. 11 (1): 1–47. [PubMed] [Google Scholar]
  • Kandula S, Curtis D, Zeng-Treitler Q. Инструмент семантического и синтаксического упрощения текста для содержания здоровья; Статья представлена ​​на AMIA Annu Symp Proc.2010. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Каучак Д., Лерой Г., Костер В. Систематический грамматический анализ простых и сложных медицинских текстов; Доклад, представленный на осеннем симпозиуме Американской ассоциации медицинской инфоматики (AMIA).2012. [Google Scholar]
  • Ким Х., Горячев С., Роземблат Дж., Браун А., Кесельман А., Зенг-Трейтлер К. Помимо характеристик поверхности: новое измерение читабельности текста для здоровья; Документ, представленный на Ежегодном симпозиуме AMIA в 2007 году. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Kincaid JP, Fishburne Jr RP, Rogers RL, Chissom BS. Вывод новых формул удобочитаемости (автоматический индекс читаемости, подсчет тумана и формула легкости чтения флеша) для военнослужащих.1975 Получено из. [Google Scholar]
  • Киттур А., Чи Э. Х., Сух Б. Краудсорсинговые исследования пользователей с помощью Mechanical Turk; Доклад, представленный на конференции SIGCHI по человеческому фактору в вычислительных системах, 2008 г. [Google Scholar]
  • Летиция Брауэрс Д.Б., Анн-Лор Лигозат, Томас Франсуа. Упрощение синтаксических предложений для французского языка; Документ, представленный в материалах 3-го семинара по прогнозированию и повышению читабельности текста для целевых групп читателей (PITR) @ EACL.2014. [Google Scholar]
  • Лерой Дж., Эндикотт Дж., Муради О., Каучак Д., Джаст М. Улучшение воспринимаемых и фактических трудностей с текстом для потребителей медицинской информации с помощью полуавтоматических методов; Доклад представлен на осеннем симпозиуме AMIA 2012. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Лерой Дж., Эндикотт Дж. Э. Электронные библиотеки: для культурного наследия, распространения знаний и будущего творчества. Springer; 2011. Термин «знакомство» для обозначения предполагаемой и реальной сложности текста в медицинских электронных библиотеках; стр.307–310. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Лерой Дж., Эндикотт Дж. Э. Сочетание НЛП с методами, основанными на фактах, для поиска показателей текста, связанных с воспринимаемой и реальной сложностью текста; Документ, представленный в материалах 2-го Международного симпозиума ACM SIGHIT по информатике здравоохранения, 2012 г. [Google Scholar]
  • Лерой Дж., Эндикотт Дж. Э., Каучак Д., Муради О., Джаст М. Оценка пользователем воздействия алгоритма упрощения текста с использованием терминологии на восприятие, понимание, обучение и удержание информации.Журнал медицинских интернет-исследований. 2013; 15 (7) [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Leroy G, Eryilmaz E, Laroya BT. Характеристики текста медицинской информации; Документ, представленный на ежегодном симпозиуме AMIA, 2006 г. [Google Scholar]
  • Лерой Дж., Хельмрайх С., Коуи Дж. Оценка онлайн-информации о здоровье: помимо формул для удобочитаемости. 2008 [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Leroy G, Helmreich S, Cowie JR. Влияние языковых особенностей и точки зрения оценки на воспринимаемую сложность медицинского текста; Документ, представленный на 43-й Гавайской международной конференции по системным наукам (HICSS), 2010 г.2010a. [Google Scholar]
  • Лерой Г., Хельмрайх С., Коуи-младший. Влияние характеристик текста на воспринимаемую и реальную сложность информации о здоровье. Международный журнал медицинской информатики. 2010b; 79 (6): 438–449. [PubMed] [Google Scholar]
  • Лерой Г., Каучак Д. Влияние знакомства слов на фактическую и воспринимаемую сложность текста. Журнал Американской ассоциации медицинской информатики. 2013 amiajnl-2013-002172. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Лерой Г., Каучак Д., Муради О.Пользовательское исследование, измеряющее влияние лексического упрощения и улучшения согласованности на воспринимаемую и фактическую сложность текста. Международный журнал медицинской информатики. 2013. 82 (8): 717–730. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Лерой Дж., Миллер Т., Роземблат Дж., Браун А. Сбалансированный подход к оценке медицинской информации: наивный словарный классификатор Байеса и формулы удобочитаемости. Журнал Американского общества информационных наук и технологий. 2008. 59 (9): 1409–1419.[Google Scholar]
  • Мандлер Дж. М., Гудман М. С.. О психологической обоснованности структуры рассказа. Журнал вербального обучения и вербального поведения. 1982. 21 (5): 507–523. [Google Scholar]
  • Мэннинг К., Сурдиану М., Бауэр Дж., Финкель Дж., Бетард С.Дж., Макклоски Д. Набор инструментов для обработки естественного языка Stanford CoreNLP; Документ, представленный в Ассоциации компьютерной лингвистики: системные демонстрации, 2014 г. [Google Scholar]
  • Maples P, Franks A, Stevens AB, Wallace LS. Разработка и проверка анкеты для изучения хронической обструктивной болезни легких с низким уровнем грамотности (ХОБЛ-Q) Обучение пациентов и консультирование.2010. 81 (1): 19–22. [PubMed] [Google Scholar]
  • McLaughlin GH. Оценка SMOG: новая формула удобочитаемости. Журнал чтения. 1969. 12 (8): 639–646. [Google Scholar]
  • McNamara DS, Kintsch E, Songer NB, Kintsch W. Всегда ли хорошие тексты лучше? Взаимодействие связности текста, базовых знаний и уровней понимания при обучении по тексту. Познание и обучение. 1996. 14 (1): 1–43. [Google Scholar]
  • Мейер Б.Дж., Райс Г.Е. Структура текста. Справочник по чтению-исследованию.1984; 1: 319–351. [Google Scholar]
  • Мерфи С.Л., Кочанек К.Д., Сюй Дж., Херон М. Национальные отчеты о статистике естественного движения населения. Национальные отчеты о статистике естественного движения населения. 2015; 63 (9) [PubMed] [Google Scholar]
  • Наполес К., Дредзе М. Изучение простой Википедии: размышление при установлении абекедарского языка; Документ, представленный на семинаре NAACL HLT 2010 по компьютерной лингвистике и письму: процессы письма и средства создания; Лос-Анджелес, Калифорния. 2010. [Google Scholar]
  • Norman G.Шкалы Лайкерта, уровни измерения и «законы» статистики. Достижения в образовании в области медицинских наук. 2010. 15 (5): 625–632. [PubMed] [Google Scholar]
  • Паолаччи Дж., Чандлер Дж., Ипейротис П.Г. Проведение экспериментов на Amazon Mechanical Turk. Суждение и принятие решения. 2010. 5 (5): 411–419. [Google Scholar]
  • Петров С., Барретт Л., Тибо Р., Кляйн Д. Обучение точным, компактным и интерпретируемым аннотациям дерева; Доклад, представленный на материалах 21-й Международной конференции по компьютерной лингвистике и 44-го ежегодного собрания Ассоциации компьютерной лингвистики; Сидней, Австралия.2006. [Google Scholar]
  • Питлер Э., Ненкова А. Возвращение к удобочитаемости: единая структура для прогнозирования качества текста; Статья представлена ​​в материалах конференции по эмпирическим методам обработки естественного языка, 2008 г. [Google Scholar]
  • Рэйни Г.Э. Мониторинг изменений когнитивной нагрузки во время чтения: анализ потенциала мозга и времени реакции, связанных с событием. Журнал экспериментальной психологии: обучение, память и познание. 1993; 19 (1): 51. [PubMed] [Google Scholar]
  • Рэтбун А., Торнтон Л.А., Фокс Дж. Э.Окупаются ли наши вложения?: Исследование материалов об уровне чтения и тяжелой утрате. Американский журнал хосписов и паллиативной медицины. 2008. 25 (4): 278–281. [PubMed] [Google Scholar]
  • Росс Дж., Ирани Л., Сильберман М., Залдивар А., Томлинсон Б. Кто такие краудворкеры ?: меняющаяся демография в механическом турке; Доклад, представленный на CHI’10 Extended Abstracts on Human Factors in Computing System.2010. [Google Scholar]
  • Сафран Н. Википедия в поисковой выдаче. 2012 г. Получено с http: // www.wirector.com/blog/2012/03/wikipedia-in-the-serps-appears-on-page-1-for-60-of-informational-34-transactional-queries/ [Google Scholar]
  • Siddharthan A. An архитектура системы упрощения текста; Доклад, представленный на конференции по языковой инженерии; 2002; 2002. Известия. [Google Scholar]
  • Тейлор В.Л. «Процедура закрытия»: новый инструмент для измерения читаемости. Журналистика Ежеквартально. 1953; 30: 415–433. [Google Scholar]
  • Вернон Дж. А., Трухильо А., Розенбаум С. Дж., ДеБуоно Б.Низкая санитарная грамотность: последствия для национальной политики здравоохранения. 2007 [Google Scholar]
  • Weiss BD. Медицинская грамотность и безопасность пациентов: Помогите пациентам понять (Руководство для врачей) 2007 [Google Scholar]
  • Вудсенд К., Лапата М. Обучение упрощению предложений с помощью квазисинхронной грамматики и целочисленного программирования; Доклад, представленный в материалах конференции по эмпирическим методам обработки естественного языка, 2011 г. [Google Scholar]
  • Xu W., Callison-Burch C, Napoles C.Проблемы в текущем исследовании упрощения текста: новые данные могут помочь. Труды Ассоциации компьютерной лингвистики. 2015; 3: 283–297. [Google Scholar]
  • Жу З., Бернхард Д., Гуревич И. Одноязычная древовидная модель перевода для упрощения предложений; Статья представлена ​​на материалах 23-й международной конференции по компьютерной лингвистике, 2010. [Google Scholar]

Анализ данных журнала | New Relic Documentation

Парсинг — это процесс разделения неструктурированных данных журнала на атрибуты (пары ключ / значение).Эти атрибуты можно использовать для фасетирования или фильтрации журналов полезными способами. Это, в свою очередь, помогает вам создавать более качественные диаграммы и оповещения.

Чтобы приступить к синтаксическому анализу, вы можете посмотреть следующий видеоурок на YouTube (примерно 4-1 / 2 минуты).

New Relic анализирует данные журнала в соответствии с правилами. В этом документе описывается, как работает синтаксический анализ журналов, как использовать встроенные правила и как создавать собственные правила.

Вы также можете создавать, запрашивать и управлять своими правилами синтаксического анализа журналов, используя NerdGraph, наш GraphQL API, на api.newrelic.com/graphiql. Для получения дополнительной информации см. Наше руководство по синтаксическому анализу NerdGraph.

Пример

Хорошим примером является журнал доступа NGINX по умолчанию, содержащий неструктурированный текст. Это полезно для поиска, но не более того. Вот пример типичной строки:

  

127.180.71.3 - - [10 / May / 1997: 08: 05: 32 +0000] "GET / downloads / product_1 HTTP / 1.1" 304 0 "-" "Debian APT -HTTP / 1.3 (0.8.16 ~ exp12ubuntu10.21) "

В неанализируемом формате вам потребуется выполнить полнотекстовый поиск, чтобы ответить на большинство вопросов.После синтаксического анализа журнал разбивается на атрибуты, такие как код ответа и URL-адрес запроса :

  

«remote_addr»: «93.180.71.3»,

«путь»: «/ downloads / product_1»,

"user_agent": "Debian APT-HTTP / 1.3 (0.8.16 ~ exp12ubuntu10.21)"

Анализ упрощает создание настраиваемых запросов, связанных с этими значениями. Это поможет вам понять распределение кодов ответа по URL-адресу запроса и быстро найти проблемные страницы.

Как работает анализ журналов

Вот обзор того, как New Relic реализует анализ журналов:

Анализ журналов

Как это работает

9000 Все анализ выполняется по полю сообщения ; никакие другие поля не могут быть проанализированы.
  • Каждое правило синтаксического анализа создается с критериями соответствия, которые определяют, какие журналы будет пытаться проанализировать правило.
  • Чтобы упростить процесс сопоставления, мы рекомендуем добавить в ваши журналы атрибут logtype . Однако вы не ограничены использованием logtype ; любой атрибут может использоваться как критерий соответствия.
  • Когда

    • Анализ будет применяться только один раз к каждому сообщению журнала. Если журналу соответствует несколько правил синтаксического анализа, будет применено только первое из успешных.
    • Анализ выполняется во время приема журнала перед записью данных в NRDB.После того, как данные были записаны в хранилище, их больше нельзя анализировать.
    • Анализ выполняется в конвейере до того, как произойдет обогащение данных . Будьте осторожны при определении критериев соответствия для правила синтаксического анализа. Если критерий основан на атрибуте, который не существует до конца после синтаксического анализа или обогащения, эти данные не будут присутствовать в журналах, когда произойдет сопоставление. В результате никакого разбора не произойдет.

    Как

    • Правила могут быть написаны в Grok, регулярном выражении или их смеси.Grok — это набор шаблонов, абстрагирующих сложные регулярные выражения.
    • Если содержимое поля сообщения — JSON, оно будет проанализировано автоматически.

    Организация по типу журнала

    Конвейер приема журналов New Relic может анализировать данные, сопоставляя событие журнала с правилом, которое описывает, как следует анализировать журнал. Есть два способа анализа событий журнала:

    Правила представляют собой комбинацию логики сопоставления и логики синтаксического анализа.Сопоставление выполняется путем определения сопоставления запроса по атрибуту журналов. Правила не имеют обратной силы. Журналы, собранные до создания правила, не анализируются этим правилом.

    Самый простой способ упорядочить журналы и способы их анализа — это включить поле logtype в событие журнала. Это сообщает New Relic, какое встроенное правило применить к журналам.

    Важно

    После того, как правило синтаксического анализа становится активным, данные, анализируемые этим правилом, навсегда изменяются. Это не может быть отменено.

    В левой части пользовательского интерфейса журналов выберите Parsing , затем создайте свой собственный настраиваемое правило синтаксического анализа с атрибутом, значением и шаблоном Grok.

    Ограничения

    Анализ требует больших вычислительных ресурсов, что сопряжено с риском. Анализ выполняется для настраиваемых правил, определенных в учетной записи, и для сопоставления шаблонов с журналом. Большое количество шаблонов или плохо определенные пользовательские правила потребуют огромного количества ресурсов памяти и ЦП, а также займут очень много времени для выполнения.

    Чтобы предотвратить проблемы, мы применяем два ограничения синтаксического анализа: для каждого сообщения на правило и для каждой учетной записи.

    Limit

    Описание

    Per-message-per-rule

    Ограничение per-message-per-rule предотвращает время, затрачиваемое на синтаксический анализ любого отдельного сообщения более 100 мс. Если этот предел будет достигнут, система прекратит попытки проанализировать сообщение журнала с помощью этого правила.

    Конвейер приема попытается запустить любое другое, применимое к этому сообщению, и сообщение все равно будет проходить через конвейер приема и сохраняться в NRDB. Сообщение журнала будет в исходном, не проанализированном формате.

    Для каждой учетной записи

    Ограничение на одну учетную запись существует для предотвращения использования учетными записями ресурсов, превышающих их справедливую долю. Предел учитывает общее время, потраченное на обработку всех сообщений журнала для учетной записи в минуту.

    Лимит не является фиксированным значением; он масштабируется вверх или вниз пропорционально объему данных, ежедневно хранимых учетной записью, и размеру среды, которая впоследствии выделяется для поддержки этого клиента.

    Наконечник

    Чтобы легко проверить, достигнуты ли ваши ограничения скорости, зайдите в свою систему Пределы страница в интерфейсе New Relic.

    Встроенные правила синтаксического анализа

    Общие форматы журналов имеют хорошо зарекомендовавшие себя правила синтаксического анализа, уже созданные для них.Чтобы воспользоваться преимуществами встроенных правил синтаксического анализа, добавьте атрибут logtype при пересылке журналов. Установите значение, указанное в следующей таблице, и правила для этого типа журнала будут применяться автоматически.

    Список встроенных правил

    Следующие значения атрибута logtype отображаются в предварительно определенное правило синтаксического анализа. Например, чтобы запросить Application Load Balancer:

    • В пользовательском интерфейсе New Relic используйте формат logtype: alb .
    • Из NerdGraph используйте формат logtype = 'alb' .

    Чтобы узнать, какие поля анализируются для каждого правила, см. Нашу документацию о встроенных правилах анализа.

    74 9664 9669

    74 9669 ngin доступ к журналам

    тип журнала: nginx

    logtype

    Пример запроса соответствия

    alb

    AWS Application Load Balancer 9206

    9206

    Apache Access

    тип журнала: apache

    cloudfront-web

    CloudFront Web

    тип журнала:

    4 тип журнала:

    4

    4 el0006

    Amazon Elastic Load Balancer

    тип журнала: elb

    iis_w3c

    Журналы сервера Microsoft IIS — формат W3C

    logtype

    _log

    _W3C

    900 04 Monit logs

    logtype: monit

    mysql-error

    Ошибка MySQL

    тип журнала: mysql-error

    nginx-error

    журналы ошибок NGINX

    тип журнала: nginx-error

    4

    4

    Amazon Route 53 журналов

    тип журнала: route-53

    syslog-rfc5424

    Syslog

    тип журнала: syslog -2082 logtype: syslog -208259 9672624 атрибут

    При агрегировании журналов важно предоставить метаданные, которые упрощают или собирать, искать и анализировать эти журналы.Один из простых способов сделать это - добавить атрибут logtype к сообщениям журнала при их отправке. Встроенные правила синтаксического анализа применяются по умолчанию к определенным значениям logtype .

    Вот несколько примеров того, как добавить тип журнала в журналы, отправленные некоторыми из поддерживаемых нами способов доставки.

    Пример агента инфраструктуры New Relic

    Добавьте тип журнала в качестве атрибута . Вы должны установить тип журнала для каждого названного источника.

    Fluentd, пример

    Добавьте блок фильтра в файл .conf , который использует record_transformer для добавления нового поля. В этом примере мы используем logtype из nginx для запуска встроенного правила синтаксического анализа NGINX. Ознакомьтесь с другими примерами Fluentd.

      

    # Добавить тип журнала для запуска встроенного правила синтаксического анализа для журналов доступа nginx

    # Установить метку времени из значения, содержащегося в поле "время"

    # Добавить поля имени хоста и тега ко всем записям

    имя хоста "# {Разъем.gethostname} "

    Пример Fluent Bit

    Добавьте блок фильтра в файл .conf , который использует record_modifier для добавления нового поля. В этом примере мы используем logtype из nginx для запуска встроенное правило синтаксического анализа NGINX. Ознакомьтесь с другими примерами Fluent Bit.

      

    Запись имени хоста $ {HOSTNAME}

    Запись имени_службы Sample-App-Name

    Пример Logstash

    Добавьте блок фильтра в конфигурацию Logstash который использует add_field фильтр mutate для добавления нового поля.В этом примере мы используем logtype из nginx для запуска встроенного правила синтаксического анализа NGINX. Ознакомьтесь с другими примерами Logstash.

      

    "service_name" => "myservicename"

    Пример API журналов

    Вы можете добавить атрибуты в запрос JSON, отправленный в New Relic. В этом примере мы добавляем атрибут logtype со значением nginx для запуска встроенного правила синтаксического анализа NGINX. Подробнее об использовании API журналов.

      POST / журнал / v1 HTTP / 1.1
    Хост: log-api.newrelic.com
    Тип содержимого: приложение / json
    X-License-Key:  YOUR_LICENSE_KEY 
    Принимать: */*
    Длина содержимого: 133
    {
      «отметка времени»:  TIMESTAMP_IN_UNIX_EPOCH ,
      "message": "Пользователь ' xyz ' вошел в систему",
      "тип журнала": "журналы доступа",
      "сервис": "логин-сервис",
      "hostname": " login.example.com "
    }  

    Создание собственных правил синтаксического анализа

    Многие журналы имеют уникальный формат или структуру.Чтобы проанализировать их, необходимо создать и применить настраиваемую логику.

    В левой части пользовательского интерфейса журналов выберите Parsing , затем создайте свой собственный настраиваемое правило синтаксического анализа с атрибутом, значением и шаблоном Grok.

    Для создания и управления своими собственными правилами синтаксического анализа:

    1. Перейдите на страницу one.newrelic.com> Журналы .
    2. Из Управление данными в левой части пользовательского интерфейса журналов щелкните Parsing , затем щелкните Create parsing rule .
    3. Введите имя правила синтаксического анализа.
    4. Выберите атрибут и значение для сопоставления.
    5. Напишите свой шаблон Grok и проверьте правило. Чтобы узнать о Grok и пользовательских правилах синтаксического анализа, прочтите нашу запись в блоге о том, как анализировать журналы с помощью шаблонов Grok.
    6. Включите и сохраните настраиваемое правило синтаксического анализа.

    Для просмотра списка настраиваемых правил синтаксического анализа: From Manage Data on the left nav в пользовательском интерфейсе журналов щелкните Parsing .

    Для просмотра существующих правил синтаксического анализа:

    1. Перейдите на страницу one.newrelic.com> Журналы .
    2. Из Manage Data в левой части пользовательского интерфейса журналов щелкните Parsing .

    Устранение неполадок

    Если синтаксический анализ не работает должным образом, это может быть связано с:

    • Логикой: Логика сопоставления правил синтаксического анализа не соответствует нужным журналам.
    • Время: Если ваше правило сопоставления синтаксического анализа нацелено на значение, которое еще не существует, оно завершится ошибкой.Это может произойти, если стоимость добавляется позже в конвейере как часть процесса обогащения.
    • Ограничения: Каждую минуту предоставляется фиксированное количество времени для обработки журналов с помощью синтаксического анализа, шаблонов, фильтров отбрасывания и т. Д. Если было потрачено максимальное количество времени, синтаксический анализ будет пропущен для дополнительных записей событий журнала.

    Чтобы решить эти проблемы, создайте или настройте свои собственные правила синтаксического анализа.

    5 принципов визуального дизайна в UX

    Глядя на визуальный элемент, мы обычно сразу можем сказать, нравится он или нет.(Потому что они часто проявляются на интуитивном уровне в модели эмоционального дизайна Дона Нормана.) Однако немногие могут словесно объяснить, почему макет визуально привлекателен. Графика, основанная на принципах хорошего визуального дизайна, может стимулировать взаимодействие и повысить удобство использования.

    Принципы визуального дизайна информируют нас о том, как элементы дизайна, такие как линия, форма, цвет, сетка или пространство, сочетаются друг с другом для создания хорошо округленных и продуманных визуальных эффектов.

    В этой статье определены 5 принципов визуального дизайна, которые влияют на UX:

    1. Шкала
    2. Визуальная иерархия
    3. Остаток
    4. Контраст
    5. Гештальт

    Следование этим 5 принципам визуального дизайна может повысить вовлеченность и удобство использования.

    1. Шкала

    Этот принцип широко используется: почти каждый хороший визуальный дизайн использует его преимущества.

    Определение: Принцип шкалы относится к использованию относительного размера для обозначения важности и ранга в композиции.

    Другими словами, при правильном использовании этого принципа наиболее важные элементы в дизайне больше, чем менее важные. Причина этого принципа проста: когда что-то крупное, это с большей вероятностью будет замечено.

    Для визуально приятного дизайна обычно используется не более 3-х различных размеров. Наличие ряда элементов разного размера не только создаст разнообразие в вашем макете, но также установит визуальную иерархию (см. Следующий принцип) на странице. Обязательно подчеркните самые важные аспекты своего дизайна, сделав их самыми большими.

    При правильном использовании принципа масштабирования и выделении нужных элементов пользователи легко проанализируют визуальное оформление и узнают, как его использовать.

    Medium для iPhone: популярные статьи визуально больше других статей. Шкала направляет пользователей к потенциально более интересным статьям. В этой автостоянке в Кракове самая важная часть информации (зона H - где вы сейчас находитесь) - самая большая по размеру. (Источник изображения: www.behance.com)

    2. Визуальная иерархия

    Макет с хорошей визуальной иерархией будет легко понятен вашим пользователям.

    Определение : Принцип визуальной иерархии касается направления взгляда на страницу таким образом, чтобы он обращал внимание на различные элементы дизайна в порядке их важности.

    Визуальная иерархия может быть реализована посредством вариаций масштаба, значения, цвета, интервала, размещения и множества других сигналов.

    Визуальная иерархия контролирует доставку опыта. Если вам сложно понять, где искать на странице, скорее всего, в ее макете отсутствует четкая визуальная иерархия.

    Чтобы создать четкую визуальную иерархию, используйте 2–3 размера шрифта, чтобы указать пользователям, какие части контента являются наиболее важными или находятся на самом высоком уровне в мини-информационной архитектуре страницы.Или рассмотрите возможность использования ярких цветов для важных предметов и приглушенных цветов для менее важных.

    Scale также может помочь определить визуальную иерархию, поэтому включите различные масштабы для различных элементов дизайна. Общее практическое правило - включать в проект мелкие, средние и большие компоненты.

    Среднее мобильное приложение: имеется четкая визуальная иерархия заголовка, подзаголовка и основного текста. Каждый компонент статьи имеет размер шрифта, равный его важности. Мобильное приложение Uber: в мобильном приложении Uber четко видна визуальная иерархия.Экран разделен пополам между картой и формой ввода (нижняя половина экрана), что наводит на мысль, что эти компоненты одинаково важны для пользователя. Внимание сразу привлекает вопрос «Куда?» поле из-за его серого фона, затем к недавним местоположениям под ним, которые немного меньше по размеру шрифта. Мобильное приложение Dropbox: в мобильном приложении Dropbox визуальная иерархия менее четкая. Несмотря на то, что пояснительный текст меньше по размеру, чем имя файла, трудно различить разные файлы.Миниатюры обеспечивают дополнительный уровень иерархии, но их наличие зависит от доступных типов файлов. В конечном итоге пользователям приходится много разбираться и читать, чтобы найти папку или файл, которые они ищут.

    3. Баланс

    Балансировка похожа на качели: вместо веса вы балансируете элементы дизайна.

    Определение : Принцип balance относится к удовлетворительному расположению или соотношению элементов дизайна. Баланс возникает, когда имеется равномерно распределенное (но не обязательно симметричное) количество визуального сигнала по обе стороны от воображаемой оси, проходящей через середину экрана.Эта ось часто бывает вертикальной, но может быть и горизонтальной.

    Так же, как при балансировке веса, если бы у вас был один маленький элемент дизайна и один большой элемент дизайна с двух сторон оси, дизайн был бы немного несбалансированным. При создании баланса имеет значение не только количество элементов, но и площадь, занимаемая элементом дизайна.

    Воображаемая ось, которую вы устанавливаете на своем визуале, будет точкой отсчета для того, как организовать макет, и поможет вам понять текущее состояние баланса вашего визуала.В сбалансированном дизайне ни одна область не привлекает внимание настолько, чтобы вы не могли видеть другие области (даже если некоторые элементы могут иметь больший визуальный вес и быть фокусом). Остаток может быть:

    Тип баланса, который вы используете в своем визуале, зависит от того, что вы хотите передать. Асимметрия динамична и увлекательна. Это создает ощущение энергии и движения. Симметрия тихая и статичная. Радиальный баланс всегда уводит взгляд в центр композиции.

    The Hub Style Exploration: композиция кажется стабильной, что особенно уместно, когда вы ищете работу, которая вам нравится.Баланс здесь симметричный. Если вы проведете воображаемую вертикальную ось по центру веб-сайта, элементы будут равномерно распределены по обе стороны от оси. (Источник изображения: dribbble.com) Nike: эта страница асимметрично сбалансирована, что дает ощущение энергии и движения, соответствующее бренду Nike. Если бы вы нарисовали вертикальную ось по центру этого визуала, количество элементов по обе стороны от оси будет примерно одинаковым. Однако разница в том, что они не идентичны и находятся в одних и тех же точных местах.Несмотря на то, что технически на левой стороне обуви немного больше текста, он уравновешен более крупным текстом справа, который занимает больше места и визуального веса, что делает их очень похожими. Наручные часы Brathwait: Классические часы с радиальной балансировкой. Взгляд сразу же притягивается к центру циферблата, и весь визуальный вес распределяется равномерно, независимо от того, где нарисована воображаемая ось. Этот редакторский разворот не сбалансирован.Если вы проведете вертикальную ось вниз по странице, элементы не будут равномерно распределены по обеим сторонам оси. (Источник изображения: www.behance.net)

    4. Контрастность

    Это еще один часто используемый принцип, который выделяет определенные части вашего дизайна среди пользователей.

    Определение : Принцип контрастности относится к сопоставлению визуально непохожих элементов, чтобы передать тот факт, что эти элементы различны (например, принадлежат к разным категориям, имеют разные функции, ведут себя по-разному).

    Другими словами, контраст дает глазу заметную разницу (например, по размеру или цвету) между двумя объектами (или между двумя наборами объектов), чтобы подчеркнуть их различие.

    Принцип контраста часто применяется через цвет. Например, красный цвет часто используется в дизайне пользовательского интерфейса, особенно в iOS, для обозначения удаления. Яркий цвет сигнализирует о том, что красный элемент отличается от остальных.

    Приложение Reminders для iOS: красный цвет, который сильно контрастирует с окружающим контекстом, зарезервирован для удаления.

    Часто в UX слово «контраст» напоминает о контрасте между текстом и его фоном. Иногда дизайнеры намеренно уменьшают контраст текста, чтобы не выделять менее важный текст. Но такой подход опасен - уменьшение контрастности текста также снижает разборчивость и может сделать ваш контент недоступным. Используйте средство проверки цветового контраста, чтобы убедиться, что ваш контент все еще может быть прочитан всеми вашими целевыми пользователями.

    Greenhouse Juice Co: Читаемость текста на бутылке зависит от цвета сока.Хотя контраст прекрасно работает для некоторых соков, этикетки бутылок со светлыми соками практически невозможно прочитать. (Источник изображения: www.instagram.com)

    5. Принципы гештальта

    Это набор принципов, установленных в начале двадцатого века гештальт-психологами. Они фиксируют, как люди понимают смысл изображений.

    Определение : Принципы гештальта объясняют, как люди упрощают и организуют сложные изображения, состоящие из многих элементов, подсознательно объединяя части в организованную систему, которая создает единое целое, а не интерпретирует их как серию разрозненных элементов.Другими словами, принципы гештальт отражают нашу склонность воспринимать целое в отличие от отдельных элементов.

    Существует несколько гештальт-принципов, включая сходство, продолжение, завершение, близость, общую область, фигуру / фон, симметрию и порядок. Близость особенно важна для UX - это относится к тому факту, что элементы, которые визуально ближе друг к другу, воспринимаются как часть одной группы.

    Это принцип гештальт-замыкания, который позволяет нам видеть две целующиеся фигуры вместо случайных фигур на картине Пикассо.Наш мозг заполняет недостающие части, чтобы создать две фигуры. Мы также часто видим приложения теории гештальт в логотипах. В логотипе NBC нет павлина в белом пространстве, но наш мозг понимает, что он есть. В форме регистрации Uber используется принцип гештальт-близости: метки полей расположены рядом с соответствующими текстовыми полями, что позволяет легко понять, какую информацию вводить в какие поля. Если бы между полем и последующей меткой (для следующего поля) оставалось меньше места, пользователям было бы сложно понять, что и чему принадлежит. Налоговая форма США за 2017 год: из-за недостатка свободного места между полями ее заполнение затруднительно. Вы можете легко пропустить то, что относится ко второму полю Фамилии. Использование принципа гештальт-близости для различения полей, относящихся к себе и супругу, принесло бы пользу UX.

    Почему важны принципы визуального дизайна

    Почему мы должны заботиться о принципах визуального дизайна и понимать их? Помимо того, чтобы что-то «выглядело красиво», понимание и использование их в интересах:

    • Повышение удобства использования. Следование этим принципам визуального дизайна часто приводит к созданию простых в использовании макетов. Например, золотое сечение, которое часто используется для создания красивых произведений искусства, также использовалось при наборе текста, чтобы создать визуально приятную связь между размером шрифта, высотой строки и шириной строки. Результат обычно приводил к сокращению длины строк, что создавало баланс (через пробелы) на веб-странице и облегчало чтение текста. В сочетании с сильным интерактивным дизайном визуальный дизайн увеличит показатели успешности задач и вовлеченности пользователей.
    • Вызывайте эмоции и восторг. Красивые вещи вызывают положительные эмоции. (Фактически, эффект эстетики и удобства использования говорит о том, что, когда люди находят дизайн визуально привлекательным, они могут быть более снисходительными к незначительным неудачам с удобством использования.) Следуя принципам хорошего визуального дизайна, дизайнеры могут создавать интерфейсы, которые хорошо выглядят и, таким образом, привлекают пользователей хорошо себя чувствовать.
    • Укрепление восприятия бренда. Сильная визуальная система вызывает у пользователей доверие и интерес к продукту, а также надлежащим образом представляет и укрепляет бренд.

    Список литературы

    Луптон, Э. (2008). Графический дизайн: новые основы. Нью-Йорк: Princeton Architectural Press.

    Poulin, R.

    admin

    Добавить комментарий

    Ваш адрес email не будет опубликован.

    2022 © Все права защищены.