План фонетического разбора
План фонетического разбора
1 | Орфографическая запись слова. | |
2 | Деление слова на слоги и место ударения. | |
3 | Возможность переноса. | |
4 | Фонетическая транскрипция слова. | |
5 | Характеристика всех звуков по порядку: | |
а) | согласный – звонкий – глухой (парный – непарный), твёрдый – мягкий (парный – непарный), какой буквой обозначен; | |
б) | гласный: ударный – безударный. | |
6 | Количество звуков и букв. | |
7 | Случаи несоответствия звука букве. |
Образец разбора
Приятели 4 слога; ударение падает на 2-й слог.
[пр’иjа́т’ьл’и]
п [п] – согласный, глухой парный, твёрдый парный. р [р’] – согласный, звонкий непарный, мягкий парный. и [и] – гласный, безударный.
Я
[ j ] – согласный, звонкий непарный, мягкий непарный.
[а́] – гласный, ударный.
т [т’] – согласный, глухой парный, мягкий парный. е [э] – гласный, безударный. л [л’] – согласный, звонкий непарный, мягкий парный. и [и] – гласный, безударный.
___________________________________
8 букв – 9 звуков.
Буква я обозначает два звука – [jа́].
Похлёбку 3 слога; ударение падает на 2-й слог.
[пахл’о́пку]
п [п] – согласный, глухой парный, твёрдый парный.
о [а] – гласный, безударный. х [х] – согласный, глухой непарный, твёрдый парный. л [л’] – согласный, звонкий непарный, мягкий парный. ё [о́] – гласный, ударный. б [п] – согласный, глухой парный, твёрдый парный. к [к] – согласный, глухой парный, твёрдый парный. у [у] – гласный, безударный.
_________________________________
8 букв – 8 звуков.
Буква б обозначает глухой звук – [п].
Фонетический разбор слова.
Лента букв:
а о э ы у | м л н р й б д з ж в г
я ё е и ю | п т с ш ф к ц ч щ х ъь
О|ле’нь – 2 слога, 2 гл. , 2 согл.,
о [а]- гл., безуд.
л [л’] – согл., зв., непарн., мягк.
е [э] – гл., уд.
н [н’] – согл., зв., непарн., мягк.
ь [-] – —
5 б., 4 зв.
Таблица согласных звуков с учетом твердости-мягкости и звонкости-глухости
СОГЛАСНЫЕ ЗВУКИ | ||||
Звонкие | Глухие | |||
твёрдые | мягкие | твёрдые | мягкие | |
[б] | [б’] | [п] | [п’] | |
[в] | [в’] | [ф’] | ||
[г] | [г’] | [к] | [к’] | |
[д] | [д’] | [т] | [т’] | |
[ж] | [ш] | |||
[з] | [з’] | [с] | [с’] | |
[j], [й] | ||||
[л] | [л’] |
| ||
[м] | [м’] |
| ||
[н] | [н’] |
|
| |
[р] | [р’] |
| ||
|
| [х] | [х’] | |
| [ц] | |||
|
| [ч’] | ||
|
|
| [щ’] |
Гласные | Согласные | ||||||||||||||
а | е | б | г | д | з | ж | л | м | н | р | й | ЗВОНКИЕ | |||
э | ё | п | ф | к | т | с | ш | ц | ч | щ | х | ГЛУХИЕ | |||
о | ю | ||||||||||||||
у | я | Всегда твёрдые: ж, ш, ц. | |||||||||||||
ы | и | Всегда мягкие: ч’, щ’, й’. |
2
Список изменений для фонетических-языков-упрощенных-примеров-массива-0.20.1.0 | Hackage
0.1.0.0 — 02.01.2021
- Первая версия. Выпущен в ничего не подозревающий мир.
0.1.1.0 — 02.01.2021
- Первая версия исправлена A. Частично удалена ненужная зависимость mmsyn2.
0.1.2.0 — 02.01.2021
- Первая версия исправлена A. Удалена ненужная зависимость mmsyn2 (и все функции, связанные с векторами). Некоторые улучшения файла Cabal.
0.2.0.0 — 04.01.2021
- Вторая версия. Добавлен сравнительный режим к возможностям rewritePoemG3 и Phonetic.Languages.Lines модуль. Некоторые улучшения документации.
0.2.1.0 — 06.01.2021
- Вторая версия исправлена A. В файл README.md добавлены примеры (на английском языке).
0.2.2.0 — 20.01.2021
- Вторая версия исправлена B. Удалены ненужные скрытые зависимости пакетов и функций, связанных с вектором (которые были анонсировано в версии 0.1.2.0). Полностью переключен на массивы GHC.Arr, где это необходимо.
0.3.0.0 — 28 января 2021 г.
- Третья версия. Пакет имеет режим множественных вариаций для исполняемого файла lineVariantsG3, что позволяет использовать модификации в тексте, т.е. г. синонимы, парафразы и т. д. Добавлено больше вариантов свойств на основе нового набора данных для Пакет r-glpk-phonetic-languages-ukrainian-durations. Добавлен новый модуль Phonetic.Languages.Parsing для новой функциональности. Удалена ненужная зависимость print-info.
0.4.0.0 — 01.02.2021
- Четвертая версия. Добавлена новая строка функций оценки ритмичности («z»-строка). Поведение предыдущих функций также изменены, поэтому он может понадобиться (в случае, когда результаты имеют какое-то принципиальное значение, например, в научных исследованиях, а не сам текст) для пересчета результатов с помощью этих функций. Добавлена возможность получить украинский информационные сообщения при работе исполняемого файла lineVariantsG3 (используя опцию командной строки «+U» не внутри группы опций). Некоторые улучшения документации.
0.4.0.1 — 17.04.2021
- Четвертая версия исправлена A. Исправлены некоторые проблемы с файлом README.md. Обновлены границы зависимостей для пакета mmsyn2-array.
0.4.1.0 — 19.04.2021
- Четвертая версия исправлена B. Обновлена документация на украинском языке, исправлены некоторые текстовые проблемы. См. README.md.
0.4.2.0 — 31.05.2021
- Четвертая версия, исправленная C. В пакет добавлена краткая инструкция на английском языке.
0.
5.0.0 — 20.07.2021- Пятая версия. Добавлены две новые строки (строки «w» и «x») в качестве новых стратегий оценки свойств. Обновлены зависимости границы соответственно.
0.5.0.1 — 21.07.2021
- Пятая версия исправлена A. Изменен файл README.md на просто README, чтобы исправить отображение команды примеры строк в нем.
0.6.0.0 — 28.07.2021
- Шестая версия. Изменено обозначение модификаторов аргументов командной строки на маленькие буквы, удален двойной знак ++ (заменен на одинарный +), чтобы упростить использование аргументов командной строки. Также изменен способ подписи записи в файл для исполняемого файла lineVariantsG3. Добавлены новые строки свойства для (гипотетической) обработки полиритмии. Среди них строки «c», «s», «t», «u», «v». Внесены соответствующие изменения в документацию. Изменены границы зависимостей. Добавлена возможность «вырастить строки» для исполняемых файлов rewritePoemG3 и propertiesTextG3.
0.6.1.0 — 30 июля 2021 г.
Пересмотренная шестая версия A. Исправлены проблемы с фиксированной точкой 1.0 (вызванные проблемой в пакете зависимостей фонетические языки-ритмичность).
0.6.2.0 — 31.07.2021
- Шестая версия исправлена B. Изменены границы зависимостей, чтобы проблемы решались с помощью «0», а не «0» функций. Некоторые улучшения кода (уменьшение дублирования).
0.7.0.0 — 09.08.2021
- Седьмая версия. Изменены границы зависимостей, так что теперь серии свойств «c», «s», «t», «u» и «v» может быть отрицательным по знаку. Это не меняет логики работы программ и функций. Некоторая документация улучшения.
0.8.0.0 — 14.08.2021
- Восьмая версия. Изменены границы зависимостей и добавлены новые взвешенные свойства, а также исправлены некоторые проблемы с предыдущие, чтобы они использовали более полную информацию. Добавлен обработчик случая пустой строки для исполняемый файл lineVariantsG3 и связанные с ним функции. Некоторые улучшения документации.
0.8.1.0 — 15.08.2021
- Восьмая версия исправлена A. Исправлена проблема с неправильным порядком и, следовательно, отображением для разных вариантов и соответствующие свойства в модуле Phonetic.Languages.Simplified.Array.Ukrainian.FuncRep2RelatedG2.
0.9.0.0 — 16.08.2021
- Девятая версия. Добавлены новые свойства, которые пытаются увеличить важность окончания строки и уменьшить важность начала строки. Добавлена новая зависимость строкового интерпретатора. Добавлена возможность для запуска lineVariantsG3 и соответствующих библиотечных функций в рекурсивном интерактивном режиме. Это не совместимы с ограничениями, поэтому их следует использовать не одновременно с ними (поскольку они меняют свое значение). Некоторые улучшения документации.
0.10.0.0 — 17.08.2021
- Десятая версия. Добавлены новые линейно-взвешенные свойства. Исправлены некоторые проблемы с неправильным отображением. Некоторая документация улучшения.
0.10.1.0 — 24.08.2021
- Переработана десятая версия. Исправлены проблемы с пользовательскими шаблонами полиритмии. Изменено инструкции по документации в редакторе. Соответственно обновлены границы зависимостей.
0.11.0.0 — 04.09.2021
- Одиннадцатая версия. Добавлен новый режим обработки нескольких источников (+t_ … -t). Добавлена возможность считать в рекурсивном режиме не только с начала конкатенации слов, но и с конца, используя широко используемый шаблон программирования отрицательного целочисленного индексирования. Обновил зависимости, чтобы теперь он может использовать несколько улучшений зависимостей. Некоторые улучшения документации.
0.11.0.1 — 06.09.2021
- Одиннадцатая версия исправлена A. Исправлена проблема с файлом документации (README).
0.11.1.0 — 08.09.2021
- Одиннадцатая версия исправлена B. Исправлена ошибка, из-за которой зависимость phonetic-languages-plus не создавалась. Обновлено границы зависимости.
0.11.2.0 — 09.09.2021
- Одиннадцатая версия исправлена C. Исправлена ошибка, из-за которой зависимость массива фонетических языков-украинских языков не построен. Обновлены границы зависимостей. Обновлен файл README с гиперссылками на обновленную документацию. связанных с использованием пакета.
0.11.3.0 — 09.09.2021
- Одиннадцатая версия исправлена D. Обновлен файл README с гиперссылками на обновленную документацию связанных с использованием пакета.
0.12.0.0 — 14.09.2021
- Двенадцатая версия. В программу rewritePoemG3 добавлен режим множественных свойств и расширен сравнительный режим. для него до 7 различных входных исходных файлов. Некоторые улучшения документации.
0.12.1.0 — 2021-09-15
- Двенадцатая версия исправлена A. Исправлены ошибки в документации по процессам установки и обновления.
0.13.
0.0 — 14.10.2021- Тринадцатая версия. Добавлена возможность предоставлять пользовательские (чтение из файла с Haskell-подобным синтаксиса) функции для определения длительности слога. Добавлена также возможность использовать только попарные перестановки вместо полного универсального их набора. Обновлены границы зависимостей и документация соответственно. Исправлена проблема с неправильно документированным процессом (пере)установки пакета(ов).
0.13.1.0 — 23.10.2021
- Тринадцатая версия переработала А. Более глубоко реализован режим попарных перестановок. Некоторые улучшения документации. Обновлены границы зависимостей.
0.14.0.0 — 31.10.2021
- Четырнадцатая версия. Исправлен не очень достаточный релиз-кандидат, который использовал функцию хеширования. Если у вас нет обновлены до функции хеширования в течение 30.10.2021-31.10.2021, вам также не нужно обновляться.
0.14.1.0 — 01.11.2021
- Четырнадцатая версия исправлена A. В некоторой степени исправлены проблемы с дублированием входных аргументов командной строки.
0.15.0.0 — 05.11.2021
- Пятнадцатая версия. Переключено на представление GHC.Int.Int8. Некоторые улучшения документации.
0.15.1.0 — 08.11.2021
- Пересмотренная пятнадцатая версия A. Некоторые улучшения документации.
0.15.2.0 — 2021-12-10
- Пятнадцатая версия исправлена B. Некоторые улучшения документации.
0.15.2.1 — 11.12.2021
- Пятнадцатая версия переработана C. Некоторые улучшения документации.
0.15.2.2 — 26.12.2021
- Пересмотренная пятнадцатая версия D. Некоторые улучшения документации. Если вы обновились хотя бы до 0.15.0.0 версии нет необходимости переустанавливать пакет, просто проверьте документацию по новому обновлению (см. ссылки README). Инструкции призваны следовать строгому научному подходу к источникам, поэтому популярная информация переместилась в прямые гиперссылки, а не библиографию.
0.16.0.0 — 17.01.2022
- Шестнадцатая версия. Добавлены cli-аргументы в качестве новой зависимости. Изменен способ, которым программы анализируют свои аргументы. Добавлена возможность использовать также минимальный набор перестановок (всего одно слово). Обновил зависимости. Некоторый код улучшения. Обновлена документация новым материалом и исправлены устаревшие примеры вывода.
0.16.1.0 — 17.01.2022
- Шестнадцатая версия исправлена A. Исправлена проблема с ненужным декларированием импорта перемещаемой функциональности.
0.16.2.0 — 2022-01-18
- Шестнадцатая версия исправлена B. Добавлена информация о предлагаемом пакете html-presentation-text в описание пакета.
0.16.2.1 — 18.01.2022
- Шестнадцатая версия исправлена C. Попытался исправить проблему с некорректным отображением http адреса.
0.16.2.2 — 18.01.2022
- Шестнадцатая версия исправлена D. Исправлена проблема с некорректным отображением http адреса.
0.16.3.0 — 2022-01-29
- Шестнадцатая версия исправлена Е. Обновлены зависимости, чтобы новое поведение массива фонетических-языков-украинских занимает свое место.
0.17.0.0 — 22.02.2022
- Семнадцатая версия. Перешел на расширенные версии, которые должны оптимизировать код быстрее. Обновлен документация. Добавлена новая зависимость mmsyn2-array-ukrainian-data.
0.17.1.0 — 24.03.2022
- Семнадцатая версия переработана A. Обновлены зависимости для поддержки последних версий GHC и Cabal.
0.18.0.0 — 25.04.2022
- Восемнадцатая версия. В новой версии исправлены проблемы с изменением структуры вывода (перестановка интервалов) чтобы программы теперь работали как описано. Если вы использовали ранее меняющуюся структуру с аргументами, то все результаты необходимо пересмотреть (переделать) с исправленной версией 0. 18.0.0. Автор прошу прощения за такую затянувшуюся проблему. Улучшенная документация. Добавлены примеры двух новых наборов значений длительностей, которые доступны в виде готового к использованию файла (см. ссылку в инструкции или в README.md). Исправлены проблемы со строковым интерпретатором (см. соответствующую информацию) и добавлена возможность настроить разбиение.
0.18.0.1 — 25.04.2022
- Восемнадцатая версия исправлена A. Попытка исправить файл README.md, чтобы {=html} не отображался в визуальном выводе.
0.18.0.2 — 25.04.2022
- Восемнадцатая версия исправлена B. Исправлены не включенные изменения зависимостей.
0.19.0.0 — 31.05.2022
- Девятнадцатая версия. В новой версии добавлена поддержка дополнительных свойств, а также режим множественных свойств для DistributionTextG. Теоретическая часть этого документа была улучшена. Исправлены некоторые ошибки кода. Переключено в расчетах средние значения и стандартное отклонение от популяции к выборочным версиям (сейчас стандартное отклонение немного выше). Исправлены проблемы с несколькими вариантами текстового режима, если он не используется интерактивно.
0.20.0.0 — 09.08.2022
- Двадцатая версия. Обновлены зависимости, теперь сегментация украинских слогов обрабатывается более правильно. Изменена структура представления незвуковых украинских символов (теперь они преобразованы в один из [100,101,102]). Переключился на новое представление Result2. Добавлена новая функциональность слогов как целого иметь дело, напр. силлаботонические стихи. Добавлена возможность печатать более подробный вывод в режиме множественных свойств для исполняемого файла lineVariantsG3. Все эти изменения приводят к необходимость пересчитывать значения, если они важны, а не результат. Обновлен документацию с новыми данными.
0.20.1.0 —2022-08-22
- Двадцатая версия исправлена А. Исправлены проблемы с перестановкой интервалов. Некоторые улучшения документации.
Фонетическое соответствие | Справочное руководство по Apache Solr 8.
9Алгоритмы фонетического сопоставления могут использоваться для кодирования токенов таким образом, чтобы два разных написания, которые произносятся одинаково, совпадали.
Для обзора алгоритмов и сравнения между ними см. http://en.wikipedia.org/wiki/Phonetic_algorithm и http://ntz-develop.blogspot.com/2011/03/phonetic-algorithms.html
Фонетическое сопоставление Бейдера-Морзе (BMPM)
Примеры использования этой кодировки в вашем анализаторе см. в разделе Фильтр Бейдера-Морзе в разделе Описание фильтров.
Beider-Morse Phonetic Matching (BMPM) — это «звукоподобный» инструмент, позволяющий выполнять поиск с использованием новой системы фонетического сопоставления. BMPM помогает вам искать личные имена (или просто фамилии) в индексе Solr/Lucene и намного превосходит существующие фонетические кодеки, такие как обычный soundex, метафон, каверфон и т. д.
Как правило, фонетическое сопоставление позволяет искать в списке имен имена, фонетически эквивалентные желаемому имени. BMPM похож на поиск soundex в том смысле, что точное написание не требуется. В отличие от soundex, он не генерирует большого количества ложных срабатываний.
По написанию имени BMPM пытается определить язык. Затем он применяет фонетические правила для этого конкретного языка, чтобы транслитерировать имя в фонетический алфавит. Если невозможно определить язык с достаточной степенью уверенности, вместо этого используется общая фонетика. Наконец, он применяет независимые от языка правила в отношении таких вещей, как звонкие и глухие согласные и гласные, чтобы дополнительно гарантировать надежность совпадений.
Например, предположим, что при поиске Стивена в базе данных найдены совпадения «Стефан», «Стеф», «Стивен», «Стив», «Стивен», «Плита» и «Стаффин». «Стефан», «Стивен» и «Стивен», вероятно, имеют значение, и это имена, которые вы хотите видеть. «Штуффин», впрочем, наверное, не актуален. Также были отклонены «Стеф», «Стив» и «Печь». Из них «Печка», наверное, не та, которую хотелось бы. Но «Стеф» и «Стив», возможно, вас заинтересуют.0089
Для Solr поиск BMPM доступен для следующих языков:
English
French
German
Greek
Hebrew written in Hebrew letters
Hungarian
Italian
Polish
Romanian
Русский кириллицей
Русский транслитерирован английскими буквами
Испанский
Турецкий
Сопоставление имен также применимо к нееврейским фамилиям из стран, в которых говорят на этих языках.
Для получения дополнительной информации см. здесь: http://stevemorse.org/phoneticinfo.htm и http://stevemorse.org/phonetics/bmpm.htm.
Daitch-Mokotoff Soundex
Чтобы использовать эту кодировку в вашем анализаторе, см. Фильтр Daitch-Mokotoff Soundex в разделе «Описание фильтров».
Алгоритм Daitch-Mokotoff Soundex представляет собой усовершенствование алгоритмов Russel и American Soundex, обеспечивающее большую точность сопоставления особенно славянских и идишских фамилий с похожим произношением, но с разным написанием.
Основные отличия от других вариантов soundex:
закодированные имена состоят из 6 цифр
начальный символ имени закодирован
правила кодирования многосимвольных n-грамм
несколько возможных кодировок для одного и того же имени (ветвления)
Примечание: реализация, используемая Solr (commons-codec’s DaitchMokotoffSoundex
), имеет дополнительные правила ветвления по сравнению с исходным описанием алгоритма.
Для получения дополнительной информации см. http://en.wikipedia.org/wiki/Daitch%E2%80%93Mokotoff_Soundex и http://www.avotaynu.com/soundex.htm
Двойной метафон
Чтобы использовать эту кодировку в вашего анализатора, см. Фильтр двойного метафона в разделе Описание фильтров. В качестве альтернативы вы можете указать encoder="DoubleMetaphone"
с Фонетическим фильтром, но обратите внимание, что версия Фонетического фильтра , а не будет предоставлять вторую («альтернативную») кодировку, которая генерируется Фильтром двойного метафона для некоторых токенов.
Кодирует токены с помощью алгоритма двойного метафона Лоуренса Филипса. См. оригинальную статью на http://www.drdobbs.com/the-double-metaphone-search-algorithm/184401251?pgno=2
Metaphone
Чтобы использовать эту кодировку в вашем анализаторе, укажите encoder="Metaphone"
с Фонетическим фильтром.
Кодирует токены с использованием алгоритма Metaphone Лоуренса Филипса, описанного в «Hanging on the Metaphone» на языке программирования, декабрь 1990 г.
Еще одна ссылка для получения дополнительной информации — «Алгоритм поиска двойного метафона» Лоуренса Филипса.
Soundex
Чтобы использовать эту кодировку в вашем анализаторе, укажите encoder="Soundex"
в фонетическом фильтре.
Кодирует токены с помощью алгоритма Soundex, который используется для сопоставления похожих имен, но также может использоваться как схема общего назначения для поиска слов с похожими фонемами.
См. также http://en.wikipedia.org/wiki/Soundex.
Refined Soundex
Чтобы использовать эту кодировку в вашем анализаторе, укажите encoder="RefinedSoundex"
в фонетическом фильтре.
Кодирует токены с использованием улучшенной версии алгоритма Soundex.
См. http://en.wikipedia.org/wiki/Soundex.
Caverphone
Чтобы использовать эту кодировку в вашем анализаторе, укажите encoder="Caverphone"
в фонетическом фильтре.
Caverphone — это алгоритм, созданный проектом Caversham Project в Университете Отаго. Алгоритм оптимизирован для акцентов, присутствующих в южной части города Данидин, Новая Зеландия.
См. http://en.wikipedia.org/wiki/Caverphone и спецификацию Caverphone 2.0 на http://caversham.