Разобрать по составу слово возможным: Возможным — разбор слова по составу (морфемный разбор)

Содержание

linux — Как вы разбираете слова из файла?

спросил 10 лет, 10 месяцев назад

Изменено 10 лет, 10 месяцев назад

Просмотрено 2к раз

Привет, скажем, у меня есть файл, который выглядит так

 Том
Эдвард4rd
4Тим
Ричард

Как мне превратить это в чистый список, например

 jack
Джон
Джо
Джен
Том
Тим
Ричард

Обратите внимание, что Эдварда нет в списке

Используете команды Linux? Вероятно, grep и/или sed

linux
grep
sed

Попробуйте egrep -o '[A-Za-z](.*[A-Za-z])?" < файл | egrep -o '[A-Za-z]+' > outfile для вашего примера.

Первая часть выбирает названия, похожие на вещи (должны начинаться с буквы и заканчиваться буквой, но могут содержать что-либо между ними), а затем вторая egrep фильтрует нас только до имен, состоящих из букв.

Глядя на это, я уже вижу несколько вариантов того, как создать ввод, который приведет к сбою этих выражений и не будет точно соответствовать правильному материалу (ну, это будет соответствовать тому, что написано, но вы оставили двусмысленности- — Как следует обрабатывать ..Ричард..<Тим?.. ?), но было легко собрать это вместе на основе входных данных - сценарии оболочки часто менее 100% математической корректности для всех возможных входных данных, а скорее знание домена ввода и выполнение работы с выражениями и командами, которые работают достаточно хорошо для ввода, который вам нужно обработать. 9a-zA-Z]* соответствует нулю или более вхождениям небуквы

$ соответствует концу строки

Таким образом, он будет игнорировать начальные и последующие небуквенные символы в строке и будет соответствовать только в том случае, если между первой и последней буквами нет небуквенных символов.

В скобках указана группа захвата, которую мы хотим извлечь и распечатать. Первоначально я написал и протестировал это для .NET, но вот команда sed . Не спрашивайте меня, как sed 9a-zA-Z]*$/\1/w выходной файл' входной файл

2

Используйте grep -o '[[:alpha:]]\+' для извлечения всех "слов".

 домкрат
Джон
Джо
Джен
Том
Эдва
рд
Тим
Ричард

Затем вам решать, какие из них являются именами, а какие просто последовательностями букв.

`Зарегистрируйтесь или войдите в систему`

 Зарегистрируйтесь с помощью Google
 Зарегистрироваться через Facebook
 Зарегистрируйтесь, используя адрес электронной почты и пароль
 Опубликовать как гость 
 Электронная почта
 Требуется, но не отображается
 Опубликовать как гость 
 Электронная почта
 Требуется, но не отображается
 Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie
.
   Разбирает ли Logstash документы Word? - Логсташ 
 rlv_praveen
 (Рлв Правин)  6 марта 2017 г., 11:12 
 1
 Привет всем,
 У меня есть требование, в котором мне нужно проанализировать документы WORD. Поддерживает ли logstash разбор текстовых файлов. Есть ли какой-либо плагин для этого. Пожалуйста, помогите мне, я могу сделать это или нет?
 Спасибо и вперед.
 С уважением, 
 Правин.
 rlv_praveen
 (Рлв Правин)  6 марта 2017 г., 11:17 
 2
  @magnusbaeck Не могли бы вы мне помочь?
 магнусбек
 (Магнус Бэк)  6 марта 2017 г. , 11:18 
 3
 Я не думаю, что такой плагин существует.
 rlv_praveen
 (Рлв Правин)  6 марта 2017 г., 11:26 
 4
 Спасибо за ответ.
 Можем ли мы добиться того же, используя шаблоны GROK. Это возможно? @magnusbaeck
 магнусбек
 (Магнус Бэк) 
  6 марта 2017 г., 12:03 
 5
 Нет, вы не можете использовать grok для разбора документа Word.
 rlv_praveen
 (Рлв Правин)  6 марта 2017 г.