Разобрать по составу слово возможным: Возможным — разбор слова по составу (морфемный разбор)

linux — Как вы разбираете слова из файла?

спросил

Изменено 10 лет, 10 месяцев назад

Просмотрено 2к раз

Привет, скажем, у меня есть файл, который выглядит так

 Том
Эдвард4rd
4Тим
Ричард
 

Как мне превратить это в чистый список, например

 jack
Джон
Джо
Джен
Том
Тим
Ричард
 

Обратите внимание, что Эдварда нет в списке

Используете команды Linux? Вероятно, grep и/или sed

  • linux
  • grep
  • sed

4

Попробуйте egrep -o '[A-Za-z](.*[A-Za-z])?" < файл | egrep -o '[A-Za-z]+' > outfile для вашего примера.

Первая часть выбирает названия, похожие на вещи (должны начинаться с буквы и заканчиваться буквой, но могут содержать что-либо между ними), а затем вторая egrep фильтрует нас только до имен, состоящих из букв.

Глядя на это, я уже вижу несколько вариантов того, как создать ввод, который приведет к сбою этих выражений и не будет точно соответствовать правильному материалу (ну, это будет соответствовать тому, что написано, но вы оставили двусмысленности- — Как следует обрабатывать ..Ричард..<Тим?.. ?), но было легко собрать это вместе на основе входных данных - сценарии оболочки часто менее 100% математической корректности для всех возможных входных данных, а скорее знание домена ввода и выполнение работы с выражениями и командами, которые работают достаточно хорошо для ввода, который вам нужно обработать. 9a-zA-Z]* соответствует нулю или более вхождениям небуквы

  • $ соответствует концу строки
  • Таким образом, он будет игнорировать начальные и последующие небуквенные символы в строке и будет соответствовать только в том случае, если между первой и последней буквами нет небуквенных символов.

    В скобках указана группа захвата, которую мы хотим извлечь и распечатать. Первоначально я написал и протестировал это для .NET, но вот команда sed . Не спрашивайте меня, как sed 9a-zA-Z]*$/\1/w выходной файл' входной файл

    2

    Используйте grep -o '[[:alpha:]]\+' для извлечения всех "слов".

     домкрат
    Джон
    Джо
    Джен
    Том
    Эдва
    рд
    Тим
    Ричард
     

    Затем вам решать, какие из них являются именами, а какие просто последовательностями букв.

    Зарегистрируйтесь или войдите в систему

    Зарегистрируйтесь с помощью Google

    Зарегистрироваться через Facebook

    Зарегистрируйтесь, используя адрес электронной почты и пароль

    Опубликовать как гость

    Электронная почта

    Требуется, но не отображается

    Опубликовать как гость

    Электронная почта

    Требуется, но не отображается

    Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie

    .

    Разбирает ли Logstash документы Word? - Логсташ

    rlv_praveen (Рлв Правин)

    1

    Привет всем,

    У меня есть требование, в котором мне нужно проанализировать документы WORD. Поддерживает ли logstash разбор текстовых файлов. Есть ли какой-либо плагин для этого. Пожалуйста, помогите мне, я могу сделать это или нет?

    Спасибо и вперед.

    С уважением,
    Правин.

    rlv_praveen (Рлв Правин)

    2

    @magnusbaeck Не могли бы вы мне помочь?

    магнусбек (Магнус Бэк)

    3

    Я не думаю, что такой плагин существует.

    rlv_praveen (Рлв Правин)

    4

    Спасибо за ответ.

    Можем ли мы добиться того же, используя шаблоны GROK. Это возможно? @magnusbaeck

    магнусбек (Магнус Бэк)

    6 марта 2017 г., 12:03

    5

    Нет, вы не можете использовать grok для разбора документа Word.

    rlv_praveen (Рлв Правин)

    admin

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *