linux — Как вы разбираете слова из файла?
спросил
Изменено 10 лет, 10 месяцев назад
Просмотрено 2к раз
Привет, скажем, у меня есть файл, который выглядит так
Том Эдвард4rd 4Тим Ричард
Как мне превратить это в чистый список, например
jack Джон Джо Джен Том Тим Ричард
Обратите внимание, что Эдварда нет в списке
Используете команды Linux? Вероятно, grep и/или sed
- linux
- grep
- sed
4
Попробуйте egrep -o '[A-Za-z](.*[A-Za-z])?" < файл | egrep -o '[A-Za-z]+' > outfile
для вашего примера.
egrep
фильтрует нас только до имен, состоящих из букв. Глядя на это, я уже вижу несколько вариантов того, как создать ввод, который приведет к сбою этих выражений и не будет точно соответствовать правильному материалу (ну, это будет соответствовать тому, что написано, но вы оставили двусмысленности- — Как следует обрабатывать ..Ричард..<Тим?..
?), но было легко собрать это вместе на основе входных данных - сценарии оболочки часто менее 100% математической корректности для всех возможных входных данных, а скорее знание домена ввода и выполнение работы с выражениями и командами, которые работают достаточно хорошо для ввода, который вам нужно обработать. 9a-zA-Z]* соответствует нулю или более вхождениям небуквы
$
соответствует концу строкиТаким образом, он будет игнорировать начальные и последующие небуквенные символы в строке и будет соответствовать только в том случае, если между первой и последней буквами нет небуквенных символов.
В скобках указана группа захвата, которую мы хотим извлечь и распечатать. Первоначально я написал и протестировал это для .NET, но вот команда 2 Используйте Затем вам решать, какие из них являются именами, а какие просто последовательностями букв. sed
. Не спрашивайте меня, как sed 9a-zA-Z]*$/\1/w выходной файл' входной файл
grep -o '[[:alpha:]]\+'
для извлечения всех "слов". домкрат
Джон
Джо
Джен
Том
Эдва
рд
Тим
Ричард
Зарегистрируйтесь или войдите в систему
Зарегистрироваться через Facebook
Зарегистрируйтесь, используя адрес электронной почты и пароль
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie
.Разбирает ли Logstash документы Word? - Логсташ
rlv_praveen (Рлв Правин)
1
Привет всем,
У меня есть требование, в котором мне нужно проанализировать документы WORD. Поддерживает ли logstash разбор текстовых файлов. Есть ли какой-либо плагин для этого. Пожалуйста, помогите мне, я могу сделать это или нет?
Спасибо и вперед.
С уважением,
Правин.
rlv_praveen (Рлв Правин)
2
@magnusbaeck Не могли бы вы мне помочь?
магнусбек (Магнус Бэк)
3
Я не думаю, что такой плагин существует.
rlv_praveen (Рлв Правин)
4
Спасибо за ответ.
Можем ли мы добиться того же, используя шаблоны GROK. Это возможно? @magnusbaeck
магнусбек (Магнус Бэк)
5
Нет, вы не можете использовать grok для разбора документа Word.
rlv_praveen (Рлв Правин)