linux — Как вы разбираете слова из файла?
спросил
Изменено 10 лет, 10 месяцев назад
Просмотрено 2к раз
Привет, скажем, у меня есть файл, который выглядит так
Том Эдвард4rd 4Тим Ричард 
Как мне превратить это в чистый список, например
jack Джон Джо Джен Том Тим Ричард
Обратите внимание, что Эдварда нет в списке
Используете команды Linux? Вероятно, grep и/или sed
- linux
 - grep
 - sed
 
4
 Попробуйте  egrep -o '[A-Za-z](.*[A-Za-z])?" < файл | egrep -o '[A-Za-z]+' > outfile  для вашего примера.
 egrep  фильтрует нас только до имен, состоящих из букв. Глядя на это, я уже вижу несколько вариантов того, как создать ввод, который приведет к сбою этих выражений и не будет точно соответствовать правильному материалу (ну, это будет соответствовать тому, что написано, но вы оставили двусмысленности- — Как следует обрабатывать  ..Ричард..<Тим?.. ?), но было легко собрать это вместе на основе входных данных - сценарии оболочки часто менее 100% математической корректности для всех возможных входных данных, а скорее знание домена ввода и выполнение работы с выражениями и командами, которые работают достаточно хорошо для ввода, который вам нужно обработать. 9a-zA-Z]*  соответствует нулю или более вхождениям небуквы
 $  соответствует концу строки Таким образом, он будет игнорировать начальные и последующие небуквенные символы в строке и будет соответствовать только в том случае, если между первой и последней буквами нет небуквенных символов.
 В скобках указана группа захвата, которую мы хотим извлечь и распечатать. Первоначально я написал и протестировал это для .NET, но вот команда   2  Используйте   Затем вам решать, какие из них являются именами, а какие просто последовательностями букв. sed . Не спрашивайте меня, как  sed 9a-zA-Z]*$/\1/w выходной файл' входной файл  grep -o '[[:alpha:]]\+'  для извлечения всех "слов". домкрат
Джон
Джо
Джен
Том
Эдва
рд
Тим
Ричард
 
 Зарегистрируйтесь или войдите в систему 
Зарегистрироваться через Facebook
Зарегистрируйтесь, используя адрес электронной почты и пароль
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie
.Разбирает ли Logstash документы Word? - Логсташ
rlv_praveen (Рлв Правин)
1
Привет всем,
У меня есть требование, в котором мне нужно проанализировать документы WORD. Поддерживает ли logstash разбор текстовых файлов. Есть ли какой-либо плагин для этого. Пожалуйста, помогите мне, я могу сделать это или нет?
Спасибо и вперед.
 С уважением, 
 Правин.
rlv_praveen (Рлв Правин)
2
@magnusbaeck Не могли бы вы мне помочь?
магнусбек (Магнус Бэк)
3
Я не думаю, что такой плагин существует.
rlv_praveen (Рлв Правин)
4
Спасибо за ответ.
Можем ли мы добиться того же, используя шаблоны GROK. Это возможно? @magnusbaeck
магнусбек (Магнус Бэк)
5
Нет, вы не можете использовать grok для разбора документа Word.
rlv_praveen (Рлв Правин)