文本处理三剑客与正则表达式详解

时间:2020-05-27 JF Zhu 人气:2

我们知道在 Linux 中，“一切皆文件”，作为系统管理员或者程序员我们每天都需要和大量的文本文件打交道。Linux 系统为我们提供了三个文本处理工具：grep, sed, 和 awk，它们也被称为 Linux 文本处理的三剑客被大家广泛使用。今天先和大家介绍一下 grep 的以及正则表达式的用法，因为 grep 只有和正则表达式结合在一起才会发挥出它强大的威力。

Grep 的用法

grep 是一个强大的文本搜索工具，可以用于在文本文件中搜索指定格式（正则表达式）的字符串，并将匹配的行输出。它的用法如下：

#grep [选项] 查找条件目标文件

比如我们有一个文本文件，littlestar.txt，它的内容如下：

TWINKLE, twinkle, little star,
How I wonder what you are!
Up above the world so high,

Like a diamond in the sky.

（1）查找一个字符串

比如要查找“twinkle”

#grep "twinkle" littlestar.txt

匹配上的字符串用红色突出显示出来了。

（2） “-i”忽略大小写

#grep -i "twinkle" littlestar.txt

结果可以看到TWINKLE 和 twinkle 都匹配上了

（3） “-n”显示行号

#grep -n "twinkle" littlestar.txt

发现在结果的最左侧显示行号

（4） “-c”仅显示匹配到的行号

#grep -c "twinkle" littlestar.txt

结果仅显示 1，表示第 1 行匹配到了查找的字符串

（5） “-o” 仅显示匹配到的字符串，不显示同行的其他内容

#grep -o "twinkle" littlestar.txt

结果仅显示 twinkle

（6） “-w”精确匹配单词

#grep -w "twinkle" littlestar.txt 查找twinkle

#grep -w "twink" littlestar.txt 查找twink

结果显示完整的单词 twinkle 可以匹配到，如果只查找 twink 则没有匹配上

（7） “-v“ 反转查找，显示不包含关键字的行

#grep -v "twink" littlestar.txt

结果除了第一行，其他都匹配成功了

正则表达式

正则表达式（Regular Expression）是一种描述字符串匹配模式的方式，它的应用非常广泛，几乎所有的主流编程语音里都有正则表达式的实现，比如 Java，C#，Python等等，当然 Linux 的 Shell 对它也有很好的支持。我们很多时候想要做的是模糊查找，比如以133开头的手机号，这个时候 grep 就需要用到正则表达式了。

正则表达式有两个版本，基本正则表达式（BRE）和它的升级版--扩展正则表达式（ERE）。我们主要了解一下扩展版，grep 命令需要加上 -E 选项，或者使用 egrep 命令。

正则表达式中用来匹配字符串模式的字符被称作元字符，学习正则表达式主要就是学会元字符的组合运用。元字符主要有下面几种：