网站首页 > java教程正文

linux awk match正则匹配实例（linux awk 正则表达式）

temp10 2024-11-16 00:42:35 java教程 26 ℃ 0 评论

awk是linux强大的工具，由于awk极其灵活因此很难一下吃透，需要多多使用磨练。今天展现一个match正则匹配的例子。

目的：将B站中视频集合的地址取出

如图所示：视频地址都类似“www.bilibili.com/video/BV1KW411z7sv”。

awk 'BEGIN{RS="<a ";}{match($2,/(www.*)\"/,a);print a[1]}' b.txt

解释：RS为行分隔符，本例中将行分割符改为“<a ”,数据经过BEGIN{RS="<a "; }将被整理为类似如下格式：

data-v-53490a4f="" href="//www.bilibili.com/video/BV1B541167rq"......

target="_blank" href="//www.bilibili.com/video/BV1B541167rq"......

我们仅需要$2即可（$2为第二列，awk默认列分割符为空格），$2的内容如下：

href="//www.bilibili.com/video/BV1TZ4y1j7gK"

href="//www.bilibili.com/video/BV1B541167rq"

href="//www.bilibili.com/video/BV15W411d7db"

href="//www.bilibili.com/video/BV1wW411o7zr"

由于$2的信息还不是类似：www.bilibili.com/video/BV1wW411o7zr

的视频地址信息，我们还需借助match进行正则匹配，将地址匹配出来。

match函数用法如下：

match(string,regexp,array)

没有array的情况下：通过regexp，在string中寻找最左边，最长的substring，返回substring的index位置。

有array的情况下：在regexp中用()将要组成的array的内容按顺序弄好,a[1]代表第一个（）的内容，a[2]代表第二个（）的内容，以此类推。

本例中：match($2,/(www.*)\"/,a) 采用array，只有一个（），因此a[1]中内容就是视频地址。print a[1]就得到需要的视频地址。

最后，细心读者会发现地址有重复行，可以调用uniq去重即可，本例就不再演示，uniq使用可以查查本人前期文章。