专业的JAVA编程教程与资源

网站首页 > java教程 正文

linux awk match正则匹配实例(linux awk 正则表达式)

temp10 2024-11-16 00:42:35 java教程 12 ℃ 0 评论

awk是linux强大的工具,由于awk极其灵活因此很难一下吃透,需要多多使用磨练。今天展现一个match正则匹配的例子。

目的:将B站中视频集合的地址取出

linux awk match正则匹配实例(linux awk 正则表达式)

如图所示:视频地址都类似“www.bilibili.com/video/BV1KW411z7sv”。


awk 'BEGIN{RS="<a ";}{match($2,/(www.*)\"/,a);print a[1]}' b.txt

解释:RS为行分隔符,本例中将行分割符改为“<a ”,数据经过BEGIN{RS="<a "; }将被整理为类似如下格式:

data-v-53490a4f="" href="//www.bilibili.com/video/BV1B541167rq"......

target="_blank" href="//www.bilibili.com/video/BV1B541167rq"......

我们仅需要$2即可($2为第二列,awk默认列分割符为空格),$2的内容如下:

href="//www.bilibili.com/video/BV1TZ4y1j7gK"

href="//www.bilibili.com/video/BV1TZ4y1j7gK"

href="//www.bilibili.com/video/BV1B541167rq"

href="//www.bilibili.com/video/BV1B541167rq"

href="//www.bilibili.com/video/BV15W411d7db"

href="//www.bilibili.com/video/BV15W411d7db"

href="//www.bilibili.com/video/BV1wW411o7zr"

由于$2的信息还不是类似:www.bilibili.com/video/BV1wW411o7zr

的视频地址信息,我们还需借助match进行正则匹配,将地址匹配出来。

match函数用法如下:

match(string,regexp,array)

没有array的情况下:通过regexp,在string中寻找最左边,最长的substring,返回substring的index位置。

有array的情况下:在regexp中用()将要组成的array的内容按顺序弄好,a[1]代表第一个()的内容,a[2]代表第二个()的内容,以此类推。

本例中:match($2,/(www.*)\"/,a) 采用array,只有一个(),因此a[1]中内容就是视频地址。print a[1]就得到需要的视频地址。

最后,细心读者会发现地址有重复行,可以调用uniq去重即可,本例就不再演示,uniq使用可以查查本人前期文章。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表