网站首页 > java教程 正文
awk是linux强大的工具,由于awk极其灵活因此很难一下吃透,需要多多使用磨练。今天展现一个match正则匹配的例子。
目的:将B站中视频集合的地址取出
如图所示:视频地址都类似“www.bilibili.com/video/BV1KW411z7sv”。
awk 'BEGIN{RS="<a ";}{match($2,/(www.*)\"/,a);print a[1]}' b.txt
解释:RS为行分隔符,本例中将行分割符改为“<a ”,数据经过BEGIN{RS="<a "; }将被整理为类似如下格式:
data-v-53490a4f="" href="//www.bilibili.com/video/BV1B541167rq"......
target="_blank" href="//www.bilibili.com/video/BV1B541167rq"......
我们仅需要$2即可($2为第二列,awk默认列分割符为空格),$2的内容如下:
href="//www.bilibili.com/video/BV1TZ4y1j7gK"
href="//www.bilibili.com/video/BV1TZ4y1j7gK"
href="//www.bilibili.com/video/BV1B541167rq"
href="//www.bilibili.com/video/BV1B541167rq"
href="//www.bilibili.com/video/BV15W411d7db"
href="//www.bilibili.com/video/BV15W411d7db"
href="//www.bilibili.com/video/BV1wW411o7zr"
由于$2的信息还不是类似:www.bilibili.com/video/BV1wW411o7zr
的视频地址信息,我们还需借助match进行正则匹配,将地址匹配出来。
match函数用法如下:
match(string,regexp,array)
没有array的情况下:通过regexp,在string中寻找最左边,最长的substring,返回substring的index位置。
有array的情况下:在regexp中用()将要组成的array的内容按顺序弄好,a[1]代表第一个()的内容,a[2]代表第二个()的内容,以此类推。
本例中:match($2,/(www.*)\"/,a) 采用array,只有一个(),因此a[1]中内容就是视频地址。print a[1]就得到需要的视频地址。
最后,细心读者会发现地址有重复行,可以调用uniq去重即可,本例就不再演示,uniq使用可以查查本人前期文章。
猜你喜欢
- 2024-11-16 String.replaceAll方法,正则妙用
- 2024-11-16 348.C# 中的正则表达式断言:精确匹配的秘诀
- 2024-11-16 《MySQL 入门教程》第 09 篇 字符串模式匹配
- 2024-11-16 mysql正则匹配中文时存在的问题(mysql 正则匹配)
- 2024-11-16 技术趣讲 | 60 分钟搞懂「正则表达式」
- 2024-11-16 PHP 正则表达式匹配中文问题(php正则表达式匹配字符串)
- 2024-11-16 JZ-052-正则表达式匹配(正则表达式 匹配?)
- 2024-11-16 Nginx Location深入了解匹配优先级的秘密#java面试
- 2024-11-16 PHP正则表达式核心技术完全详解 第7节 数组元素正则匹配
- 2024-11-16 你知道python正则表达式如何跨行匹配吗?
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- java反编译工具 (77)
- java反射 (57)
- java接口 (61)
- java随机数 (63)
- java7下载 (59)
- java数据结构 (61)
- java 三目运算符 (65)
- java对象转map (63)
- Java继承 (69)
- java字符串替换 (60)
- 快速排序java (59)
- java并发编程 (58)
- java api文档 (60)
- centos安装java (57)
- java调用webservice接口 (61)
- java深拷贝 (61)
- 工厂模式java (59)
- java代理模式 (59)
- java.lang (57)
- java连接mysql数据库 (67)
- java重载 (68)
- java 循环语句 (66)
- java反序列化 (58)
- java时间函数 (60)
- java是值传递还是引用传递 (62)
本文暂时没有评论,来添加一个吧(●'◡'●)