网站首页 > java教程 正文
昨天,收到一个需求,应该大晚上8点左右吧,突然被上级告知,你现在停下一个手头的工作,我这边有一个紧急的需求。
我什么也没有说,不管自己再忙什么,先听他讲什么,最后的操作,大致是 数据清洗,不知道这有什么紧急的,上级说紧急可能就是紧急吧。
流程上:
读取hdfs上的目录,然后做数据清洗,写入一张hive表中,当然中间是没什么问题。
就是需要一些注意点:
例如 读取 /user/hive/warehouse/20210203 下面,有
xxx1_payment_20210203,
xxx2_payment_20210203
xxx3_payment_20210203
xxx4_payment_20210203
xxxx,
zzzz
各种文件,需要读取的文件是 xxxx_payment_20210203这样的文件,那显然需要在文件读取的时候进行过滤。
这个时候需要调用 Hadoop的 FileSystem了,需要通过_gateway获取了,倒不是有多么难,就是记录下 python中调用 Java中的类。
payment_read_path=[]
Path=sc._gateway.jvm.org.apache.hadoop.fs.Path
URI =sc._gateway.jvm.java.net.URI
fs =sc._gateway.jvm.org.apache.hadoop.fs.FileSystem.get(sc._jsc.hadoopConfiguration())
payment_paths=fs.listStatus(Path(" /user/hive/warehouse/20210203"))
for t in payment_paths:
pp=t.getPath().getName().split('_')
if pp[0] 。。。。 and pp[1]=='payment' and pp[2]=='20210203':
payment_read_path.append(t.getPath().toString())
这样就获取了读取的文件路径,
然后
spark.read.....就可以了
猜你喜欢
- 2024-09-22 python实现WebService协议使用(pythonwebserver接口开发)
- 2024-09-22 玩转Termux:教你在手机上安装运行Python!
- 2024-09-22 Javaer自学python,吐槽难受的点(学了java再学python容易吗)
- 2024-09-22 实例编程:多语言语言调用Golang共享库
- 2024-09-22 Python 和 Java 基础对比 05 —— 程序的控制语句
- 2024-09-22 Python的模块导入和重载(python中模块导入的方法)
- 2024-09-22 python内置函数通过字符串的方式来执行函数代码块
- 2024-09-22 关于不同编程语言相互调用的思考(不同编程语言对接)
- 2024-09-22 Python 3.13 或将引入 JIT!(python引入包从哪里引入)
- 2024-09-22 如何使用 Python 实现网页自动化朗读?
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- java反编译工具 (77)
- java反射 (57)
- java接口 (61)
- java随机数 (63)
- java7下载 (59)
- java数据结构 (61)
- java 三目运算符 (65)
- java对象转map (63)
- Java继承 (69)
- java字符串替换 (60)
- 快速排序java (59)
- java并发编程 (58)
- java api文档 (60)
- centos安装java (57)
- java调用webservice接口 (61)
- java深拷贝 (61)
- 工厂模式java (59)
- java代理模式 (59)
- java.lang (57)
- java连接mysql数据库 (67)
- java重载 (68)
- java 循环语句 (66)
- java反序列化 (58)
- java时间函数 (60)
- java是值传递还是引用传递 (62)
本文暂时没有评论,来添加一个吧(●'◡'●)