Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么?
資深大佬 : ysn2233 15
我是用 Flink 的 DataSet API 去读取文件,用的 Hadoop Compatability 里 Hadoop 的 FileInputFormat,发现在创建分片的 getSplits()方法里,会去遍历每一个文件获取 block locations,有 10 万个文件的话就得发 10 万次请求,所以任务初始化非常慢,请问一下有什么好的解决办法么?
大佬有話說 (4)