未分類

3 9 月 2020

Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么？

Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么？

資深大佬 : ysn2233 15

我是用 Flink 的 DataSet API 去读取文件，用的 Hadoop Compatability 里 Hadoop 的 FileInputFormat，发现在创建分片的 getSplits()方法里，会去遍历每一个文件获取 block locations，有 10 万个文件的话就得发 10 万次请求，所以任务初始化非常慢，请问一下有什么好的解决办法么？

大佬有話說 (4)

資深大佬 : liprais

合并小文件呗
資深大佬 : billlee

HDFS 本来就不适合存小文件
主資深大佬 : ysn2233

@billlee 文件也不小但是多，但是初始化慢就是一个循环对每个文件都要去发次 rpc 请求获取一个文件的 block 位置，如果能只发一次请求返回所有相关文件的位置信息感觉就快很多。
資深大佬 : kex0916

把文件合并下，或者把读取文件过程拆分成多个任务跑，最后再 union 起来