跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么?
未分類
3 9 月 2020

Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么?

Hadoop 读取 10 万个文件初始化过程很慢有方便的解决办法么?

資深大佬 : ysn2233 15

我是用 Flink 的 DataSet API 去读取文件,用的 Hadoop Compatability 里 Hadoop 的 FileInputFormat,发现在创建分片的 getSplits()方法里,会去遍历每一个文件获取 block locations,有 10 万个文件的话就得发 10 万次请求,所以任务初始化非常慢,请问一下有什么好的解决办法么?

大佬有話說 (4)

  • 資深大佬 : liprais

    合并小文件呗

  • 資深大佬 : billlee

    HDFS 本来就不适合存小文件

  • 主 資深大佬 : ysn2233

    @billlee 文件也不小但是多,但是初始化慢就是一个循环对每个文件都要去发次 rpc 请求获取一个文件的 block 位置,如果能只发一次请求返回所有相关文件的位置信息感觉就快很多。

  • 資深大佬 : kex0916

    把文件合并下,或者把读取文件过程拆分成多个任务跑,最后再 union 起来

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具