一个 spark 计算任务需要对两张大表做 join 操作,有什么解决方案么
資深大佬 : fdgdbr 2
比如说计算 sql 是 select * from table_a left join table_b on a.id=b.id
其中 table_a 和 table_b 的数据量都很大,几亿到几十亿的数量。直接把上面的 sql 扔给 spark 算的话,架构师跟我说内存会爆,即使用集群也会爆,那有什么解决方案吗
其中 table_a 和 table_b 的数据量都很大,几亿到几十亿的数量。直接把上面的 sql 扔给 spark 算的话,架构师跟我说内存会爆,即使用集群也会爆,那有什么解决方案吗
大佬有話說 (7)