跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • pyspark 连接 spark 集群部署问题
未分類
16 4 月 2020

pyspark 连接 spark 集群部署问题

pyspark 连接 spark 集群部署问题

資深大佬 : marin1995 54

请教一下各位大佬,我现在使用 pysaprk 做 sparkstreaming 处理 kafka 的数据。程序单机跑的时候没有问题,连接集群的时候就会报错 no module named “xxxx”,连接方式是在程序是设置 setMaster(“”spark://host:port)。是不是还要配置其他环境变量呢?麻烦大佬指点一下,有偿~
大佬有話說 (3)

  • 資深大佬 : besttime

    pyspark 的 job 提交到 spark 后,会调用 spark 所在环境的 python 解释器,而这个报错的问题就是在于 spark 所在的环境的 python 解释器缺乏你使用的类库。

  • 資深大佬 : fzy0728

    https://www.jianshu.com/p/df0a189ff28b

  • 資深大佬 : xiaoxuxu

    可以用 pyenv 建个 Python 环境,然后打成压缩包。运行 spark-submit 的时候用–archives 传这个压缩包,并且设置 PYSPARK_DRIVER_PYTHON、PYSPARK_PYTHON 为压缩包内 Python 可执行文件的相对路径,大概是这样:

    PYSPARK_PYTHON=./python-env/bin/python PYSPARK_DRIVER_PYTHON=./python-env/bin/python spark-submit –master yarn –deploy-mode cluster –archives python-env.zip#python-env

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具