1
besttime 2020-01-15 16:11:14 +08:00 1
pyspark 的 job 提交到 spark 后,会调用 spark 所在环境的 python 解释器,而这个报错的问题就是在于 spark 所在的环境的 python 解释器缺乏你使用的类库。
|
2
fzy0728 2020-01-15 17:01:52 +08:00
|
3
xiaoxuxu 2020-01-15 19:01:59 +08:00 1
可以用 pyenv 建个 Python 环境,然后打成压缩包。运行 spark-submit 的时候用--archives 传这个压缩包,并且设置 PYSPARK_DRIVER_PYTHON、PYSPARK_PYTHON 为压缩包内 Python 可执行文件的相对路径,大概是这样:
PYSPARK_PYTHON=./python-env/bin/python PYSPARK_DRIVER_PYTHON=./python-env/bin/python spark-submit --master yarn --deploy-mode cluster --archives python-env.zip#python-env |