program story

Apache Spark : Python 3에서 pyspark를 사용하는 방법

inputbox 2020. 10. 14. 07:48
반응형

Apache Spark : Python 3에서 pyspark를 사용하는 방법


GH 개발 마스터에서 Spark 1.4를 빌드했으며 빌드가 잘 진행되었습니다. 그러나 내가 할 때 나는 bin/pysparkPython 2.7.9 버전을 얻습니다. 어떻게 변경할 수 있습니까?


환경 변수를 설정하십시오.

export PYSPARK_PYTHON=python3

이것이 영구적 인 변경이 되길 원한다면이 줄을 pyspark 스크립트에 추가하세요.


PYSPARK_PYTHON=python3 
./bin/pyspark

IPython Notebook에서 실행하려면 다음을 작성하십시오.

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

python3액세스 할 수없는 경우 대신 경로를 전달해야합니다.

마음에 베어는 것을 (1.4.1 기준) 현재 문서 에게 오래된 지침을 가지고있다. 다행히도 패치되었습니다 .


1, 프로필 수정 :vim ~/.profile

2, 파일에 코드를 추가합니다. export PYSPARK_PYTHON=python3

3, 명령 실행 : source ~/.profile

4, ./bin/pyspark


파일을 살펴보십시오. shebang 줄은 아마도 첫 번째 호환 가능한 실행 파일의 경로를 검색하는 'env'바이너리를 가리킬 것입니다.

python을 python3으로 변경할 수 있습니다. python3 바이너리를 직접 사용하도록 env를 변경하십시오. 또는 python3으로 바이너리를 직접 실행하고 shebang 줄을 생략하십시오.


Jupyter Notebook의 경우 spark-env.sh명령 줄에서 아래와 같이 파일을 편집 합니다.

$ vi $SPARK_HOME/conf/spark-env.sh

파일 맨 아래로 이동하여이 행을 복사하여 붙여 넣으십시오.

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

그런 다음 다음 명령을 실행하여 노트북에서 pyspark를 시작하십시오.

$ pyspark

참고 URL : https://stackoverflow.com/questions/30279783/apache-spark-how-to-use-pyspark-with-python-3

반응형