小米数据处理服务

Spark使用说明


spark基本使用

cd $SPARK_HOME
./bin/spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode cluster \
    --master yarn lib/spark-examples-1.4.1-hadoop2.4.0.jar 10

pyspark

在使用pyspark的时候提交任务, worker有可能找不到spark框架的python lib库, 需要进行如下设置:

conf.set('spark.yarn.dist.files','file://$SPARK_HOME/python/lib/pyspark.zip,file:/usr/hdp/2.3.2.0-2950/spark/python/lib/py4j-0.8.2.1-src.zip')
conf.setExecutorEnv('PYTHONPATH','pyspark.zip:py4j-0.8.2.1-src.zip')