Spark使用说明


spark基本使用

cd $SPARK_HOME
./bin/spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode cluster \
    --master yarn lib/spark-examples-1.4.1-hadoop2.4.0.jar 10

pyspark

在使用pyspark的时候提交任务, worker有可能找不到spark框架的python lib库, 需要进行如下设置:

conf.set('spark.yarn.dist.files','file://$SPARK_HOME/python/lib/pyspark.zip,file:/usr/hdp/2.3.2.0-2950/spark/python/lib/py4j-0.8.2.1-src.zip')
conf.setExecutorEnv('PYTHONPATH','pyspark.zip:py4j-0.8.2.1-src.zip')

查看history

可以从spark historyServer的UI上查看history,方便定位一些问题。通常情况,架设好socks5代理后,点击作业链接直接能最终跳转到 Spark UI, 但是有些情况可能跳转失败。此时可以尝试访问http://${history_ip}:${history_port},并通过appId找到对应的history UI.

描述 端口
history UI 18900

NOTE: 上述${history_ip}参考架设socks5代理第4点获取,