博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark-submit提交任务到集群
阅读量:6510 次
发布时间:2019-06-24

本文共 3169 字,大约阅读时间需要 10 分钟。

hot3.png

1.参数选取

当我们的代码写完,打好jar,就可以通过bin/spark-submit 提交到集群,命令如下:

./bin/spark-submit \   --class 
  --master 
 \  --deploy-mode 
 \  --conf 
=
 \       ... # other options   
 \   [application-arguments]

一般情况下使用上面这几个参数就够用了

  • --class: The entry point for your application (e.g. org.apache.spark.examples.SparkPi)

  • --master: The  for the cluster (e.g. spark://23.195.26.187:7077)

  • --deploy-mode: Whether to deploy your driver on the worker nodes (cluster) or locally as an external client (client) (default: client

  • --conf: Arbitrary Spark configuration property in key=value format. For values that contain spaces wrap “key=value” in quotes (as shown).

  • application-jar: Path to a bundled jar including your application and all dependencies. The URL must be globally visible inside of your cluster, for instance, an hdfs:// path or a file:// path that is present on all nodes.

  • application-arguments: Arguments passed to the main method of your main class, if any

    对于不同的集群管理,对spark-submit的提交列举几个简单的例子

# Run application locally on 8 cores ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \--master local[8] \   /path/to/examples.jar \100 # Run on a Spark standalone cluster in client deploy mode ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \--master spark://207.184.161.138:7077 \--executor-memory 20G \ --total-executor-cores 100 \/path/to/examples.jar \  1000   # Run on a Spark standalone cluster in cluster deploy mode with supervise  # make sure that the driver is automatically restarted if it fails with non-zero exit code  ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7077 \  --deploy-mode cluster--supervise  --executor-memory 20G \--total-executor-cores 100 \ /path/to/examples.jar \    1000   # Run on a YARN cluster export HADOOP_CONF_DIR=XXX./bin/spark-submit \  --class org.apache.spark.examples.SparkPi \--master yarn-cluster \  # can also be `yarn-client` for client mode  --executor-memory 20G \   --num-executors 50 \   /path/to/examples.jar \  1000   # Run a Python application on a Spark standalone cluster ./bin/spark-submit \   --master spark://207.184.161.138:7077 \  examples/src/main/python/pi.py \ 1000

2.具体提交步骤

代码实现一个简单的统计

public class SimpleSample {	public static void main(String[] args) {		String logFile = "/home/bigdata/spark-1.5.1/README.md"; 		SparkConf conf = new SparkConf().setAppName("Simple Application");		JavaSparkContext sc = new JavaSparkContext(conf);		JavaRDD
 logData = sc.textFile(logFile).cache(); long numAs = logData.filter(new Function
() { public Boolean call(String s) { return s.contains("a"); } }).count(); long numBs = logData.filter(new Function
() { public Boolean call(String s) { return s.contains("b"); } }).count(); System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs); }}

打成jar

175703_LAu6_2529303.png

上传命令

./bin/spark-submit --class cs.spark.SimpleSample --master spark://spark1:7077 /home/jar/spark-test-0.0.1-SNAPSHOT.jar

转载于:https://my.oschina.net/u/2529303/blog/541685

你可能感兴趣的文章
554 SBRS score too low : http://www.senderbase.org
查看>>
iphone开发之viewDidLoad
查看>>
返璞归真 asp.net mvc (6) - asp.net mvc 2.0 新特性
查看>>
用命令启动控制面板
查看>>
JAVA - 优雅的记录日志(log4j实战篇)
查看>>
Android编码规范
查看>>
Win 7的密码破解及更改登录默认用户名
查看>>
android中文api (59) —— TabHost.TabSpec
查看>>
常用网线制作 连接方式
查看>>
Android 中文API (67) —— BluetoothClass.Device.Major
查看>>
蓝牙通信(一)——打开和关闭蓝牙
查看>>
Maven 参数(maven.test.skip 和 maven.test.skip.exec) 区别
查看>>
Linux shell输出指定的行
查看>>
学习C++的50条忠告
查看>>
Oracle中字符缓冲区相关错误
查看>>
模拟“博客搬家”脚本-第一天
查看>>
关于Unity中的资源管理,你可能遇到这些问题
查看>>
Hyper-v 3.0 安装centos6.3
查看>>
详解SCVMM 2008中的虚拟机模板
查看>>
moosefs 测试
查看>>