04spark-yarn模式

本文最后更新于 2021-08-05 11:42:59

Spark-yarn模式

配置

yarn-site.xml

1
2
3
4
5
6
7
8
9
10
11
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

spark-default.conf

1
2
3
4
5
spark.eventLog.enabled           true
spark.eventLog.dir hdfs://node1:9000/spark-job-log-yarn
#直接跳转到spark history
spark.yarn.historyServer.address=node1:18080
spark.history.ui.port=18080

spark-env.conf

1
2
3
4
YARN_CONF_DIR=/usr/local/soft/hadoop2.7/hadoop-2.7.2/etc/hadoop

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=30 -Dspark.history.fs.logDirectory=hdfs://node1:9000/spark-job-log-yarn"

几种模式对比

模式 Spark安装机器数 需启动的进程 所属者
Local 1 Spark
Standalone 多台 Master及Worker Spark
Yarn 1 Yarn及HDFS Hadoop
Mesos

04spark-yarn模式
https://jiajun.xyz/2021/07/10/bigdata/10spark/04spark-yarn模式/
作者
Lambda
发布于
2021年7月10日
更新于
2021年8月5日
许可协议