04spark-yarn模式

本文最后更新于 2021-08-05 11:42:59

Spark-yarn模式

配置

yarn-site.xml

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

spark-default.conf

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://node1:9000/spark-job-log-yarn
#直接跳转到spark history
spark.yarn.historyServer.address=node1:18080
spark.history.ui.port=18080

spark-env.conf

YARN_CONF_DIR=/usr/local/soft/hadoop2.7/hadoop-2.7.2/etc/hadoop

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=30 -Dspark.history.fs.logDirectory=hdfs://node1:9000/spark-job-log-yarn"

几种模式对比

模式	Spark安装机器数	需启动的进程	所属者
Local	1	无	Spark
Standalone	多台	Master及Worker	Spark
Yarn	1	Yarn及HDFS	Hadoop
Mesos

bigdata > 10spark

#bigdata #10spark

04spark-yarn模式

https://jiajun.xyz/2021/07/10/bigdata/10spark/04spark-yarn模式/

作者

Lambda

发布于

2021年7月10日

更新于

2021年8月5日

许可协议

03spark-standalone模式上一篇

05word-count 下一篇