いいものをつくろう

CTOを目指す日記

spark関連のチップと実行計画の読み方

投稿日：2020年4月7日

こんにちは

sparkをしばらく触ってきて、パフォーマンスの出すためのポイントやハマり

ポイントを未然に防ぐチップを箇条書きします。

Contents

1 spark関連のチップ
2 パフォーマンスの上げ方
3 spark SQLのexplainの読み方

spark関連のチップ

・spark2.3以降ならKryoSerializerをつかうとJVMでのデータコピーが速い

・spark本家のチューニングを読む

　　　　　　　　　　　　　　　　　

・もちろんcollectなどのアクションは大量のデータに対して行わない。

・driverとexecutorを意識する

・無駄にnum_executorを上げるならdynamic allocationも検討しよう

・nullの扱い　spark 機械学習でnull valueの扱い

・joinの注意点 spark join で気をつけたほうが良い点 (null値を含んだjoin)

・spark よく出るエラー　LiveListenerBus とRejectedExecutionException

・ML 基礎　spark ML pipelineの基礎

パフォーマンスの上げ方

・そもそも、大きなアーキテクチャでhbaseとか導入できないか？なぜ？

・stagesを少なくできないか？

・shuffle時の通信量を小さくできないか？

・Explainでさらにボトルネックをさくる

・RDDじゃなくてdataframeを極力つかう

spark SQLのexplainの読み方

大枠おさえる

これでUIの読み方だいたいしる。

explainの意味をしる

databricks社のエンジニアさんの解説、作っている人の話は確かそう

このスライドは必見です。

queryはハイレベルでqueryのプランニングでjobは詳細なstageとtaskって感じ

あとはグーグル検索でのヒットの一位だったのでこちら

以上です

参考参照：

Apache Spark の Physical/Logical plan の解説を試みる https://qiita.com/moomindani/items/19eb15012cb4d4aaf4b6

Sparkの内部処理を理解する　https://qiita.com/uryyyyyyy/items/ba2dceb709f8701715f7
Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1　https://logmi.jp/tech/articles/321474

Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料） from NTT DATA OSS Professional Services

comment コメントをキャンセル

関連記事

: spark

spark-shellで初期ファイルの指定のしかた

毎回spark-shellを立ち上げてimportするようなことを毎回しているなら、例えばこんなscalaファイルを用意しておく vi sparkShellInit.scala import org ...

: spark

spark よく出るエラー　LiveListenerBus とRejectedExecutionException

LiveListenerBus について https://issues.apache.org/jira/browse/SPARK-12009 version 2.0.0でなおった、と言っ ...

: spark

pysparkはなぜscalaのsparkより遅いのか

簡単に行ってしまえば、sparkはJVMで動いています。 pythonのコードをJVMでは知らせるための、変換コストが一点。同様のmapreduce的なものをpython上でやろうとして、それなりの ...

: spark

spark join で気をつけたほうが良い点 (null値を含んだjoin)

こんにちは sparkのjoinのとある挙動をしらなかった為、5時間くらいデバッグしました。知らない方も多いと思いますのでまとめました。きっかけはjoinの結果がなんか、おかしい。そ ...

: Scala spark

spark 機械学習でnull valueの扱い

こんにちはトレーニングデータにnull値が含まれれると以下のようなエラーでnull値がありますよと、処理が落ちます。 Caused by: org.apache.spark.SparkExcept ...

PREV: guiceのとっても簡単なhelloworldコードを初めてのｍavenでコンパイルして実行するまで
NEXT: pysparkはなぜscalaのsparkより遅いのか

Copyright© CTOを目指す日記 , 2024 All Rights Reserved.