-
spark-shellで初期ファイルの指定のしかた
2020/06/18
毎回spark-shellを立ち上げてimportするようなことを毎回しているなら、 例えばこんなscalaファイルを用意しておく vi sparkShellInit.scala import org ...
-
hadoopのリソースの割り当てと上限そしてsparkでdynamic allocationを試す
2020/05/26
hadoopクラスターの動き方 リソース(メモリがどれくらい割り当てられるか)は、absolute capacity例えば3%、そしてこれは最低保証割り当てメモリみたいな感じ と、User facto ...
-
pysparkはなぜscalaのsparkより遅いのか
2020/04/07
簡単に行ってしまえば、sparkはJVMで動いています。 pythonのコードをJVMでは知らせるための、変換コストが一点。 同様のmapreduce的なものをpython上でやろうとして、それなりの ...
-
spark関連のチップと実行計画の読み方
2020/04/07
こんにちは sparkをしばらく触ってきて、パフォーマンスの出すためのポイントやハマり ポイントを未然に防ぐチップを箇条書きします。 spark関連のチップ ・spark2.3以降ならKryoSeri ...
-
spark 機械学習でnull valueの扱い
2019/11/11
こんにちは トレーニングデータにnull値が含まれれると 以下のようなエラーでnull値がありますよと、処理が落ちます。 Caused by: org.apache.spark.SparkExcept ...
-
spark join で気をつけたほうが良い点 (null値を含んだjoin)
2019/10/31
こんにちは sparkのjoinのとある挙動をしらなかった為、5時間くらいデバッグしました。 知らない方も多いと思いますのでまとめました。 きっかけはjoinの結果がなんか、おかしい。そ ...
-
spark よく出るエラー LiveListenerBus とRejectedExecutionException
2019/10/18
LiveListenerBus について https://issues.apache.org/jira/browse/SPARK-12009 version 2.0.0でなおった、と言っ ...