いいものをつくろう

CTOの日記

「spark」 一覧

spark

spark-shellで初期ファイルの指定のしかた

2020/06/18  

毎回spark-shellを立ち上げてimportするようなことを毎回しているなら、 例えばこんなscalaファイルを用意しておく vi sparkShellInit.scala import org ...

spark

hadoopのリソースの割り当てと上限そしてsparkでdynamic allocationを試す

2020/05/26  

hadoopクラスターの動き方 リソース(メモリがどれくらい割り当てられるか)は、absolute capacity例えば3%、そしてこれは最低保証割り当てメモリみたいな感じ と、User facto ...

spark

pysparkはなぜscalaのsparkより遅いのか

2020/04/07  

簡単に行ってしまえば、sparkはJVMで動いています。 pythonのコードをJVMでは知らせるための、変換コストが一点。 同様のmapreduce的なものをpython上でやろうとして、それなりの ...

spark

spark関連のチップと実行計画の読み方

2020/04/07  

こんにちは sparkをしばらく触ってきて、パフォーマンスの出すためのポイントやハマり ポイントを未然に防ぐチップを箇条書きします。 spark関連のチップ ・spark2.3以降ならKryoSeri ...

Scala spark

spark 機械学習でnull valueの扱い

2019/11/11  

こんにちは トレーニングデータにnull値が含まれれると 以下のようなエラーでnull値がありますよと、処理が落ちます。 Caused by: org.apache.spark.SparkExcept ...

spark

spark join で気をつけたほうが良い点 (null値を含んだjoin)

2019/10/31  

こんにちは sparkのjoinのとある挙動をしらなかった為、5時間くらいデバッグしました。 知らない方も多いと思いますのでまとめました。   きっかけはjoinの結果がなんか、おかしい。そ ...

spark

spark よく出るエラー LiveListenerBus とRejectedExecutionException

2019/10/18  

  LiveListenerBus について https://issues.apache.org/jira/browse/SPARK-12009 version 2.0.0でなおった、と言っ ...

Copyright© CTOの日記 , 2020 All Rights Reserved.