「 月別アーカイブ:2020年04月 」 一覧
-
pysparkはなぜscalaのsparkより遅いのか
2020/04/07
簡単に行ってしまえば、sparkはJVMで動いています。 pythonのコードをJVMでは知らせるための、変換コストが一点。 同様のmapreduce的なものをpython上でやろうとして、それなりの ...
-
spark関連のチップと実行計画の読み方
2020/04/07
こんにちは sparkをしばらく触ってきて、パフォーマンスの出すためのポイントやハマり ポイントを未然に防ぐチップを箇条書きします。 spark関連のチップ ・spark2.3以降ならKryoSeri ...