いいものをつくろう

CTOを目指す日記

pysparkはなぜscalaのsparkより遅いのか

投稿日：2020年4月7日

簡単に行ってしまえば、sparkはJVMで動いています。

pythonのコードをJVMでは知らせるための、変換コストが一点。

同様のmapreduce的なものをpython上でやろうとして、それなりの開発が要るし

https://stackoverflow.com/questions/30684982/how-does-spark-interoperate-with-cpython

https://cwiki.apache.org/confluence/display/SPARK/PySpark+Internals

pythonよりjavaのほうが速い

https://softwareengineering.stackexchange.com/questions/147089/why-is-python-slower-than-java-but-faster-than-php

spark関連の記事

・spark関連のチップと実行計画の読み方

・nullの扱い　spark 機械学習でnull valueの扱い

・joinの注意点 spark join で気をつけたほうが良い点 (null値を含んだjoin)

・spark よく出るエラー　LiveListenerBus とRejectedExecutionException

・ML 基礎　spark ML pipelineの基礎

comment コメントをキャンセル

関連記事

: spark

spark よく出るエラー　LiveListenerBus とRejectedExecutionException

LiveListenerBus について https://issues.apache.org/jira/browse/SPARK-12009 version 2.0.0でなおった、と言っ ...

: spark

spark関連のチップと実行計画の読み方

こんにちは sparkをしばらく触ってきて、パフォーマンスの出すためのポイントやハマりポイントを未然に防ぐチップを箇条書きします。 Contents1 spark関連のチップ2 パフォーマンスの上げ ...

: spark

hadoopのリソースの割り当てと上限そしてsparkでdynamic allocationを試す

hadoopクラスターの動き方リソース(メモリがどれくらい割り当てられるか)は、absolute capacity例えば3％、そしてこれは最低保証割り当てメモリみたいな感じと、User facto ...

: Scala spark

spark 機械学習でnull valueの扱い

こんにちはトレーニングデータにnull値が含まれれると以下のようなエラーでnull値がありますよと、処理が落ちます。 Caused by: org.apache.spark.SparkExcept ...

: spark

spark-shellで初期ファイルの指定のしかた

毎回spark-shellを立ち上げてimportするようなことを毎回しているなら、例えばこんなscalaファイルを用意しておく vi sparkShellInit.scala import org ...

PREV: spark関連のチップと実行計画の読み方
NEXT: スレッドって何？をアセンブリレベルで理解する。そしてマルチコアとは。

Copyright© CTOを目指す日記 , 2025 All Rights Reserved.