pipelineというのは、DAGでジョブを管理する、クラスなんですが、普通は一直線の序列で扱うことがほどんどかと。
pipelineというのはtransformerとestimatorの組合せです
https://spark.apache.org/docs/latest/ml-pipeline.html
crossvalidationやhyperparameterチューニングようのラッパー(api)も用意されているとのこと。
https://spark.apache.org/docs/latest/ml-tuning.html
以上です