いいものをつくろう

CTOを目指す日記

データサイエンス

spark ML pipelineの基礎

投稿日：2019年5月8日

pipelineというのは、DAGでジョブを管理する、クラスなんですが、普通は一直線の序列で扱うことがほどんどかと。

pipelineというのはtransformerとestimatorの組合せです

https://spark.apache.org/docs/latest/ml-pipeline.html

crossvalidationやhyperparameterチューニングようのラッパー(api)も用意されているとのこと。

https://spark.apache.org/docs/latest/ml-tuning.html

以上です

-データサイエンス

comment コメントをキャンセル

関連記事

: データサイエンス

Kaggle入門1日目~6日目まで一気に

tkm2261さんのkaggle 入門ブログと動画を見てkaggleに再入門したいと思います。動画でわからないことあったらtwitterしてねという優しい方です。あとslackでコミュで初心者の質 ...

: データサイエンス

機械学習のオンライン勉強法のまとめ

機械学習を少しかじった事はあるけれどデータサイエンティストの肩書きで入社してくる同僚には負ける、と思っている方達に読んで欲しい記事です。私は、エンジニアバックグラウンドですが仕事でデータサイエンテ ...

: データサイエンス

gekkoでneuralnet動かしてヒストリカルデータを取得してみた

gekkoを動かしてローカルでuiを動かして、そしてgekko-neuralnetをbacktestで動かすということをやってみた。インストール手順など非常に充実しているしコミュニティーも大きいの ...

PREV: Kaggle入門1日目~6日目まで一気に
NEXT: gekkoでneuralnet動かしてヒストリカルデータを取得してみた

Copyright© CTOを目指す日記 , 2025 All Rights Reserved.