これからはじめるHadoop/Spark 行ってきた| Advent Calendar 2016
IT系の勉強会行ってきた Advent Calendar 2016 - Adventar の8日目!
Hadoopことはじめ 〜Hadoopを取り巻く環境とその最新動向〜
- Hadoopいつ使うのか
→大量データを苦労せずに高速に処理したい
→溜まったデータは移動が難しいのでみんなで使いたい - 高速に動かすための処理をHadoopが面倒見てくれる
- HDFS:複数サーバのディスクを1つの巨大ディスクのように見える
- YARN:リソースの割り当て
- ストリーミング系は活発に開発がされておりいくつもある
- これからHadoop使ってみる場合はクラウド環境がお手軽
Asakusaで始めるHadoop/Sparkプログラミング
- どこからが始める?
→すぐに成果出そうなとこ
→SQL on Hadoop / Spark - 環境で悩まないようにクラウド使うのがよい
- プログラミングから始める
最終的には色々やるはめになるなら最初からやっておくのがいい - AsakusaFreamworkなに?
→Hadoop / SparkAPIの知識なし、MapReduceではなくデータフローで作れる
→IDEで出来る。DFD(データフローダイアグラム)などで図示される
→標準テストフレームワークがある - よく使われるのはApacheのログファイル集計とか
学んで動かす!Sparkのキホン
- 導入前にPoCなどを通じて、プロダクトに合っているか確かめるのがよい
1台のマシンでは収まらない、データ件数が多い等 - Sparkは豊富な機能により注目
Scala,Java,Python,SQLとか色々対応、Hadoop互換
MLlib/ML Pipelinesの紹介
LTのやつはメモしてなかった…。
Hadoop/Sparkは業務では扱ったこと無いけどいつか関わる機会あるんだろうか…神のみぞ知る。