あるふぁべっとがおおすぎる

ITネタとか勉強会とか色々

これからはじめるHadoop/Spark 行ってきた| Advent Calendar 2016

IT系の勉強会行ってきた Advent Calendar 2016 - Adventar の8日目!

Hadoopことはじめ 〜Hadoopを取り巻く環境とその最新動向〜

  • Hadoopいつ使うのか
    →大量データを苦労せずに高速に処理したい
    →溜まったデータは移動が難しいのでみんなで使いたい
  • 高速に動かすための処理をHadoopが面倒見てくれる
  • HDFS:複数サーバのディスクを1つの巨大ディスクのように見える
  • YARN:リソースの割り当て
  • ストリーミング系は活発に開発がされておりいくつもある
  • これからHadoop使ってみる場合はクラウド環境がお手軽

Asakusaで始めるHadoop/Sparkプログラミング

  • どこからが始める?
    →すぐに成果出そうなとこ
    SQL on Hadoop / Spark
  • 環境で悩まないようにクラウド使うのがよい
  • プログラミングから始める
    最終的には色々やるはめになるなら最初からやっておくのがいい
  • AsakusaFreamworkなに?
    Hadoop / SparkAPIの知識なし、MapReduceではなくデータフローで作れる
    IDEで出来る。DFD(データフローダイアグラム)などで図示される
    →標準テストフレームワークがある
  • よく使われるのはApacheのログファイル集計とか

学んで動かす!Sparkのキホン

  • 導入前にPoCなどを通じて、プロダクトに合っているか確かめるのがよい
    1台のマシンでは収まらない、データ件数が多い等
  • Sparkは豊富な機能により注目
    Scala,Java,Python,SQLとか色々対応、Hadoop互換
    MLlib/ML Pipelinesの紹介

 

LTのやつはメモしてなかった…。
Hadoop/Sparkは業務では扱ったこと無いけどいつか関わる機会あるんだろうか…神のみぞ知る。