あるふぁべっとがおおすぎる

ITネタとか勉強会とか色々

RCO Study Night #3 - Spark・Scala勉強会 | Advent Calendar 2015

IT系の勉強会行ってきた Advent Calendar 2015 - Adventar の21日目!

職場から近いのでふらふらーっと参加

atnd.org

日常消費領域(飲食・美容・旅行・EC…)の全サービス横断でのリアルタイムログ収集・分析基盤を構築している話

  • 各サービスごとにFluentdを入れてログを集約するシステムを構築
  • AWSGCPを組み合わせて構築
  • クラウドサービスの比較
    GCP:ネットワークの制限が無い。安定性がイマイチな部分がある
    AWS:ネットワークで詰まる
  • SparkStreaming + Cloud Pub/Subの公式サンプルが実用的でない

DSP開発におけるSpark MLlibの活用

  • 広告アイテムの推薦、アイテムベースの協調フィルタリングの解説
  • DIMSUM:類似商品の高速な近似値
  • word2vec:単語の特徴量ベクトル
  • Splash:分散word2vecのライブラリ。使いやすい

R使いがSparkを使ったら

Rを知ってる前提で色々話してくれたけど、前提知識が足りなすぎてほとんどわからんかった!

  • dplyr最高!
  • ドキュメントが揃ってなくて探しにくい以外はそんなに違いない

 

最近の新卒の方はすごいですね。
統計の話とかRの話とか全体の3割くらいしか理解できませんでした…。

大学で統計やってR使ってデータいじったりするのは実践的で良いなー。