RCO Study Night #3 - Spark・Scala勉強会 | Advent Calendar 2015
IT系の勉強会行ってきた Advent Calendar 2015 - Adventar の21日目!
職場から近いのでふらふらーっと参加
日常消費領域(飲食・美容・旅行・EC…)の全サービス横断でのリアルタイムログ収集・分析基盤を構築している話
- 各サービスごとにFluentdを入れてログを集約するシステムを構築
- AWSとGCPを組み合わせて構築
- クラウドサービスの比較
GCP:ネットワークの制限が無い。安定性がイマイチな部分がある
AWS:ネットワークで詰まる - SparkStreaming + Cloud Pub/Subの公式サンプルが実用的でない
DSP開発におけるSpark MLlibの活用
- 広告アイテムの推薦、アイテムベースの協調フィルタリングの解説
- DIMSUM:類似商品の高速な近似値
- word2vec:単語の特徴量ベクトル
- Splash:分散word2vecのライブラリ。使いやすい
R使いがSparkを使ったら
Rを知ってる前提で色々話してくれたけど、前提知識が足りなすぎてほとんどわからんかった!
- dplyr最高!
- ドキュメントが揃ってなくて探しにくい以外はそんなに違いない
最近の新卒の方はすごいですね。
統計の話とかRの話とか全体の3割くらいしか理解できませんでした…。
大学で統計やってR使ってデータいじったりするのは実践的で良いなー。