刊行記念系の勉強会 | Advent Calendar 2015
IT系の勉強会行ってきた Advent Calendar 2015 - Adventar の16日目!
参考書は買ってあるけど積み本化してるやーつ…。
「初めてのSpark」刊行記念 Spark Meetup 2015
「初めてのSpark」刊行のご挨拶
- BigQueryとかHadoopとかHiveとかたくさん翻訳
- AdvancedのSpark本もそのうち出したい
- 入門にはいいと思う(運用や事例、SparkRやGraphXの話は入ってない)
Spark活用事例とロードマップ(仮)
- Clouderaの考えるデータ処理は、Spark / Impala / Solr / MapReduce の4つの柱
- ClouderaとしてはMahoutではなくMLlibに力を入れていく
- parkSQLはかなりいい感じになってきてる らしい
- 米国の4つの銀行が不正検知にSparkを使っている
Sparkコミュニティに飛び込もう!
- コミュニティと双方向に関わろう
新しい機能追加されてもドキュメント追加や修正が間に合わない
バグ修正や新機能開発だけではない - 秘蔵のパッチを適用し続けるとバージョン依存や色んな問題を生む
- WebUIのアップデートがあった
初めてのSparkStreaming 〜Kafka+SparkStreamingの紹介〜
- Spark Streaming → 形態素解析 → 商品検索 by Solr → トレンド抽出 by Spark MLLib
- 5秒後ごとに集計データを垂れ流している
- Spark Streamingは、KafkaとAWS Kinesisが代表的なデータソース
Spark、AMPLab、および周辺のビッグデータ基盤
- BDASの紹介:Berkeley Data Analytics Stack
- Spark Streaming、Velox、Splash をつなぐのが RDD / DataFrames
- 南米のカメラに画像認識で2人乗りバイクを検知するシステムで犯罪防止に貢献
MLlib, mahoutの協調フィルタの比較
- アイテムベースは1/5くらいなので分析うれしい
- ALSは1/32に!鬼早い!
知らない単語多すぎてtypoとかありそうで怖いメモ…。
本読んで触らないとなぁ…。
理論から学ぶデータベース実践入門Night
- なぜ今なのか
→仕事柄、酷いクエリをたくさん見ることが出来た
→クソクエリが溢れてて何かがおかしい
→枯れてる故に情報少ないのではないか - 本の解説でリレーショナルモデルにノータッチでSQLの解説は何かおかしい気がする
- 本で伝えたいこと
→リレーショナルモデルの重要性、本当の姿、使い方、限界、知識
道具には道具に合った使い方や使い道がある。性質をわからずに使い道はわからない - データモデルとは
データの論理的な表現方法、物理ではない - データモデルという言葉が2つの意味を持ってる。データの論理的な表現とデータ設計
- データベースはデータモデルを意識して作られている
データモデルにはそれぞれに適したDB設計がある - 異なるデータモデルの製品を組み合わせることも考える
- リレーショナルモデルは変わらない。今後も残り続けるので学んで損はないはず
DBの本はSQLアンチパターンが少し記憶に残ってる程度で辛い…。
もっと本を読む時間を…ぐふっ…。