あるふぁべっとがおおすぎる

ITネタとか勉強会とか色々

刊行記念系の勉強会｜ Advent Calendar 2015

その他勉強会

IT系の勉強会行ってきた Advent Calendar 2015 - Adventar の16日目！

参考書は買ってあるけど積み本化してるやーつ…。

「初めてのSpark」刊行記念 Spark Meetup 2015

cloudera.connpass.com

「初めてのSpark」刊行のご挨拶

BigQueryとかHadoopとかHiveとかたくさん翻訳
AdvancedのSpark本もそのうち出したい
入門にはいいと思う（運用や事例、SparkRやGraphXの話は入ってない）

Spark活用事例とロードマップ(仮)

Clouderaの考えるデータ処理は、Spark / Impala / Solr / MapReduce の4つの柱
ClouderaとしてはMahoutではなくMLlibに力を入れていく
parkSQLはかなりいい感じになってきてるらしい
米国の4つの銀行が不正検知にSparkを使っている

Sparkコミュニティに飛び込もう!

コミュニティと双方向に関わろう
新しい機能追加されてもドキュメント追加や修正が間に合わない
バグ修正や新機能開発だけではない
秘蔵のパッチを適用し続けるとバージョン依存や色んな問題を生む
WebUIのアップデートがあった

初めてのSparkStreaming 〜Kafka+SparkStreamingの紹介〜

Spark Streaming → 形態素解析 → 商品検索 by Solr → トレンド抽出 by Spark MLLib
5秒後ごとに集計データを垂れ流している
Spark Streamingは、KafkaとAWS Kinesisが代表的なデータソース

Spark、AMPLab、および周辺のビッグデータ基盤

BDASの紹介：Berkeley Data Analytics Stack
Spark Streaming、Velox、Splash をつなぐのが RDD / DataFrames
南米のカメラに画像認識で2人乗りバイクを検知するシステムで犯罪防止に貢献

MLlib, mahoutの協調フィルタの比較

アイテムベースは1/5くらいなので分析うれしい
ALSは1/32に！鬼早い！

知らない単語多すぎてtypoとかありそうで怖いメモ…。
本読んで触らないとなぁ…。

理論から学ぶデータベース実践入門Night

なぜ今なのか
→仕事柄、酷いクエリをたくさん見ることが出来た
→クソクエリが溢れてて何かがおかしい
→枯れてる故に情報少ないのではないか
本の解説でリレーショナルモデルにノータッチでSQLの解説は何かおかしい気がする
本で伝えたいこと
→リレーショナルモデルの重要性、本当の姿、使い方、限界、知識
道具には道具に合った使い方や使い道がある。性質をわからずに使い道はわからない
データモデルとは
データの論理的な表現方法、物理ではない
データモデルという言葉が2つの意味を持ってる。データの論理的な表現とデータ設計
データベースはデータモデルを意識して作られている
データモデルにはそれぞれに適したDB設計がある
異なるデータモデルの製品を組み合わせることも考える
リレーショナルモデルは変わらない。今後も残り続けるので学んで損はないはず

DBの本はSQL アンチパターンが少し記憶に残ってる程度で辛い…。

もっと本を読む時間を…ぐふっ…。