あるふぁべっとがおおすぎる

ITネタとか勉強会とか色々

刊行記念系の勉強会 | Advent Calendar 2015

IT系の勉強会行ってきた Advent Calendar 2015 - Adventar の16日目!

参考書は買ってあるけど積み本化してるやーつ…。

「初めてのSpark」刊行記念 Spark Meetup 2015

cloudera.connpass.com

「初めてのSpark」刊行のご挨拶

  • BigQueryとかHadoopとかHiveとかたくさん翻訳
  • AdvancedのSpark本もそのうち出したい
  • 入門にはいいと思う(運用や事例、SparkRやGraphXの話は入ってない)

Spark活用事例とロードマップ(仮)

  • Clouderaの考えるデータ処理は、Spark / Impala / Solr / MapReduce の4つの柱
  • ClouderaとしてはMahoutではなくMLlibに力を入れていく
  • parkSQLはかなりいい感じになってきてる らしい
  • 米国の4つの銀行が不正検知にSparkを使っている

Sparkコミュニティに飛び込もう!

  • コミュニティと双方向に関わろう
    新しい機能追加されてもドキュメント追加や修正が間に合わない
    バグ修正や新機能開発だけではない
  • 秘蔵のパッチを適用し続けるとバージョン依存や色んな問題を生む
  • WebUIのアップデートがあった

初めてのSparkStreaming 〜Kafka+SparkStreamingの紹介〜

  • Spark Streaming → 形態素解析 → 商品検索 by Solr → トレンド抽出 by Spark MLLib
  • 5秒後ごとに集計データを垂れ流している
  • Spark Streamingは、KafkaとAWS Kinesisが代表的なデータソース

Spark、AMPLab、および周辺のビッグデータ基盤

  • BDASの紹介:Berkeley Data Analytics Stack
  • Spark Streaming、Velox、Splash をつなぐのが RDD / DataFrames
  • 南米のカメラに画像認識で2人乗りバイクを検知するシステムで犯罪防止に貢献

MLlib, mahoutの協調フィルタの比較

  • アイテムベースは1/5くらいなので分析うれしい
  • ALSは1/32に!鬼早い!

 

知らない単語多すぎてtypoとかありそうで怖いメモ…。
本読んで触らないとなぁ…。

 

理論から学ぶデータベース実践入門Night

connpass.com

  • なぜ今なのか
    →仕事柄、酷いクエリをたくさん見ることが出来た
    →クソクエリが溢れてて何かがおかしい
    →枯れてる故に情報少ないのではないか
  • 本の解説でリレーショナルモデルにノータッチでSQLの解説は何かおかしい気がする
  • 本で伝えたいこと
    →リレーショナルモデルの重要性、本当の姿、使い方、限界、知識
    道具には道具に合った使い方や使い道がある。性質をわからずに使い道はわからない
  • データモデルとは
    データの論理的な表現方法、物理ではない
  • データモデルという言葉が2つの意味を持ってる。データの論理的な表現とデータ設計
  • データベースはデータモデルを意識して作られている
    データモデルにはそれぞれに適したDB設計がある
  • 異なるデータモデルの製品を組み合わせることも考える
  • リレーショナルモデルは変わらない。今後も残り続けるので学んで損はないはず

 

DBの本はSQLアンチパターンが少し記憶に残ってる程度で辛い…。

もっと本を読む時間を…ぐふっ…。