あるふぁべっとがおおすぎる

ITネタとか勉強会とか色々

Google Cloud Next Extended 2019 BigData Day 行ってきた | Advent Calendar 2019

IT系の勉強会行ってきた Advent Calendar 2019 - Adventar の10日目

GCPお得意のビッグデータ関連のお話。

 

Session by satoru_nakamura

  • AutoML Tables
    BQから直接データを持ってこれるので、データ用意するだけでOK
    相関関係とか見れたりモデルの組み合わせを自動でやってくれる
    処理が終わったらメール来る
  • DataFusion
    データソースを結合したりインポート出来る。なんとExcelにも対応
  • BQML Tensorflow models for Prediction
    GCS上に保存されてるTensorflowのモデルを読み込める
  • BI Engine
    BQでよく使われるデータをメモリに乗せて早くなる。DataStudioが対応
  • BQML k-means:クエリだけでいい感じにクラスタリング
  • BigQuery
    Flat-rate:500slotから契約可能
    Clusterd Table:日付ごとにテーブルを分けるのに加えて分割
    →Keyを指定することで分割し高速化

 

Session by orfeon

  • Dataflowの新機能
    Streaming Engine:Workerのオートスケール
    Dataflow FlexRS:遅延スケジュールで良いのを安く動かせる
    Dataflow SQLSQLでストリーミングも扱える
    Apache Beam SQL:ストリーミングデータもSQLだけでニアリアルタイムにクエリ抽出・加工が可能に
  • Tensorflow Extended:機械学習モデリング以外の周辺機能をサポートするコンポーネント
    Dataflowとの連携が強化
  • Portability Framework
    SDK言語とパイプライン制御/UDF実行環境を分離するフレームワーク
    →Connectorが充実してるJavaのIOをPythonで使える(性能はまだ微妙)

 

GCPの各サービス群の連携が強化されてきてて、エンタープライズだったり、大量データを扱ってる会社は強みが発揮できそう。