JJUG ナイト・セミナー「機械学習・自然言語処理特集!」 行ってきた
「勉強会行ってきた Advent Calendar 2014 - Adventar」の25日目
無事に25日連続でブログ更新できたので満足!!
【東京】JJUG ナイト・セミナー「機械学習・自然言語処理特集!」12/17(水)開催 - 日本Javaユーザーグループ | Doorkeeper
機械学習とか全然やったこと無いので雰囲気くらいしか理解出来ませんでした。
その分楽しかったけども。
イントロダクション
- 槙さんの今年のJJUG振り返り。
Java でカジュアルにはじめる機械学習 ad tech & Java enginier
- 機械学習
経験(データ)によって賢くなるアルゴリズムの研究
学習データをアルゴリズムに食わせて、分類のモデルを構築しタスクをこなす - 教師あり学習:正解あり。教師なし学習:正解がないもの
- チューニングがメインと言っても過言ではない
- PythonやR使った方が楽なんじゃ…
- MLlibが流行気味。Mahoutはオワコン気味
- 入門やJavaでやるならWekaやh2oをおすすめしてた
- UCI Machine Learning Repository っていうところにサンプルデータたくさんあるよ
Spark/MLlibではじめるスケーラブルな機械学習
機械学習の簡単な歴史
- 大量データがあるとモデルの精度が高まるが容量、IO、時間が増える
➡Hadoop登場 - 反復学習で精度を高められる
- Mahoutだと反復のlatencyが問題
➡Spark/MLlib登場 - 新しい技術がアレコレ出てきて機械学習の進化のスピードが上がってる
Luceneと日本語の検索
- Hadoopの生みの親の人が元を作った
- 転置インデックス:単語をベースにインデックスを作成する
- 英語は単語区切るの簡単なので機械学習の敷居が若干低い
日本語は形態素解析やN-Gramを使用する必要がある - Elasticsearch使えばJavaのコード書かなくても簡単に検索できるよ!
SparkはScalaの方でも普通に使われてる事例多いし触りたいデース。
Dockerも触りたいしVagrantも触りたいRaspberry PiもOS起動程度で終わってるしあれもこれも触りたい。
今年はcocos2d-xやUnityやAndroid等にほとんど参加してなかった。
まあ、業務で全然使用する予定の無いものを勉強しても活用するタイミングが少ないので、モチベーションが上がりにくいという話もある。
最近数年は毎年30個以上勉強会行ってるけど新しいものが常に出てきてるのを感じる。レガシーなところで5年間くらいずっとレガシーなことやっていたら、ついて行けなくなりそう。