googleの講演聞いた
大学で講演があったので、聞きに行ってみた。
2010/07/02
“Practical and Simple Parallel Computation in the Cloud”
by Grzegorz Malewicz内容は、まあタイトルの通りで、大量のデータにどう向かっていくか、という話。
基本的なところから話すので、知ってる内容も結構あった。Big tableとかMapReduceとかPageRankとか。あとはParallel computingの基本的な話とか。
よく分からなかったのが、
- pregel: model of graph computation Official Google Research Blog: Large-scale graph computing at Google
これを使うとPageRankの実装が15行でできるらしい。
まあまとめると、googleのアプローチとしては、
不安定なperformanceや failure は起きるものなので、それを考慮して設計。
scalable reliable software on unreliable hardware
これに尽きる。あと面白かったのがベンチマークの話で、
1PBのデータ(10^13のレコード、それぞれが100bytes)を
- 4000台のマルチコアのマシン
- 48,000のハードドライブ
でソートするのに6h 2m
ベンチマークに使うデータが1PBっていうサイズなのはさすがです。
あとは質疑応答
- map reduceにcast できない問題はあるのか? 少し手を加えれば、多くの問題はcastできる。新たなモデルも考えている。
- street viewなどでも同じデータストレージシステムを使っている? 分からないが、たぶん違う。
- 処理が多少速くなっても、結局ネットワークがボトルネックになるのでは? データをいかに集めておくかが重要で、またネットワークトポロジーなども工夫している。
- pregelは利用可能な実装はある? オープンソースで現在の実装はない。論文に説明がある。
big tableはデータの変換などを行うことに特化したデータ構造で、street viewなどのように書き込んだらあとは参照するだけの情報の場合、違うデータアーキテクチャがベターだろう。
あとGoogleは飯がうまくて優秀な仲間がいていい環境だよ、と宣伝してました。
Tags: cloud, Diary