Subcribe via RSS

googleの講演聞いた

2010/7/4 | category: cloud, Diary | tags: ,
このエントリーをはてなブックマークに追加

大学で講演があったので、聞きに行ってみた。google_tech_talk

2010/07/02

“Practical and Simple Parallel Computation in the Cloud”

by Grzegorz Malewicz

内容は、まあタイトルの通りで、大量のデータにどう向かっていくか、という話。
基本的なところから話すので、知ってる内容も結構あった。Big tableとかMapReduceとかPageRankとか。あとはParallel computingの基本的な話とか。

よく分からなかったのが、
の話。英語力が足りなかったのかもしれない。
これを使うとPageRankの実装が15行でできるらしい。

まあまとめると、googleのアプローチとしては、
不安定なperformanceや failure は起きるものなので、それを考慮して設計。

scalable reliable software on unreliable hardware

これに尽きる。

あと面白かったのがベンチマークの話で、

1PBのデータ(10^13のレコード、それぞれが100bytes)を
- 4000台のマルチコアのマシン
- 48,000のハードドライブ
でソートするのに6h 2m

ベンチマークに使うデータが1PBっていうサイズなのはさすがです。

あとは質疑応答
  • map reduceにcast できない問題はあるのか?
  • 少し手を加えれば、多くの問題はcastできる。新たなモデルも考えている。
  • street viewなどでも同じデータストレージシステムを使っている?
  • 分からないが、たぶん違う。
    big tableはデータの変換などを行うことに特化したデータ構造で、street viewなどのように書き込んだらあとは参照するだけの情報の場合、違うデータアーキテクチャがベターだろう。
  • 処理が多少速くなっても、結局ネットワークがボトルネックになるのでは?
  • データをいかに集めておくかが重要で、またネットワークトポロジーなども工夫している。
  • pregelは利用可能な実装はある?
  • オープンソースで現在の実装はない。論文に説明がある。
合ってるか分かりません。

あとGoogleは飯がうまくて優秀な仲間がいていい環境だよ、と宣伝してました。

関連する記事:

この記事をシェアする:


Leave a Reply

コメントリンクを nofollow free に設定することも出来ます。

  • 書いてる人:

    Junichiro Takagi
    高木潤一郎

    http://tjun.jp
    mail@tjun.jp

    未踏でクリエータやってました。メーカーでエンジニアやってます。
    このブログは、会社とは関係なく個人の意見を書いています。

    RSS:


  • friendfeed: