Subcribe via RSS

debianでGanglia

2010/12/21 | Posted in linux

hadoopなどを使っていて複数ノードの状態をまとめてモニタリングしたい、みたいな時に使えるのがganglia らしい。


debianでインストールするのは、このサイトが参考になりそうです。

後輩にこのサイト見てやってみて、と頼んだらできてきたので、おそらく書いてある通りにやればできると思います。


その他参考になりそうなサイト
研究メモ – Ganglia




Tags: , ,

debianでHadoop(完全分散)メモ

| Posted in linux

debianでhadoopを動かしてみたときのメモ。
正直まだ全然分かってないので、間違ってるかもしれません。


debian5を5台用意してやりました。

サーバは結構古いやつ。
ソースから入れるかaptを使うか悩んでaptにしたけど、結局ソースをいじる必要があるのでaptはやめました。

master: 192.168.18.10
slave1: 192.168.18.11
slave2: 192.168.18.12


とする。


まずは6台とも共通の準備。


全部rootで実行してます。
なければsshなどをインストール。
# aptitude install openssh-server ssh rsync

sources.listを編集。(for jdk)
# vi /etc/apt/sources.list

変更
deb http://ftp.jp.debian.org/debian/ lenny main
 →   deb http://ftp.jp.debian.org/debian/ lenny main non-free



で,更新。
# aptitude update


Sun Java6 JDKのインストール。
# aptitude install sun-java6-jdk

以下はMasterで作業

masterにて,各ノードにパスワードなしでsshログインできるようにする。
keyの生成
# ssh-keygen -t dsa -P "" 
masterへ
# cat .ssh/id_dsa.pub >> .ssh/authorized_keys 

各ノードにもmasterのid_dsa.pub を authorized_keysに追加 (省略)

次に、Hadoopのパッケージをダウンロードする。

から、適当なmirrorを選んで、stableなやつをダウンロード。

(今回は0.20.2をダウンロードした。)
# wget http://ftp.riken.jp/net/apache//hadoop/core/stable/hadoop-0.20.2.tar.gz

/usr/local/下に置いて、解凍して、/usr/local/hadoop にリンクを作る
# cp hadoop-0.20.2.tar.gz /usr/local/
# cd /usr/local/
# tar zxf hadoop-0.20.2.tar.gz
# ln -s hadoop-0.20.2 hadoop
# cd hadoop

Hadoopの設定

次は設定。
各種設定ファイルを編集。


まずは conf/masters を編集。
masterのIPアドレスを書く。
192.168.18.1

conf/slaves
slaveのIPを1行に1つ書く。
192.168.18.2
192.168.18.3
....

core-site.xml
masterのIPを入れる。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://[master IP]:9000</value>  
  </property>

  <property>
     <name>hadoop.tmp.dir</name>
     <value>/var/lib/hadoop/cache/${user.name}</value>
  </property>

</configuration>

hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

  <property>
     <!-- specify this so that running 'hadoop namenode -format' formats the right dir -->
     <name>dfs.name.dir</name>
     <value>${hadoop.tmp.dir}/dfs/name</value>
  </property>

  <property>
    <name>dfs.data.dir</name>
    <value>${hadoop.tmp.dir}/dfs/data</value>
  </property>

  <property>
    <name>dfs.replication</name>
    <value>4</value>
  </property>

</configuration>


mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>[master IP]:9001</value>
  </property>

</configuration>


conf/hadoop-env.sh
でJAVA_HOMEを設定。
export JAVA_HOME=/usr/lib/jvm/java-6-sun


これでたぶん設定ができたので、slaveにパッケージをコピーして配置する。
# cd /usr/local/
# tar zcf myhadoop.tar.gz hadoop-0.20.2

省略(各スレーブにmyhadoop.tar.gzを送って、/usr/local/下に展開、
   /usr/local/hadoopにリンクを作る)

hadoopを動かす

※以下は自分ではやってないので、本当にあってるのか分かりません。


masterにて新規ファイルシステムをフォーマット。
# cd /usr/local/hadoop
# bin/hadoop namenode -format

Hadoop DFSの起動
# bin/start-dfs.sh

MapReduceの起動
# bin/start-mapred.sh

動いてるプロセスの確認
# jps

Hadoopデーモンの停止
# bin/stop-mapred.sh
# bin/stop-dfs.sh



参考にしたサイト




Tags: , ,

VLDB09報告会で聞いた話

2009/12/12 | Posted in db

先週のことですが,VLDB報告会というのに行ってみました.

最初は原先生のワイアレスセンサネットワークの紹介のお話.

残念だったのは,「キラーアプリケーションはどんなものがありますか?温度とか明るさとか取って何ができますか?」と聞かれて,現状ではキラーアプリケーションというものはなく,火災検知だとか侵入者検知に利用できる,というような答えだったこと.

次は川口先生の無線LAN情報や加速度情報を集めている話.いろいろデータを集めて,実際にサービスにつなげている点が面白かった.



あとはVLDB2009の話.

VLDB2009
論文
発表スライド(一部)
論文の紹介は VLDB2009勉強会であったので(参加してないから分からない)今回はキーノートやパネルディスカッションなど参加しなければ分からない部分の説明でした.

keynote1
Cloud Data Serving: key-value stores to DBMSs
Raghu Ramakrishnan


この人の他の会議でのkeynoteと資料を見ることができます.
- Data Serving in the cloud

http://www.bigredbits.com/?p=175


http://www.cs.cornell.edu/projects/ladis2009/program.htm#keynote1

- Cloud Computing at Yahoo

http://www.cse.iitb.ac.in/~comad/2008/keynoteSpeakers.html

上に挙げた他のkeynoteと同じ話ということで,その資料を見ればいいそうです.
たぶんyahooのクラウドとDBの話.

スライドのComparison MatrixというページがいろいろなDBの比較がまとまっていました.

聞いたことがある名前と思ったら,勉強のために読んでいるDB本の著者でした.

keynote2
Bringing Database Research to Computer Games and Simulations
Johannes Gehrke

コンピューターゲームにDBの技術を利用したらとてもよかったという話?
自分は興味がなかったのであまり聞いていなかったが,面白いkeynoteだったらしい.

パネルディスカッション
How Best to Build Web-Scale Data Managers?

ウェブのようなスケールが必要とされる分野において利用されるデータ管理技術が,これまでDB屋が研究してきたものではなく,他のところで発表されていることに対して,議論しましょう,という感じなのか.RDBMS vs MapReduce

以下適当に抽出.

・なぜDBを使わずKVS?スケールさせるためにはACIDを犠牲にするしかないのか

・Google規模,ではなくもっと小さい規模のtwitterのようなサービスの規模でもその規模でもDBがスケールしないのが問題

・webでDBが使われなくなってきており,RDBの問題を認めてなくてはならない.我々はRDB中毒.

・ACIDやトランザクションがいるかいらないか,は用途による.アプリケーションが負担する部分を増やしていくことでスケールするシステムが作れる

・パラレルDBは無限にスケールすべきだが,スケールしない

・SQLは分散を意識していない.だからSQLでなくてもいいのでは.REST的なAPIがあればいいんじゃないか

・やっぱりトランザクションはいるよ.データを問い合わせるのにMapReduce書かなきゃならないなんて面倒

などなど.面白かった.

HadoopDB

そのあと少し論文の紹介があったけど,自分が聞きたかったこれだけ紹介.

HadoopのスケーラビリティとパラレルDBのパフォーマンスのいいとこ取りをすれば,いいものができるはず!という感じ.
パラレルDBの方がパフォーマンスがいいというのはSIGMOD2009の A comparison of approaches to large-scale data analysisで発表されていて,同じ人たちがHadoopDBを作ってベンチマークしてみた,という発表.

スライドはDetailed Program | VLDB 2009にあるので,それを見ればなんとなく分かります.評価は微妙かも・・・という感じ.

その他メモ

Hive:HadoopのSQLラッパー
Vertica: カラムストアのクラウドエディション?
MonetDB: カラムストアDB.10年前のVLDBで発表されて,今回10-year Award(10年前に発表されて,その後影響を与えた論文)に選ばれた.

大島さんの発表は面白く聞けてよかったです.




Tags: , ,
  • 書いてる人:

    Junichiro Takagi
    高木潤一郎

    http://tjun.jp
    mail@tjun.jp

    未踏でクリエータやってました。メーカーでエンジニアやってます。
    このブログは、会社とは関係なく個人の意見を書いています。

    RSS:


  • friendfeed: