2006年02月18日

■ 障害報告
内容:サーバーのディスク障害及び閲覧障害
時間:2006年2月16日12:30頃 〜
対象:Seesaaブログ、Seesaaショッピングでホスト名の頭文字が「M」から「Z」までのブログになります。

というわけで、一昨日このサイトで使ってるseesaa Blogが落ちてました。
ぶっちゃけ、中の人と面識があったりするので、お疲れ様です、てな感じで。
昨日もファイルサーバ障害で再起動したとか書いてあるし、タイミングというか、間が悪いですな。

で、この障害で興味深いのは、当初はM〜Zで始まるユーザのみのディスク障害であったこと。
閲覧障害もあったとのことなので、おそらくここはNFSになってる部分。0〜9,A〜N/M〜Zの2系統なんですかね?
で、ユーザの頭文字でディレクトリ作ってマウントポイントを変えて、さらに収容ディスク(RAID)を変えてフロントのWEBサーバからアクセスさせてるんでしょうな。確かにこうすれば性能や容量に問題があるとき対応しやすいかも。NFSの性能が足りなくなるってのはよくある話なので。

微妙なのはいきなり閲覧不可になったっぽい点。例えばNFSサーバのディスクがRAID5だったなら、ちょい前のエントリでも書いたけど、1本の死亡でread完全死亡にはならず、性能障害になるはず。
というわけで、実は2本(ホットスペアがあったなら3本かもね)死亡してしまっていた、と勝手に想像。(同タイミングにでは2本故障ではなくてね)
あー、でも静的コンテンツだけがNFSに入ってる可能性が高いから、もしかするとほとんど冗長性のない構成だったのかも。静的コンテンツはblogの仕組み上、DBのデータさえ生きていれば復元できるから。(画像データはどうかわからんが)

で、システム構築する上で、この手のハードウェア的な障害をOS側から見つけるのって案外難しい。ハードウェアRAIDとかだと、ある程度の障害はOSから通常わからないことが多いから。
LEDはそりゃ大抵箱についてますが、普通データセンタにあるので見れない。
ディスク装置自体に障害通知の仕組みがあるのはそこそこ値の張るものになっちゃう。
もちろんディスク自体になくても、OS上にユーティリティやWatchDogが提供されていることも多いけど、それって大抵syslogにエラー吐くだけ。
そうするとログ監視とかをしないといけなくて、それって案外イヤなんですよね。
色々とにかくメールで投げつけるのも、S/N比が悪くなって重要な事項が雑多な中に埋もれたりするし。
このあたりを考えると、SIerとしては管理性と性能がある程度commitされているアプライアンス系の製品を使いたいと思ってしまうですなー。

というわけで、金がいくらでもあるなら簡単ですが、人手のない中24h365dのシステムを安価でやろうとするとなかなか難しいよね、という話。
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック

ディスク障害
Excerpt: ここ16日にここのブログのサーバのディスク障害で、閲覧ができない状態が続いてました。 今週末もメンテナンスの為、しばらく使用できないません。。。。 ------------ ■ 作業期間 第一回メン..
Weblog: 第2コーナー走行中
Tracked: 2006-02-18 08:27
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。