ホーム > タグ > 故障
故障
経験がモノをいうケース – ハードウェア障害
ハードウェアがぶっこわれました。
そんなワケで、大体環境構築のため、通常より2時間早く出社です。
めちゃくちゃ早いワケではないけど、このたった2時間の違いがもうホントマジやめてください的に眠い。習慣というのは大事だね。

ハードウェア系の故障は厄介です。こういう機械って、わりとアナログな壊れ方しますよね。「使えるか使えないか」ではなくて、中途半端になんとかエラー訂正だとか再試行だとかを行ってくれるお蔭で、正常じゃないのになんとかギリギリ機能したりすると、「なんか調子わるい気がするな…」程度の問題しか起きなかったりします。んで、それに気づけないと、ある日突然システム全体を巻き込んで止まったりして。
そもそもPCとかもエラーって結構頻繁に起こってますしね、実は。「デジタルだから劣化しない!」という話がありますが、実際はデジタルでもエラーなんかでデータが壊れることはままあります。だから、CDやCD-ROMなどはエラー訂正で多少の傷があっても読み取れるようになっていたりするし、通信技術なんかはことごとく、パリティやハッシュ値といった冗長なデータをくっつけて(まあ、検算用の数値だと思ってください)、エラーがあっても正しいデータに訂正できる仕組みがあります。
あとメモリもサーバー用はECCというのがついてますが、コレも上と似たようなモノで、エラーが発生しても修復できるようにする機能です。実際にエラーが発生する頻度は、フル稼働していても1年あたり1ビット程度だそうですが、それでも正確さが求められるサーバー機では、わざわざECC付きの高いメモリを使ったりするワケですね。PC用では逆にコストが上がりすぎるため、ECCなしのメモリが使われています。
他にも、メモリは結構初期不良があるものも少なくないのですが、動作するからOKではなくて、動作してるのに何かエラーがやたら出たりする。メモリテストしてみたら異常メモリだった…なんてこともあるので注意が必要です。自作erはmemtestというメモリテストプログラムで、読み書きに異常がないかを調べる人が多いですね。
話が逸れましたが、サーバー1台だけでなくネットワークも絡んだ複雑なシステムになってくると、原因を絞り込むのが結構大変だったりします。プログラム・サーバー(OS)・サーバー(ハード)・ネットワーク・外部ネットワークのどこが原因かわからないワケですから…。そういう意味では、知識だけじゃなく経験も重要な職種だなーと思います。
個人的に、今まで兆候を感じて実際に故障した経験があるのは以下。PCで経験したものも多く含みます。
- HDDのIOが遅い(数回)。SMARTがエラーを検出するギリギリ水準以下のレベルでエラーが頻発してたので、正常稼働しているように(表示上は)見えた
- CD-ROMドライブ系で、OSインストールなどが失敗しまくったり、焼きミスが頻発(2回)。レーザー部の劣化が原因。ただ、しばらくリトライしているとレーザーが温まって成功率が高まったりするので、何度か試しているうちに「あ、大丈夫だった」と見逃してしまう危険性がある
- ルータ異常で内外の通信がやけに遅い(何度か)。トラフィックが増えると起こりがち
- 電源が時々落ちる(2,3回)。電源ユニットが安物だったり劣化してると起こる。自作ではケチりがちな部分だが、案外故障の原因になるので1万程度はかけたほうがいい
わりと、PC自作なんかで個人的に経験したものは、仕事でも時々役に立ったりしますね。
- Comments: 0
- Trackbacks: 0
環境とサーバーの寿命と電源と
先日仕事でデータセンターに行ってきました。内容は当然秘密なのですが、やはりサーバーにとっては相当安定した環境だなぁーといったところです。
さて、サーバーで特に壊れやすいところはどこでしょうか。基本的に物理的に動く部分は当然劣化してくるので、HDDなんかはすぐに思いつくところですし、故障時の原因特定も容易です。冷却ファンなんかも最近はBIOSレベルで監視できますし…。
しかし、これらと同じくらいか、環境によってはそれ以上に、意外と壊れてくれるのが電源ユニットです。HDDやファンならいざ知らず、電源ユニットのスペアを用意している人は少ないんじゃないかなぁ。長い間サーバーを管理している人によりますと、電源ユニットの寿命は3年~長くて5年程度だとか。
PCサーバーの人に特に気をつけて欲しいのは、PCの電源はサーバーのような長時間稼動を想定して作られていなかったり、安いモデルだと一番に安物をつけられちゃったりする部分だということ。電源の性能なんて普段使ってる分には分かりませんしね。業務用のサーバー機だと、電源ユニットを二重化するなどといったケースもありますが、家で持てるサーバーには限界がありますし…。それに、あまりに安い電源ユニットだと火災なんかのリスクもどうなんだろう?と思ってしまうところ。HDDなどもそうですが、PCサーバーの方は電源ユニットもサーバー用のものを使われることをお勧めします。
- – - – - – - -
で、データセンターなどは電源設備が専用のものになっているので、安定した電源が供給されるのですが、家庭用電源ではどうしても、他の電気製品をつけたときの瞬間的な電圧低下とか、落雷とか、色々な要因で不安定になるのは避けられません。通常家庭用電源は100Vですが、実はこれらの要因で90Vくらいになったりということも多々あるようです。
これが直撃する電源ユニットに悪いのは当然なのですが、マシン全体にも悪影響を与えます。熱と電源はマシンの寿命を大きく左右しちゃうんですよね。単なる経年劣化以外の原因で、HDDなどの寿命が縮んでしまったりします。
ということで導入したいなーと思っているのが、最近は企業のPCなんかでも停電時用に設置されているUPS(無停電電源装置)。APCのものでも最安なら8千円以下で購入できます。もちろん、安いものは商用電源←→バッテリー切り替え時に電圧低下が生じたり、駆動方式にもタイプがあって、通常は商用電源をそのまま流すようなものだと安定した電源が供給されなかったりするのですが…。かといって、高価が目に見えないのに高価なものを買うのはちょっと、それならサーバー変えたほうが、とか思っちゃって買えないんですよね、なかなか。UPSのバッテリーも寿命はありますし…。
- Comments: 0
- Trackbacks: 0
Home > Tags > 故障
