Home > デジモノ | ネットワーク | 自作PC > 経験がモノをいうケース – ハードウェア障害

経験がモノをいうケース – ハードウェア障害

ハードウェアがぶっこわれました。

そんなワケで、大体環境構築のため、通常より2時間早く出社です。
めちゃくちゃ早いワケではないけど、このたった2時間の違いがもうホントマジやめてください的に眠い。習慣というのは大事だね。

today

ハードウェア系の故障は厄介です。こういう機械って、わりとアナログな壊れ方しますよね。「使えるか使えないか」ではなくて、中途半端になんとかエラー訂正だとか再試行だとかを行ってくれるお蔭で、正常じゃないのになんとかギリギリ機能したりすると、「なんか調子わるい気がするな…」程度の問題しか起きなかったりします。んで、それに気づけないと、ある日突然システム全体を巻き込んで止まったりして。

そもそもPCとかもエラーって結構頻繁に起こってますしね、実は。「デジタルだから劣化しない!」という話がありますが、実際はデジタルでもエラーなんかでデータが壊れることはままあります。だから、CDやCD-ROMなどはエラー訂正で多少の傷があっても読み取れるようになっていたりするし、通信技術なんかはことごとく、パリティやハッシュ値といった冗長なデータをくっつけて(まあ、検算用の数値だと思ってください)、エラーがあっても正しいデータに訂正できる仕組みがあります。
あとメモリもサーバー用はECCというのがついてますが、コレも上と似たようなモノで、エラーが発生しても修復できるようにする機能です。実際にエラーが発生する頻度は、フル稼働していても1年あたり1ビット程度だそうですが、それでも正確さが求められるサーバー機では、わざわざECC付きの高いメモリを使ったりするワケですね。PC用では逆にコストが上がりすぎるため、ECCなしのメモリが使われています。

他にも、メモリは結構初期不良があるものも少なくないのですが、動作するからOKではなくて、動作してるのに何かエラーがやたら出たりする。メモリテストしてみたら異常メモリだった…なんてこともあるので注意が必要です。自作erはmemtestというメモリテストプログラムで、読み書きに異常がないかを調べる人が多いですね。

話が逸れましたが、サーバー1台だけでなくネットワークも絡んだ複雑なシステムになってくると、原因を絞り込むのが結構大変だったりします。プログラム・サーバー(OS)・サーバー(ハード)・ネットワーク・外部ネットワークのどこが原因かわからないワケですから…。そういう意味では、知識だけじゃなく経験も重要な職種だなーと思います。

個人的に、今まで兆候を感じて実際に故障した経験があるのは以下。PCで経験したものも多く含みます。

  • HDDのIOが遅い(数回)。SMARTがエラーを検出するギリギリ水準以下のレベルでエラーが頻発してたので、正常稼働しているように(表示上は)見えた
  • CD-ROMドライブ系で、OSインストールなどが失敗しまくったり、焼きミスが頻発(2回)。レーザー部の劣化が原因。ただ、しばらくリトライしているとレーザーが温まって成功率が高まったりするので、何度か試しているうちに「あ、大丈夫だった」と見逃してしまう危険性がある
  • ルータ異常で内外の通信がやけに遅い(何度か)。トラフィックが増えると起こりがち
  • 電源が時々落ちる(2,3回)。電源ユニットが安物だったり劣化してると起こる。自作ではケチりがちな部分だが、案外故障の原因になるので1万程度はかけたほうがいい

わりと、PC自作なんかで個人的に経験したものは、仕事でも時々役に立ったりしますね。

人気ブログランキング

Comments:0

Comment Form
Remember personal info

Trackbacks:0

Trackback URL for this entry
http://s-srv.net/archives/313/trackback
Listed below are links to weblogs that reference
経験がモノをいうケース – ハードウェア障害 from 缶詰ファクトリー - さばかん 自宅サーバーBlog

Home > デジモノ | ネットワーク | 自作PC > 経験がモノをいうケース – ハードウェア障害

Search
Link
Feeds
Meta

Return to page top