「RASM」とは、データ処理システム、機械システム、またはその他の物理システムの4つの関連特性、Reliability (信頼性)、Availability (可用性)、Serviceability (保守性)、Manageability (管理性) の頭文字をとったものです。初期のコンピュータ業界で、製品の堅牢性を表すのに、「RAS」 (Reliability (信頼性)、Availability (可用性)、Serviceability (保守性)) という頭字語を初めて使用した企業の1つが、IBM社であると一般的に考えられています1。「Manageability (管理性)」の「M」は、信頼性、可用性、保守性を多角的に促進することでシステムの堅牢性を支援する役割があるとして、最近追加されました。RASM機能は、テスト、計測、制御、実験およびそれらに関連するビジネス目標に大きく貢献します。
稼働の継続性
一般にRASMとは、システムの堅牢性、つまり目的とする機能をどの程度実行できるかを表す言葉です。そのため、システムのRASM特性は、システムが導入されるアプリケーションの品質を決める重要な要素です。そしてそれは技術面およびビジネス面に大きな影響を及ぼします。例えばRASM機能により、予防保全や交換の時期を決定しやすくなります。そして、システムの機能停止を突然の予期せぬものから計画的で管理可能なものへと効果的に転換することができるため、より円滑な修理保守の提供やビジネスの継続性、可用性の向上が図れます。
稼働の効率
ある目的に使用されるシステムの数が増えると、保有資産や設置場所、状態を把握するだけでも、企業や組織の効率に直接的に影響を及ぼします。さらに、システムが多い場合は、エラーを起こさず正しい手順でアップデートや保守を実行するのが難しくなってきています。例えばシステムがトンネル内や構造物の高い場所など遠隔地にある場合は、システムにアクセスするだけでも労力とコストがかかり、ビジネスにもマイナス影響となります。システムのRASMが優れているということは、そのような状況でも優れた効率性を発揮し、所有とシステム運用のコストが低く抑えられることを意味します。
図1に示すように、RASMの4つのコンポーネントは相互に関連し、重複もしています。
計測/コンピュータシステムにおける信頼性とは、特定の環境で一定の期間中に、システムが故障することなく期待通りに動作する確率を示すものです。つまり、信頼性は時間とともに変化し、以前の時点 (t) でシステムが動作していたとして、将来のある時点 (t+1) においてシステムが正しく動作している確率を表します。ややくだけた言い方をすれば、「信頼性とは壊れないこと」です。
可用性とは、たとえシステムが一部故障中であっても、目的とする機能を実行できる確率を示すものです。また、システムの一部の機能が故障していても、残りの機能が稼働している度合いを表すこともあります。そのためシステムは使用できても、信頼性があるとは限りません。システムの特定の機能が故障し、稼働中に修正されて目的とする機能が復旧した場合、システムは完全に可用状態にあったが信頼性は完全ではないと言えます。
平均故障間隔 (MTBF) とは、リスク管理、信頼性や可用性の予測、システムの予備部品の計画に共通する計測パラメータです。
図1:RASMの相互関連要素
保守性とは、故障したシステムの診断と修理のしやすさとスピードの基準およびそれをサポートする一連の機能を示すものです。保守性の計測に関連する主なパラメータは、平均復旧時間 (MTTR) です。簡単な修理 (低 MTTR) によりシステムが復旧すればシステムの可用性が向上するため、MTTRは可用性にも直接的に影響します。
管理性とは、システムの構成、制御、監視のしやすさ、応答速度、能力をサポートする基準および一連の機能を示すものです。IT業界では一般に「システム管理」と呼ばれ、いくつかのタスクが含まれます。システム管理機能には、インバンドとアウトバンドという、根本的に異なる2つのモードがあります。
インバンド管理は、システムのメインOS内で行われます。システムのメインプロセッサを使用して、管理タスクや目的のアプリケーションを実装します。通常は、システムが完全な状態で稼働している場合のみ多彩な管理機能が利用できます。
アウトバンド管理は、システムのメインプロセッサとOSに依存しない別の専用「管理プロセッサ」で行われます。そのため、一般にインバンド管理機能の一部しか使用できませんが、システムのメインプロセッサへの負荷が減って本来のアプリケーションに専念することが可能となります。アウトバンド管理は、低電力状態や故障状態など、様々なシステム状態で実施することができます。
管理性:資産の検出と監視、キャリブレーション、ソフトウェアの導入とプロビジョニング、診断とトラブルシューティング、エラーロギング、システム設定の構成、ソフトウェアとファームウェアの更新、セキュリティ、パフォーマンス監視、ワークロードバランシング、正常性警告など。
ITや通信システムのほか、テスト、計測、制御システムにおけるRASMについて理解するには、表1に示すシナリオについて考えてみます。
RASM | 一般的な例 | テスト、計測、制御の例 |
---|---|---|
信頼性 | メインフレームコンピュータは、一定の期間内に故障することがほとんどないため、信頼性に優れています。携帯電話サービスは、頻繁に通話が切断されるため、信頼性に欠けます。 | 製造ラインの自動テストシステムで高品質なコンポーネントを使用することにより、1年半の間、予期しないダウンタイムを回避できます。 |
可用性 | インターネットルータは、大きなデータ損失が発生してもデータ損失から容易に回復できるため、可用性は高くなります。 | PXI ExpressシステムのDAQボードのPCI Expressインタフェースでデータの破損が発生していますが、データを修正する機能があるため、測定タスクは中断されません。 |
保守性 | 通信システムは、I/Oモジュールがブレードフォームファクタであり、迅速かつ簡単に交換可能 (故障したモジュールをスライドして取り出し、交換用のモジュールをスライドして挿入できる) であるため、修理保守可能です。 | テストシステムの組込コントローラに障害が発生し、帯域外診断機能によって障害が認識されました。その後、コントローラは直ぐに交換され、システムは稼働状態に戻ります。 |
管理性 | インターネット企業のサーバファームは、遠く離れた場所から各サーバにアクセスしてソフトウェアを更新できるため、管理しやすい場合があります (サーバがローカルに物理的に存在する必要はありません)。 | ソフトウェアは、15のすべてのテスト/測定システムで同じレベルにリモートで更新されます。このイベントは、現在のソフトウェアバージョン情報とともに各システムのイベントログに自動的に記録されます。 |
表1:RASMのシナリオ例
Redundant System Basics - What is System Redundancy?
[1] Daniel P. Siewiorek and Robert S. Swarz, Reliable Computer Systems:Design and Evaluation, 3rd ed.(A K Peters/CRC Press, 1998), 508.