【SM】平成22年度 午後Ⅱ 問3 – 情報処理技術者試験(PM/SM)に連続で一発合格したおじさんによる 過去問論文事例

こんな人におすすめ
  • 午後Ⅱ(小論文)でいつもつまづいている
  • 小論文のネタを探している
  • 合格者のアドバイスを受けたい

ITサービスマネージャ試験の午後Ⅱの小論文を作成してみました。小論文のネタ探しや午後Ⅱ対策の参考にしてもらえるとうれしいです。

問題文および設問

問題の原本はIPAにてご確認ください。

問題文

問3 インシデント発生時に想定される問題への対策について

 ITサービス提供中に発生する障害関連のインシデントは、ITサービスの稼働率低下、利用者の満足度低下などの問題を引き起こし、SLAの順守に影響を与える場合が多い。ITサービスマネージャは、インシデントを発生させないための予防的な対策とともに、インシデント発生時に想定される問題への対策を事前に検討しておくことが重要である。
 例えば、主要な業務システムが稼働するサーバに障害が発生した場合を考える。このときに想定される問題としては、回復の手順に不慣れでITサービスの回復が遅れること、サービスデスクに問合せが殺到して、利用者とのコミュニケーションが十分にとれないこと、などがある。
 このような問題への対策としては、ITサービスを速やかに回復させるために、主要な業務システムが稼働するサーバの障害時の運用訓練を定期的に行うこと、サービスデスクへの問合せを緩和させるために、“お知らせ”などを通じて利用者に障害状況、障害回避策などを伝える手順を確立すること、などが考えられる。
 ITサービスマネージャは、対策を検討するに当たって、SLAの順守への影響が最小となるようにすること、費用対効果が最大となるようにすること、対策の前提となる技術やサービスの入手可能時期を明らかにすること、などに留意する必要がある。
 また、実際にインシデントが発生したときの対応の過程で、事前に検討しておいた対策に不備が判明する場合がある。このような不備に対して解決策を立案し、事前に検討しておいた対策の改善を図ることも重要である。
 あなたの経験と考えに基づいて、設問ア~ウに従って論述せよ。

設問ア

あなたが携わったITサービスの概要と、インシデント発生時に想定される問題の概要について、SLAの順守に与える影響を含め、800字以内で述べよ。

設問イ

設問アで述べた問題への対策の内容と、対策を検討するに当たって留意した点について、800字以上1,600字以内で具体的に述べよ。

設問ウ

設問イで述べた対策の改善について、インシデント発生時の対応の過程で判明した不備を含め、600字以上1,200字以内で具体的に述べよ。

解答例

設問ア

1.ITサービス概要とインシデント発生時の問題

1.1.ITサービス概要

 私が担当したITサービスは、大手小売業向けのECサイトの運用保守である。本システムは、オンライン販売を支える基幹システムであり、24時間365日の稼働が求められる。特に、ピーク時トラフィックに耐えられる可用性と、迅速な障害復旧が必須であり、下記のSLAが設定された。

・可用性(稼働率:99.999%以上)
・重大インシデント発生時の復旧時間(暫定対策:0.5時間以内、完全復旧:2時間以内)
・顧客対応(障害時の問い合わせ一次回答:5分以内)

 本システムは今期、負荷分散機能の実装や冗長化を実施したが、システムが複雑化し、インシデント対応が困難になるケースがあった。

1.2.インシデント発生時の問題

 ECサイトの特性上、システム障害は売上減少に直結するため、以下の問題が想定された。

1)障害復旧の遅延
 主要業務システムが稼働するサーバの障害時、オペレーターが迅速に対応できないと、SLAで定められた復旧時間を超過する可能性がある。特に、復旧手順がマニュアル化されていても、オペレーションの経験不足による遅延リスクがあった。

2)サービスデスクの対応負荷増大
 障害の問い合わせが急増し、サービスデスクが対応しきれない事態が懸念された。これにより、利用者に適切な情報提供ができず、クレーム増加や信頼性低下のリスクがあった。

3)代替手段の不備
 ECサイトがダウンした場合、大口注文などの重要取引には代替手段が必要となる。しかし、適切な代替策が事前準備されていないと、取引が滞り、大きな損失をもたらすリスクがあった。

 以上のような問題を想定し、それに対する具体的な対策を講じることが、サービスの安定運用において重要であった。

(793文字)

設問イ

2.インシデント対応策

2.1.インシデント対応策における留意事項

1)SLAの順守

 インシデント対応において、SLAである「稼働率」「重大インシデント発生時の復旧時間」の順守が最優先事項である。特に、システムのダウンタイムを最小限に抑えることが極めて重要である。そのため、障害の検知から復旧までのプロセスを迅速に実行できるよう、明確な対応手順を策定するなど、SLA達成のための具体的な行動計画を作成する。

2)費用対効果の最適化

 すべての対策を無制限に講じることは現実的ではなく、コストと効果のバランスを考慮する必要がある。特に、クリティカルなシステムについては、年間のダウンタイム削減効果が投資額を上回るように費用対効果の分析を実施し、予算を適正に配分する。
例えば、システムの冗長化を実施する際には、その導入コストとダウンタイム削減による事業損失の抑制効果を比較し、最適な投資計画を立案する。

3)利用者への情報提供

 障害発生時、利用者が適切な行動をとれるよう、情報提供の仕組みを整備することが不可欠である。特に、サービスデスクへの問い合わせが集中すると対応が遅れ、SLAの順守に影響を与えるため、適時に「お知らせ」や自動通知を活用し、負荷を分散する施策を検討する。

2.2.留意事項を踏まえたインシデント対応策

 前述の留意事項を踏まえ、SLAの順守とインシデント発生時の影響を最小限にする抑えることを目指した、以下の対策を行った。

1)定期的な障害対応訓練の実施
・達成目標:障害発生時の対応時間短縮(60分⇒40分)
 過去のインシデント対応ログを分析した結果、復旧作業の初動遅れが平均20分の遅延を発生させていたことが判明した。その原因の80%以上が、手順の不備や対応者の習熟度不足によるものだった。
 習熟度不足による対応遅延を防ぐため、定期的な障害対応訓練を行った。具体的には、運用チームが迅速に対応できる、四半期ごとにシステムのフェイルオーバーテストを実施した。また、訓練後には必ず振り返りを行い、手順の改善を行った。また、新たな障害シナリオを取り入れ、年間5回の訓練を実施し、運用チームの対応力向上を図った。

2)自動復旧システムの導入
・達成目標:ダウンタイムを50%以上削減(30分⇒15分)
 システム障害時の過去の対応履歴を分析したところ、手動での切り替え作業に15分以上を要するケースが多発していた。その結果、障害対応に平均30分のダウンタイムが発生するリスクがあった。
 復旧時間短縮のため、自動復旧システムを導入する。例えば、冗長化した主要な業務システムが障害を検知すると、即座に待機環境へ切り替わる仕組みを構築した。この仕組みを導入することで、手動対応削減によるダウンタイム短縮を目指した。

3)利用者向け情報提供の強化
・達成目標:障害発生時の問い合わせ件数を40%削減
 過去のインシデント発生時におけるサービスデスクの問い合わせ件数を分析した結果、システム障害発生時の問い合わせ件数が通常時の2.5倍に増加し、オペレーターの対応負荷が急増することが判明した。この影響で、問い合わせ対応の遅延が発生し、1次回答までの時間が平均10分以上となる事象が多発した。
 サービスデスクへの問い合わせ集中を緩和するため、利用者向けの障害情報提供システムを強化する。具体的には、障害発生時に自動で「お知らせ」を送信する仕組みを導入し、利用者がサービスの現状をリアルタイムで把握できるようにした。また、FAQを充実させ、自己解決できる環境を整備した。特に、過去の問い合わせ履歴を分析し、最も多い質問をトップに表示することで、利用者の疑問解決率の向上を図った。

(1594文字)

設問ウ

3.インシデント対応策の改善

3.1.インシデント発生時の対応過程で判明した対策の不備

 インシデント対応策を実施する中で、以下の課題が浮き彫りとなった。

1)障害対応訓練の実施頻度とシナリオの不足
 四半期ごとの障害対応訓練を実施していたが、訓練時に使用する障害シナリオのバリエーションが不足しており、実際の障害と異なるケースが発生した際に、迅速な対応が難しかった。特に、想定外の障害パターンに対する対応が遅れたことで、目標の「障害発生時の対応時間を60分から40分へ短縮」の達成が困難になった。

2)自動復旧システムの切り替え遅延
 自動復旧システムの導入により、ダウンタイム削減を目指したが、実際の運用ではフェイルオーバー時に一部のアプリケーションが正常に起動しないケースが発生した。これは、環境ごとの設定の違いや、負荷分散の問題によるものであり、「ダウンタイムを30分から15分に削減」の目標達成に影響を与えた。

3)利用者向け情報提供の即時性の欠如
 障害発生時に「お知らせ」通知を自動送信する仕組みを導入したものの、通知内容の正確性や即時性に課題があった。特に、初期情報が不十分であったため、利用者からの追加問い合わせが増加し、「障害発生時の問い合わせ件数を40%削減」の目標達成に支障をきたした。

3.2.対策の改善

 上記の不備を踏まえ、以下の改善策を導入した。

1)障害対応訓練の頻度・内容の強化
 訓練の頻度を四半期ごとから、影響の大きいシステムを対象にした月次訓練へと変更し、その他のシステムは従来の頻度を維持する形で調整した。これにより、全体の工数増加を抑えつつ、クリティカルな障害対応力の向上を実現した。加えて、実際の障害発生履歴を分析し、優先度の高いシナリオを重点的に取り入れることで、実践的な対応力を強化した。

2)自動復旧システムの設定最適化
 フェイルオーバー時の遅延を防ぐため、環境ごとの設定を統一し、事前に検証を行うプロセスを導入した。特に、フェイルオーバー後のアプリケーション起動テストを毎月実施し、問題が発生した場合には適宜設定を見直すようにした。これにより、フェイルオーバーの成功率を向上させた。

3)情報提供システムの改善
 サービス問い合わせ履歴の検索フォームを設置し、利用者がFAQ以外の情報を容易に閲覧できるようにした。FAQに掲載されていない情報に利用者がアクセスすることで、問い合わせ件数を削減するだけでなく、FAQへの掲載候補をアクセス履歴から分析する狙いもあった。

 これらの改善策により、障害発生時の対応時間の短縮、ダウンタイム削減、問い合わせ件数の減少を実現し、SLAの順守をより確実なものとすることができた。

(1178文字)

まとめ

自分自身の論文のネタにするためには、サンプル論文はいくらあってもよいと思います。
このブログに記載したサンプル論文が役に立つとうれしいです。

参考図書

自分が受験したときに使用した参考図書は、下記の旧版です。
「最速の論述対策」で、回答文章のモジュール化と章立ての基本テクニックを学び、「合格論文の書き方」で自分の経験でモジュール化できなかった部分の補強を行い、過去問で実際に手書きの練習をしました。

上記はプロジェクトマネージャ試験の対策本ですが、ITサービスマネージャ試験でも通用する内容です。

コメント