HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
技術情報

Hadoopで最高のものを期待して、最悪の事態に備える: 電話会社の災害復旧計画

電話会社の災害復旧計画プロジェクトにおいて、詳細なデータ復旧計画を立てることが中心となっています。しかし残念ながら、一度作成すればそれで終わりというわけにはいきません。

どのような災害復旧計画であっても定期的なレビューが必要です。年に1回とする企業もあれば、四半期ごとのアップデートをしているところもあります。中にはネットワークエコシステムの主要部分が変更されたときはいつでもレビューを求めているところもありますし、規制によってアップデートが要求される場合もあります。ある特定のCSP(通信サービスプロバイダー)がこの問題に対処する方法は、IT部門のほか、ガバナンス、リスク・コンプライアンス部門、法務など別のステークホルダーが主導して決定されなくてはいけません。

ネットワーク災害復旧

テレコム業界におけるネットワーク復旧計画とは、顧客サービスを提供しているネットワークを復旧するタスクのことをいいます。この計画の中心は、音声・データサービスのバックアップをできるだけ速やかに取り出すことです。

この計画は、典型的には次の3つの部分に分けることができます。

  • トラフィックを被災地から迂回させる
  • その地域で最も良好な通信サービスの水準を可能にする
  • 通常のサービスに復旧させるためにネットワークが受けた物的な被害を復旧・修理する

ネットワーク災害復旧に関連する特定のプロセスの詳細な内容とベストプラクティスについては本稿の範囲を超えますので、ここではCSPのネットワークエコシステム稼働に焦点を当てています。

社内災害復旧

社内災害復旧とは、企業ができるだけ早く通常のオペレーションに戻れるよう、CSPのデータをオンライン接続に戻すプロセスをいいます。場合によっては、ネットワークと社内の復旧は同時になされなくてはいけません。社内ネットワークが正常に稼働していなくても、すぐに顧客に影響が出ない場合もあります。

ネットワークの機能停止をもたらした要因によって、災害復旧は物的な修理、自然災害が起きた場所から離れたところへのサーバの移動、一部の住民の移動などが必要になります。復旧計画を意味のあるものにするためには、可能な限り想像のできる(そして悲観的な)シナリオを検討するのが最良です。大がかりなイベントを計画している場合、小ぶりで起こりそうな問題を管理するのは簡単にできるでしょう。

IT災害復旧のグローバルスタンダードはISO/IEC 27031です。これは戦略を策定する段階で、「インシデント予防、発見、反応、復興、復旧の原則が導入されるよう、必要な回復を実践する」よう求めています。ここでは災害が引き起こした損害を軽減することが強調されていることに留意してください。これは、災害によってもたらされた損害を食い止めるのに必要な、余裕があり頑強で柔軟性のあるシステムを構築しつつ、しっかりとした復旧計画を立てる出発点となるものです。

多くのCSPは (実際には、どの企業でも)、ミッションクリティカルな事業を維持するITサービスを特定化する影響の分析から災害計画を始めることでしょう。リスク分析によって、様々なシナリオでサービスがどのような影響を受ける可能性があるかについて示すことができます。合理的な復旧時間、復旧ポイントの目的を確定させるためにもこうした情報を活用しましょう。

Hadoopでの災害復旧

いま、Hadoopのソリューションを評価されているのであれば、そのバックアップ能力を特に注意深くレビューしてください。Hadoopの企業向けディストリビューションがデータのバックアップを取り扱う方法には重要な違いがあります。知っておかなくてはならない最も重要な機能はスナップショットとミラーリングです。

スナップショットは、ビッグデータのシステムにとってとても重要な機能です。スナップショットは、ある一時点でのストレージシステムの状態をとらえます。そして、喪失、損傷、破損したデータの復旧ができるように設計されています。

ビッグデータは明らかにデータが大きいので、数秒でペタバイト級のデータのスナップショットをとらえられるようにしたいと思われるでしょう。同時に、スナップショットには「一貫性」が確保されていて、ある時点でみられたデータが変更を施すことなくそのままコピーされていることを希望されるでしょう。あるスナップショットが与えられた時、その情報に一貫性があると確実性をもって確認したいと思うことでしょう。よく使用されているHDFSのスナップショットは、メタデータとデータの間の同期の問題により時間の経過とともにデータがたやすく変化してしまうという意味で「一貫性がない」と考えられています。

ミラーリングによって、Hadoopのデータは2つの異なるクラスターで同期された状態となります。これも災害復旧にとってとても重要な機能となります。復旧計画の目的に沿ったバックアップ用のデータセットをスケジュール管理できる解決策をお求めのことでしょう。

また、間隔を置いてデータセットの中で操作されたファイル全てのコピーではなく、変更されたデータのみをとらえたディストリビューションは、より頑健な復旧のプロセスとなります。重要なシステムを素早くオンライン接続に戻そうとしている時に、大量の複製データや不要なデータ量を消費するという非効率な状況に対処したいとは誰も思わないでしょう。

御社のデータソリューションは、データ復旧計画と完全な形で適合されます。そうでなければ、悪い日がもっと悪い日となってしまうでしょう。バックアップや災害復旧の機能が実際にどのような実績を残しているかという厳しい質問をベンダーに投げかけてみてください。可能であれば、ケーススタディの出所を確認してください。業界関係者が集まるイベントでベンダーが推薦するものを聞いてみましょう。最悪の事態に備えてください。そうすれば、安全な環境で最高の希望が持てるでしょう。

こちらの記事もおすすめです