HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
製品情報

データレイクを使用したリアルタイム分析を加速させる変革的パートナーシップ

企業規模が大きくなるにつれ、企業に蓄積されるデータ量は増加していきます。顧客、サプライヤー、パートナー、競合他社等に関するデータを継続的に取得し、この膨大なデータを保管・管理し、その中から重要なビジネス上の知見をリアルタイムに抽出することが難しくなってきています。3つのV、すなわち、Volume(ボリューム)、Variety(種類)、Velocity(リアルタイム性)がますます拡大する傾向にあります。

さらに今日のビジネスでは、変化し続ける市場や激化する競争に対応し、製品の革新性を維持する必要があります。多くの場合それを実現できるかどうかは、もっとも重要な資産であるデータをいかに活用できるかにかかっています。ビジネスのスピードを加速するためには、リアルタイムに分析情報を抽出し、変化に対応できることが不可欠となります。もはや企業は、データ分析を行い新たなビジネス上の知見を得るために、何週間、いえ、何日もかけることはできません。その一方で、昨今のデジタル変革により、従来のデータウェアハウスや、エッジデバイス/ゲートウェイからの新たなデータストリームによるデータ活用が可能になってきています。現在こういった傾向は、金融、医療、製造、小売、通信、石油・ガス、メディア、エンターテイメントなど、さまざまな業界で共通した傾向と言えます。その主な目的は、新しいデータ取得ストリームを活用して、取得したデータに基づいてリアルタイムに意思決定を行い、業務効率の向上や新たな収益源の特定を実現し、最終的に顧客満足度を向上させることです。お客様がこの移行を推進しようとする際に直面する主な課題には以下のようなものが挙げられます。

  • クラウド、オンプレミス、エッジに対応できるように構築されたインフラ ソリューションの欠如
  • 低パフォーマンスのHadoopソリューション、それによるインフラクラスターのたび重なるシステムの拡張
  • エッジ コンピューティングや高度なエッジ分析に活用できる、遅延の少ないITソリューションの欠如
  • 3つの領域、クラウド、オンプレミス、エッジ全体にAIを構築して導入できるスキルの欠如
  • コスト、パフォーマンス、キャパシティのバランスを考慮し、ポリシーに基づいて、アクセス頻度(ホット、ウォーム、コールド)ごとに、それぞれのストレージ階層に自動的にデータを移行する機能の欠如

新たな種類のデータが頻繁に発生したり、かつてない速度でデータが取得されたりする業界においては、基盤となるコンピューティング プラットフォームおよびストレージ プラットフォームを再検討する必要があります。これまで、企業の構造化データを保管するための統合プラットフォームとして考えられていた従来のデータ レイクは、かつてないスピードで発生するこれらの新たな種類のデータに対応できるように、新しい形態に変わる必要があります。自動車メーカーが自動運転自動車を開発するために取得しているデータについて考えてみてください。1時間走るだけで1日に4TBのデータが発生しています。このデータの中には、画像、イベント ログ、クリックストリーム データ、交通状況情報が含まれています。このデータの一部は、道路の状態が変わったことに対応して運転するために、車両自体(エッジ)で処理する必要があります。それ以外のデータは、運転の判断を改善するためにクラウドに送信されます。このようなデータを取得して分析するためには、専用のインフラストラクチャによる強力なデータ パイプラインが必要です。そのようなデータ パイプラインが確立されたら、実績上、視覚化したりダッシュボードを構築したりするだけでなく、機械学習モデルのトレーニング、ダッシュボード用のインサイト生成時間の短縮、オペレーショナル システムに対する予測の組み込みまでもがはるかに簡単になります。レガシー インフラストラクチャがまだ使われていたとしても、その大半は、このようなニーズに適切に対応することはできません。

そのため多くの場合、企業においてさまざまなユース ケースに試験的に対応するために、サイロ化されたデータ資産が複数構築され、それがそのまま実稼働環境に導入されることになります。さらに、同じデータにアクセスするにもかかわらず、ビジネスごとに異なるリアルタイム アプリケーションが要求されます。

リアルタイム分析用データ レイク

HPEとMapRは、それぞれのハードウェアとソフトウェア データ プラットフォームにおけるイノベーションを推進し、このような業界の課題に直接対応するために提携しています。以下の表に、このアーキテクチャが、エンタープライズ環境においていかに柔軟性に優れているかを詳細にまとめています。

ジョイントアーキテクチャーの主要機能 MapR関連技術 HPE関連技術
リアルタイムなデータ統合や検索、パフォーマンスのためにスキーマ非依存かつデータサイロを意識しないグローバルネームスペースをアナリストやITに提供 MapR Data Platform

 

HPE Apollo 4200
リアルタイムで高速なデータ取得のための企業向けストリーミングプラットフォームを提供。

ストリーミング監査機能とともに超高速なPub-Subメッセージングフレームワークを実現。

MapR Event Store HPE Apollo 2000
AIアプリケーション構築のための柔軟な機械学習ツールキットの選択 MapR Data Science Refinery HPE 6500
同一クラスタ内で機械学習モデルの構築とデプロイのための柔軟性をデータサイエンティストや分析担当に提供(複数GPUインフラにも対応) MapR Data Platform
+
MapR Data Science Refinery
HPE Apollo 4200
+
HPE 6500
永続ストレージでステートフルなコンテナアプリケーションのデプロイをサポート MapR K8s Volume Driver HPE Appolo サーバーのためのコンテナ化されたインフラ

以下の図は、両社で共同開発したソリューションに関するアーキテクチャ図です。この図には、2000 / 4200 / 6500サーバで稼働するHPE Apollo Gen 10コンピューティング/ストレージ インフラストラクチャ上にスタックされた、MapR Data Platform(MapR XD(分散ファイル/オブジェクト ストア)、MapR Event StoreMapR Databaseで構成)が示されています。さらにこのアーキテクチャでは、MapR EdgeHPE Edgelineを連携してエッジ コンピューティングを実現し、データ レイクとコアをシームレスに統合することができます。

上図で示したように、このアーキテクチャではお客様のアプリケーションはコンテナ化されているため、開発・導入の全プロセスを通じて移植することが可能です。MapRのK8s VolumeドライバーによってコンテナからMapRに永続ストレージとして接続することで、アプリケーションデータは常にMapR保管されるため、ステートフルな状態を維持できます。これは非常に画期的なことです。2つの理由からこれは重要なことであり、1つは、リアルタイム アプリケーションにおいてデータの特性や抽出元のリポジトリは常に変化する可能性があるということ、そしてもう1つは、そのようなアプリケーションでは、開発状態から実稼働状態に移行する際に、通常、1つの環境から別の環境に移植する必要があるということです。このような状況化でもアプリケーションは常に共通の最新データにアクセスできるようになります。

MapR – HPEジョイント アーキテクチャの詳細については、Sales-jp@mapr.comまで電子メールをいただくか、営業担当までお問い合わせください。

ビッグデータ/IoT時代のデータ分析プラットフォームまるわかりガイド

ビッグデータ/IoT時代のデータ分析プラットフォームまるわかりガイド
MapRコンバージド・データ・プラットフォームは、ビッグデータのための包括的な統合プラットフォーム機能を提供します。

リアルタイム処理が可能なデータベースに加えて、イベントストリーミング、拡張性の高いストレージ機能により、企業は、バッチ処理用、リアルタイム用といったシステムを組み合わせることなく、たった一つのMapRでデータ活用が可能となります。

このガイドでは、

・なぜ新しいビッグデータ基盤が必要なのか?
・多くの企業が抱えるデータ基盤の課題
・MapRコンバージド・データ・プラットフォームとは?
・MapRでビッグデータ基盤はどう変わるのか
・MapRを採用したお客様の声

を中心にご紹介しています。この機会にぜひご覧ください。

無料ダウンロードはこちら