HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
最新動向

MapRがどのようにしてHadoopを広める1番の存在になったか

私はオープンデータ経験がありますが、この分野はオープンソフトウェアとの共通点がたくさんあると言えるでしょう。中核にある信条の1つは自由であることです。規模や積み重ねた知力にかかわらず全ての組織が、可能性のある全ての事柄に着手することができます。データに関わることも、コードに関わることもそうです。

ソフトウェアにある種特有の興味深い側面があります。独自設計のデータベースではあなたのデータがどのようにディスクに配置されているか見ることができませんし、データの処理方法も選ぶことができませんが、Hadoop とNoSQL ではこれらを選ぶことができます。あなたはデータを加工せずにJSON 形式で保存することを選選択できますし、例えばParquetを使用してクエリのパフォーマンスとメモリフットプリントの面で有利に立つこともできます。Apache Drillを使ってデータにクエリを実行することもできますし、必要に応じてApache Hive を使用することもできます。

必然的に、大きな自由は大きな責任を伴います。内容豊富なHadoopが提供するエコシステムが提供するたくさんの選択肢やエコシステムのコンポーネントを最適に活かす方法について、経営目的を達成してSLAを保証できるように、私はデータエンジニアとして顧客とかなりの時間話し合いアドバイスを行いました。このような状況においてオープンソースは不可欠なものです。

上記のことから、MapR は最もオープンなHadoop のプラットフォームであると言えます。私たちは幅広くSQL on Hadoopを提供しています。検索やリソース管理 (YARNなど) にも同じことが言えます。同様に業界標準であるODBCやNFSのような既存のシステムを用いて相互運用を可能にします。 最後に大切なことをお伝えしますが、私たちはエコシステムのコンポーネント (例えばHiveやHBase) の複数のバージョンをサポートしています。つまり、顧客がある特定のコンポーネントを使って恩恵を受けたい場合にも、私たちは顧客にプラットフォーム全体をアップグレートするように強制することはないということです。

MapR Sandbox for HadoopをダウンロードしてMapRクラスターを体験することができます。完全な機能を備えたHadoopクラスターが仮想マシン上で動作します。

こちらの記事もおすすめです