HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
最新動向

MapR、最新版5.2.1とMEP3.0の提供を開始 。セキュリティとパフォーマンスの最適化を行ったSpark 2.1を含む Ecosystem Packの新バージョンをリリース

ニュース

 

MapRコンバージド・データ・プラットフォームの最新バージョンとなる5.2.1では、Spark 2.1 との連携を強化したMapR Ecosystem Pack 3.0をサポートし、Hive 2.1のバッチ処理も高速化、そして、Drill 1.10でBIをより強力に支援

スケールアウト可能な単一プラットフォーム上に、データ活用に必須なデータ管理機能やプロセッシングのテクノロジを統合した「コンバージド・データ・プラットフォーム」を提供するMapR Technologiesは、本日、最新バージョンの5.2.1および、MapR Ecosystem Pack(MEP)の最新版の提供を開始いたします。MEP はMapR コンバージド・データ・プラットフォーム上で利用可能な互換性が保証された様々なOSSプロジェクトの製品で構成されています。MEP3.0では、Sparkのセキュリティ拡張およびMapR-DBとHBaseへ接続、Drillのアップデート、そして、Hiveの高速化といった機能強化が行われています。

MapR Technologiesのプロダクトマネージメント部門のシニア・ディレクターであるWill Ochandarenaは次のように述べています。

「世界中の企業において、非常に速いペースでSparkとDrillが採用され続けています。定期的なエコシステムの強化は、顧客のプロダクションでの利用をより簡単にします。お客様は、常に発展し続けるオープンソースのイノベーションによるメリットを、パフォーマンスと拡張性、そして信頼性を備えたMapRのコンバージド・データ・プラットフォーム上でタイムリーに享受できるのです」

MapR Ecosystem Packは、複数のコミュニティプロジェクトやバージョン間の互換性に関する問題の複雑性を排除します。MapRは、Apache Drill、Spark、Hive、Myriad等といったオープンソースプロジェクトを開発、テスト、統合しています。最新版のMapR Ecosystem Pack 3.0には、以下の機能が含まれます。

Apache Spark 2.1.0

Spark 2.1 では下記を含めたエンタープライズグレードの安定性とセキュリティが主な強化点となります。

  • 拡張性の高いパーティションハンドリング
  • データ型APIの安定化
  • Spark2.xでの1,200を超えるバグ修正
  • Kerberosに加えて、MapR-SASL接続

o  Spark Thriftサーバーへの接続

o  Hive MetastoreへのSpark接続

  • SELECT構文の発行時のインパーソネーション

MapR-DB JSONのNative Spark Connector

MapR-DB JSONのNative Spark Connectorは、SparkまたはSpark Streamingを活用し、データとMapR-DBとを直接接続するリアルタイムまたはバッチでのパイプラインを簡単に構築することができます。高効率かつ簡潔にコード開発ができるようにデザインされたNative Spark Connectorには以下のものが含まれます:

  • MapR-DB JSONのテーブルとSpark RDDの間でデータをロードしあうことができる2つの新しいAPI
  • より良いパフォーマンスのためのカスタムデータパーティショナー
  • MapR-DB読み込み時にSpark executorsを実行する際のデータローカリティ

Spark-HBase とMapR-DB Binary Connector

新しいSpark-HBase Connectorは、SparkでMapR-DBバイナリテーブルを使用した書き込みアプリケーションをサポートします。

・MapR-DBへの一括挿入

・Spark SQL でのMapR-DB検索

Apache Drill 1.10

今回のリリースでは、BIツールの最適化、エンドポイントセキュリティ、パフォーマンス、ユーザビリティに関し、大規模なアップデートを行ないました。ポイントは以下の通りです。

  • Tableauネイティブ接続
  • TEMPORARY TABLE AS (CTTAS)のコマンドのサポート
  • Clientとdrillbit間におけるKerberosと MapR-SASLの認証のサポート
  • Hue 3.12からの検索機能(実験的試行)
  • HiveとSparkで生成されたParquet ファイルの互換性の向上
  • クエリ診断の向上
  • 110個におよぶバグ修正とその他の改善

Apache Hive 2.1.1

MEP 3.0には、データ処理タスクの速度を大幅に改善し、インタラクティブクエリの待ち時間を短縮し、バッチクエリのスループットを向上させるHiveの高速バージョンが提供されます。その他の主な改善点は以下の通りです。

  • より高性能なCost-Based Optimizer(CBO)により実現した2倍速のETL、高速データ型変換と動的パーティション・プルーニング
  • 新しい診断・監視ツールを伴った新しいHiveServer UI
  • 動的に分割されたハッシュ結合により、ソートされていない入力でも結合処理が可能になり、ソート処理を排除

 

MapR Streams C Applications

MapR 5.2.1から、MapR StreamsのCのアプリケーションを開発することが可能です。MapR Streams C Clientは、MapR Streamsと統合されるlibrdkafkaのディストリビューションです。

 

MapR Streams Python Applications

MapR 5.2.1から、MapR Streams Python clientを使ったMapR Streamsのためのpythonアプリケーションを作成することができます。The Streams Python clientは、librdkafkaのバインディングであり、ハイレベルなお客様のご要望をサポートします。

 

〈提供開始日〉

MapRの最新バージョン5.2.1および、MapR Ecosystem Pack 3.0は、本日から提供開始となります。製品の詳細および最新情報はこちらをご確認ください。

https://community.mapr.com/community/products/mapr-converged-platform

CONVERGENCE TOKYO 2017