HadoopTimes

Getting Started with Apache Spark

Getting Started with Apache SparkApache Spark は、マシンのクラスタ全体にわたる大規模な並列データ処理のための強力な実行エンジンであり、迅速で高パフォーマンスなアプリケーション開発を実現します。 Spark 2.0以降のバージョンでは、Sparkをより簡単にプログラムして実行するための改善が行われています。

「Getting Started with Apache Spark」では、詳細な使用例とコード例を用いて以下の項目をご紹介しています。

  • Spark 101:それは何か、それは何であるかか、なぜそれが重要なのか
  • データセット、データフレーム、スパークSQL
  • Sparkによるアプリケーションの実行方法
  • AI、機械学習、ディープラーニングの解明
  • Apache Spark 機械学習を使用した飛行機遅延の予測
  • Uber イベントデータのクラスタ解析による、人気のあるUberの乗車場所を検出し可視化
  • Apache API を用いた人気のあるUberの乗車場所のリアルタイム解析(Spark Structured Streaming、機械学習、Kafka、MapR-DB)
  • K-Meansによる森林火災の予測
  • Apache Spark GraphFramesを用いた飛行機遅延と距離の分析