HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
技術情報

気候変動の研究におけるビッグデータの活用法 ― 監視、モデリング、同化

今年5月、国連は気候変動に関する新たな取り組み「ビッグ・データ・クライメイト・チャレンジ」を開始した。このイニシアティブは国連事務総長が開催した2014年国連気候サミットに関連したものです。「ビッグ・データ・クライメイト・チャレンジ」の主要な目的の1つは、ビッグデータを活用して気候変動への対策を明らかにすること、特に「気候変動の経済的側面のデータに基づいた証拠を公開すること」です。「ビッグデータ・クライメイト・チャレンジ(BDCC)」の詳細情報はウェブサイトhttp://unglobalpulse.org/big-data-climate/で確認することができます。

FierceBigData.comの記事によると、国連は気候変動が経済にもたらす影響を明らかにすることができる、気候関連のデータ・プロジェクトを求めています。BDCCへの応募締め切りは6月30日(既に終了しました)。プロジェクトが選ばれた勝者は2014年国連気候サミットに招待されます。FierceBigData.comの記事では気候リスクの研究と管理にビッグデータを活用するための総合的な取り組みに参加することができる分野の例が示されています。

これらの分野には、スマート・シティ、天然資源管理、農業、食糧システム、複雑系、グリーン・データ・センター、材料科学、災害リスクの削減及び回復力、建築及びデザイン、行動科学、気候ファイナンス、炭素市場などが含まれます。ここでは、データ・サイエンスの側面からこの問題を再考察し、気候変動に関する研究でビッグデータが既に組み込まれている3つの方法について述べていきます。

(1) 気候に関するビッグデータがまず意味することは、我々がどこにでもセンサーを持っているということです。(リモート・センシング衛星経由で)宇宙から見下ろし、その場所で(地上)センサーを使って天気や土地利用、植物、海洋、雲量、氷量、沈殿、干ばつ、水質、海面温度、その他多くの地球物理的パラメータを監視し、観測しています。これらのデータは生物多様性の変化、外来種、絶滅の危機に瀕している種など相関するデータセットにより増幅されます。

これらの総合的なデータの集合体により、気候変動の時間的また地理空間的により深く幅広い範囲を網羅することができます。一連のセンサーは、我々が計測、監視し追跡している気候関連のパラメータの率や数が大幅に増加していることを示します。全てを合わせて、これらの気候データの特性がビッグデータの全ての条件である、大量、多様、速度を満たしています。

これらのデータを合わせることで生物圏や水圏、氷圏、大気、及び地球システムの変更に関わる全てのものの変化についてより深い洞察を得ることができる。地球システムを監視している大型プロジェクト関する2つの例は、NEON(全米生態観測ネットワーク)とOOI(海洋観測所イニシアティブ、海洋リーダーシップ・コンソーシアムのプロジェクト)であります。

(2) 気候変動は科学的モデリング及びシミュレーションの最大の例の1つです。これらのシミュレーションは向こう100年間またそれ以降の気候変動を予測するのに利用できます。大型の気候シミュレーションは、毎日(場合によってはより頻繁に)行われています。現在行われているシミュレーションでは水平方向の空間分解能(数百メートル、これまでのシミュレーションの空間分解能は数十キロメートル)が向上しており、より高い空間分解能(大気中で観測できる層の数がより多い)、そしてより高い時間分解能(分または時間、これまでのシミュレーションでは日または週)を持ちます。

その結果として、最新の入力データ(前述の全てのセンサーや測定)を用いて日々の気候モデルをアップデートすることができ、また地球全体から得られた最新で大量の入力データを用いて、より高い空間・時間分解能を持つシミュレーションを100年単位で再度実施しています。ここで留意すべきは、気候モデルが明日の地元の天気を予測するものではなく、10年単位、100年単位での地球の「天気」を予測することに注力しているということです。これらのスーパーコンピュータを用いたシミュレーションから得ることができるモデル出力データは膨大な量です―日々、それぞれのシミュレーションからはペタバイト級のデータが出力されるのです!

これらの大型コンピュータ・シミュレーションの出力データの保管や加工、分析、可視化、検索(発見のため)は、典型的なビッグデータツールの全てを必要とする。気候研究においてこれらのデータをユニークにするものは、データがコンピュータ処理されていることで、世界中の至る所にある地球センサーから集められる膨大な観測データの流れを補完しているということです。

(3) ビッグデータを活用することで、我々が持つデータと相関関係にあるデータを再現できるモデルを見つけるのが容易になります。ただし、相関関係は因果関係を暗示するものではないことを覚えておくべきであり、発見した相関関係の原因(「本当のモデル」)を発見するために、体系的な科学的方法論を適用する必要があります。 同様に、著名な統計学者ジョージ・ボックスの言葉で、「全てのモデルは誤りであるが、役に立つものもある」を覚えておくべきです。この警告は、多くの仮定や「我々の無知のパラメータ化」がされたモデル、特に宇宙やヒトの脳、地球の気候システムなど非常に複雑なシステムのシミュレーションを行おうとする、数的なコンピュータ・シミュレーションの結果を分析する際に重大な意味を持ちます。

この点では、数的モデルはある程度の主観性があると言えます。しかしながら、その問題を解決するのは、(また、ジョージ・ボックスの警告に対処する) のはデータ同化なのです。データ同化とは、モデル仮定やパラメータ化において修正、調整、立証を行うために、最新且つ最高の観測データを実際のシステムの現行モデルに組み込むプロセスです。気候モデリング研究で取り組まれている問題は我々の惑星の将来にとって非常に重要であり、膨大な流入データを同化する必要があるため、他のシミュレーション科学の領域よりも多く、データ同化を使用しているかもしれません。それ故に、ビッグデータはデータ同化を進めることで、進化している予測シミュレーションへの是正措置を提供しており、気候予測科学において不可欠で最も重要な役割を担っているのです。

最後に、ビッグデータの活用においてMapRと協力し、ローカル地区の天気を監視し、高分解度のシミュレーションを用いた気候予測を行い、農作物の改善に役立て、作物栽培学のモデルを開発し、農家の気候変動への適応を支援し、世界の農業関連産業の保護を行うためにHadoopを利用した機械学習を採用している、クライメイト・コーポレーションの事業を評価しています。

気候変動へのデータ主導型のアイデア、あるいは気候研究に役立つ可能性があるビッグデータの活用法に関するアイデアをお持ちであるなら、国連の「ビッグデータ・クライメイト・チャレンジ」に参加すべきでしょう。

こちらの記事もおすすめです