HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
最新動向

不正検知の向上:ビッグデータセキュリティ管理

銀行は、モバイルの支払、オンラインバンクやスマートキオスクを含む、ビッグデータとIoTチャンスのアドバンテージを利用する多くのビジネスの1つです。しかし、その業務による膨大な個人機密情報を全ての段階で保護しなければいけません。ビッグデータセキュリティ、特に動き続けるデータは大きな問題です。なぜならネット犯罪者は貴重なデータを攻撃する新しい方法を常に考えているからです。そのような犯罪者の先を行くためにも、組織は革新的で、絶え間なく新しいタイプの大規模予測モデルのデザインを展開する必要があります。そして、この問題に直面する事業は銀行だけではありません。ヘルスケア企業、保険会社そして顧客の個人情報 (PII) を扱う実質あらゆる商取引が直面します。

幸いなことに潜在的な不正行為や個人情報窃盗、フィッシング攻撃の効果的な分析モデルをサポートする経験豊富な機械学習の専門家や新技術とツールがある。しかし、全ての組織が、組織内に機械学習の専門チームを抱えているわけではありません。不正行為者を捕らえるアジャイルで有効なモデルを構築するために、外部の専門家に依頼する必要があるでしょう。しかし、あなたは最も機密性の高いデータを晒したくないでしょう。安全性を保証されたPIIを匿名化することは非常に難しいものです。外部の専門家の力を活用しながら、機密性の高いデータを危険に晒さないようにするにはどうしたらよいでしょうか。機密性の高いデータを危険に晒さずにどのように外部専門家の助けを活用できるか?

frauddetection-blog-img1

図1:外部専門家のコンサルタントを受け非常に機密性の高いデータを扱う上での問題 (資料提供、図© 2015 Friedman and Dunning)

最近開かれたニューヨーク市のBig Data Everywhere conferenceで、MapRのチーフアプリケーションアーキテクト テッド・ダニングは、まさにこの問題に取り組む強力な新しい手法について述べました。

彼は、単一のセキュリティ破壊の招来を含む劇的な詐欺事例を押し破るために用いた技術について説明しました。それは多様な他の状況にも一般化できる技術です。どのようなものかご説明しましょう。

安全性が破壊された商取引を発見する

コンピュータ犯罪達の新しいトレンドの1つは、盗んだ何十万もの顧客情報を利用して多くの小規模な不正行為を実行することです。その結果、非常に短期間で何百万ドル (ポンドやユーロも) も盗むことになります。まさに気づかれることなく飛び回っているのです。詐欺師達は、安全性を失った商取引やウェブサイトを通して、膨大な数の個人金融情報にアクセスすることでこれを行います。クレジットカードを盗んでそれを使用して大きな買い物をするような、現在のセキュリティソフトで発見される恐れのある振る舞いを行うよりも、ネット詐欺師は偽の事業を立ち上げ、盗んだカード番号を用いて多くの買い物をすることができます。アカウントが悪用されている人々がほとんど気づかないまたは無視している間に、これらの小さな買い物を積み上げています。

MapRが助言させて頂いている大規模な金融機関は、安全性を失った商取引から生じた潜在的な不正行為の検知やそれを食い止める問題に直面しました。MapRは、このタイプの分散攻撃を検出する新しいモデル構築のお手伝いをします。お客様の目的は、(a) より多くの疑わしい問題を発見する、(b) 疑わしい問題をより迅速に検出する。そしてこれらのために不正行為検出性能を向上することです。そうすることで、多くが失われる前に影響を受けたアカウントを閉鎖しリスクを最小限に抑えることになります。このアプローチの別の利点は、被害が生じた商取引にたどる手がかりの痕跡を明らかにすることでしょう。

銀行には、個人利用者を基にした商業取引の大規模な行動データがあります。テッドが取ったアプローチは、取引データを顧客ごとにタイムラインに変換し、どの商取引が不正行為発生を知る前に関与していたか調べることでした。そのようにして彼は、各商取引に共通していた安全性を損なう相対的な可能性を決定し、脆弱性スコアを割り当てました。しかし、問題は、たとえこの目的のためであっても銀行が外部へ機密情報を提供することができなかったことです。この問題を乗り越えるために、テッドは、以前オープンソースで開発公開していたlog-synthプログラムをカスタマイズし拡張しました。その拡張によって、log-synthは、共通する安全性を損なった状態をシミュレートするために、捏造した商取引に偽のユーザー履歴を生成することができました。このシミュレーションデータの実験を使うことで、脆弱性のある商取引は、非常に高い脆弱スコアがあるバックグラウンドノイズの中からポップアウトしました。

このモデルを構築調整し、それを顧客が自身のセキュリティ境界内で実際の取引データと共に使うために適用しました。その実際の業務分析結果は劇的なものでした。シミュレーションデータ通りに、特にある1つの商取引は他のものに反し際立ったものになり、図2に示すように脆弱スコアは80を超えました。この銀行は機密情報部と調査し、その商取引が実際に大規模なデータ侵害の原因があったことを突き止めました。

frauddetection-blog-img2

図2:シミュレーションデータを用いて開発調整された不正検知の為のモデルを現実データに応用した劇的な結果。これを実施した金融機関は機密データを晒すことなく外部の専門家からの補助を活用できた。 (資料提供、図© 2015 Ted Dunning)

データシミュレーション手法の向上

合成データの利用は新しいアイデアではありません。しかしそれを利用することのアドバンテージはよく見落とされています。テッドがニューヨーク市でのBig Data Everywhereで述べた手法は、現実世界の状況をシミュレーションするために適したデータの生成を容易にする新手法と関係しています。テッドは、特に行うことが困難なリアルデータの特徴を厳密に一致しようとするよりも、偽データとリアルデータの間のパフォーマンスパラメータを一致することが必要であると気付きました。このパラメータは、当然現実的で重要であるためにしっかりと選ばなくてはいけませんが、この手法によってそのアプローチは強力で簡単なものになりました。

素晴らしいことに、この手法は不正検知を超えた場面で活用されています。オープンソースlog-synthでどのように動作しているか、他の利用事例についての詳細は、テッド・ダニングとエレン・フリードマンの新しいショートブック Sharing Big Data Safely: Managing Data Securityを読んでみて下さい。MapRから無料ダウンロードできます。

著者情報

エレン·フリードマン
(MapR Technologies ビッグデータ・コンサルタント Apache Mahoutコミッター)

Hadoopをさらに加速させる革新的テクノロジーMapR

Hadoopをさらに加速させる革新的テクノロジーMapR
MapRは、HiveやPig、Oozieといったエコシステムについて検証したうえで製品パッケージとして提供されます。

また、企業利用を見据え、優れた運用性に焦点をあてた革新的なアーキテクチャーをApache Hadoopにもたらします。

さらに、MapRの最大のポイントである100%標準Hadoopインターフェイスを備えた先進的なデータ基盤は、圧倒的な高いパフォーマンスはもとより、高可用性や障害回復、セキュリティ、データ保護などの企業向け機能を提供します。

無料ダウンロードはこちら

こちらの記事もおすすめです