Apache Sparkについてのメモ - サナギわさわさ.json

大規模バッチ処理が必要になったので、名前だけ聞いた事はあっても詳細を知らなかったApache Sparkについて簡単に調べました。

Apache Spark

インメモリな分散データ処理プラットフォーム
データをメモリに保持するため、ストレージから入力を受けストレージに出力するMapReduceと比較して、機械学習やグラフ描画などの同じデータを繰り返し用いるジョブに対して強い
- 初回ロード時は重くなるが、それ以降はメモリ上から読み込むためHadoopより速度が上がる。機械学習などのイテレーションが複数回走る処理ではかなり差が出る。
- 必要なメモリ量はHadoopよりも多くなる
Resilient Distributed Datasets(RDDs)を採用する事で、Hadoopの耐障害性、データ局所性、スケーラビリティを保持しつつメモリ上へのデータ保持を行っている。

RDDsの概念を実装したインタフェースはScalaで提供される
RDDsはまず静的ストレージに対するtransformation(map,filterなど)で生成される
生成されたRDDsに対して値を返すアクションやデータ出力のアクションを実行可能
- count(データセットの要素数取得)
- collect(要素そのものを取得)
- save(データセットをストレージに保存)
生成したRDDsをその後の処理で再利用したい場合は、persistメソッドを呼び出す事で対象のRDDsをメモリ上に保持できる
- メモリ上に収まらない場合はディスクも併用
- persistメソッドを呼ぶ際に、ディスクのみに保存するか、マシン間レプリケーションを行うかの配置選択も可能

一括書き込みのみを認めているため、より効果的な耐障害性が提供される
- データロストの場合でも、データ変換記録をたどって復旧が可能なためチェックポイントのオーバーヘッドが発生しない
- パーティションがロストした場合でもプログラム全体のロールバックが必要なく、異なるノードでの並列計算で復旧できる
データが読み取り専用であるため、遅いタスクのコピーを実行する事で実行時のパフォーマンス向上が可能 (分散共有メモリシステムでは、2箇所から更新が来た場合競合が発生するためタスクのコピーが不可能)
メモリが不十分になった際に、スキャンをメモリ上で優先実行しそれ以外をディスクに移行する事でパフォーマンス低下を極力防げる

上述した通り、RDDsは必ずしも実データそのものを保持しておらず、「データに対して行った変換」を保持する抽象的なモデルである。
RDDsではグラフベースのRDD表現によって様々なtransformationを追跡可能にしている。RDDに付与される5つの情報を以下に示す。

ここで重要なのがRDD間の依存関係をどのように表現するかということだが、依存を以下の2つに分類することでシンプルに依存が表現可能になっている。

この依存定義は以下の2つの理由で便利である。

狭い依存ではクラスタノードを全て親のパーティションで実行可能であり、すなわちパイプラインを実行可能という事を意味する。(広い依存では全子ノードの親RDDが使用可能である必要が有る）
ノード障害時に、狭い依存の場合はロストしたパーティションのみを再計算すれば良い。広い依存の場合はノード間を含めた完全再計算が求められるケースがある。

以上。