[セッションレポート]BDT303 – Running Spark and Presto on the Netflix Big Data Platform

古渡晋也

2015.10.9 7:20 by 古渡晋也

はじめに

こんにちは。re:invent2015@ラスベガスに初参加の古渡(@f_prg)です。
re:invent2015のセッションレポートです。
BDT303 – Running Spark and Presto on the Netflix Big Data Platform
「Netflix ビッグデータプラットフォームでのSparkとPrestoの実行」
のセッションを聞いてきました。
th_IMG_9971

セッション内容

チャレンジはスケール

かっこいいですね。

アーキテクチャ

S3はデータウェアハウスのストレージとして使っているとのことです。

th_IMG_9985
PB級のデータをあつかっているとのことです。
Genie

th_IMG_9983
Kafka, Ursula, Aegisthus, druid
聞いたことがある程度しかありませんでした。
もっと勉強が必要と痛感しますね。

Presto

PrestoはFacebookが開発したビッグデータ用のSQLクエリエンジンです。
これもスライドを見たりしているぐらいの知識でした。

PrestoとHiveの比較

th_IMG_9992

あとは

  • Prestoのユースケース
  • Prestoのデプロイメント
  • Presto Contribution
    をあげておられました。

Parquet

Parquet
圧縮にかんするもののようです。
th_IMG_0011

th_IMG_0015

Spark

最近、日本でもいろいろと触れられているようですが、
オンメモリの分析基盤とも言われたりしてますね。
th_IMG_0031

気になった項目は
Spark on Mesos
BDAS(Berkely Data Analytics Stack)
Spark on YARN
です。

さいごに

とてもしっかりと、基盤としてHadoopを使っている感じました。
S3ベースでのデータ集積なので、効率よく実施しているところは
多々学べることがあるかと思います。

この記事を書いたスタッフ

古渡晋也

古渡晋也

 

TOP