[セッションレポート]BDT303 – Running Spark and Presto on the Netflix Big Data Platform
2015.10.9 7:20 by 古渡晋也
はじめに
こんにちは。re:invent2015@ラスベガスに初参加の古渡(@f_prg)です。
re:invent2015のセッションレポートです。
BDT303 – Running Spark and Presto on the Netflix Big Data Platform
「Netflix ビッグデータプラットフォームでのSparkとPrestoの実行」
のセッションを聞いてきました。
セッション内容
チャレンジはスケール
かっこいいですね。
アーキテクチャ
S3はデータウェアハウスのストレージとして使っているとのことです。
PB級のデータをあつかっているとのことです。
– Genie
Kafka, Ursula, Aegisthus, druid
聞いたことがある程度しかありませんでした。
もっと勉強が必要と痛感しますね。
Presto
PrestoはFacebookが開発したビッグデータ用のSQLクエリエンジンです。
これもスライドを見たりしているぐらいの知識でした。
PrestoとHiveの比較
あとは
- Prestoのユースケース
- Prestoのデプロイメント
- Presto Contribution
をあげておられました。
Parquet
Parquet
圧縮にかんするもののようです。
Spark
最近、日本でもいろいろと触れられているようですが、
オンメモリの分析基盤とも言われたりしてますね。
気になった項目は
Spark on Mesos
BDAS(Berkely Data Analytics Stack)
Spark on YARN
です。
さいごに
とてもしっかりと、基盤としてHadoopを使っている感じました。
S3ベースでのデータ集積なので、効率よく実施しているところは
多々学べることがあるかと思います。
この記事を書いたスタッフ
古渡晋也