ファンブライト山下です。
ここ最近、ビッグデータの分析基盤を検証しています。
検証内容としては、カラム型DB(列指向DB)やBIツールの調査、Amazon Redshift 検証や他カラム型DBとの簡易比較などです。
ここでは Redshiftに絞って少し記載したいと思います。Redshift、すごいな!という内容です。
ちなみに、以下のような環境(概要)でRedshiftを試しています。
Redshiftを使い始めるまでの所要時間
Redshiftを使い始めるには他のAWSと同様に短期間で可能です。VPCやSecyrutyGroupなどの設定は行いますが、慣れるとあっという間にビッグデータの分析基盤を用意できてしまいます。
もちろん、その他やらなければいけない事(スキーマ設計や、データによっては取り込みデータのクリーニングなど)は多々あると思いますので、その辺りの準備は別途で必要になります。
パフォーマンスデータ
また、Redshiftクラスタのパフォーマンスデータを容易に確認できたり、クエリーの実行プランの確認なども容易に行えます。Redshiftを利用する際には大量のデータ(数百GB~)を扱う事になると思いますが、この辺りの情報(パフォーマンスデータやクエリ実行プランなど)を容易に確認できるのは分析者にとって非常に有用だと思います。
料金
Redshiftは常時起動させておくと結構大きな金額が出て行ってしまうのですが、運用要件として問題がなければ、スナップショットを利用しながら必要な時だけRedshiftを起動させるやり方も可能です。
さらなるプライスダウンがなされる事を期待しつつ・・・。
分析時の実行速度
最も気になる分析時の実行速度パフォーマンスとしては、(詳細な数値は記載できませんが)お客様にてご満足いただける測定結果が得られました。dw1.xlargeのシングル構成での検証でしたので、マルチ構成にしたり、スペックアップしたりすると、さらに良い結果も得られそうです。
今後はもう少し深追いしていくのと、次のステップに進む予定です。