記事情報企業

Amazon Redshiftを使用した高性能ETL処理のベストプラクティス Top 8

Amazon Redshiftを使用した高性能ETL処理のベストプラクティス Top 8

ETL(Extract、Transform、Load)プロセスを使用すると、ソース・システムからデータ・ウェアハウスにデータをロードできます。 これは、通常、バッチまたはほぼリアルタイムのインジェスト(挿入)プロセスとして実行され、データウェアハウスを最新の状態に保ち、エンドユーザーに最新の分析データを提供します。 Amazon Redshiftは、高速でペ...

更新日: 2018-02-10
記事の見出し
  • Amazon Redshiftを使用した高性能ETL処理のベストプラクティス Top 8
  • 1. 複数の均等なサイズのファイルからデータの COPY
  • 2. Workload Management (WLM) を用いたETL実行時間の改善
  • 3. 定期的なテーブルのメンテナンスの実施
  • 4. 単一のトランザクションで複数ステップの実行
  • 5. データの一括読み込み
  • 6. UNLOADを利用して大きな結果セットの抽出
  • 7. アドホックETL処理に Amazon Redshift Spectrumを使用
  • 8. 診断クエリを使用した日常的なETLヘルスの監視
  • ETLプロセスの例
  • ステップ 1: RDBMSソースからS3バケットへの抽出
  • ステップ2: クレンジングのためにデータを Amazon Redshift へステージングする
  • ステップ3: 日次、週次、月次データセットへのデータの変換と、ターゲットテーブルへのロード
  • ステップ4: 日次データセットをアンロードして、S3データレイクのバケットに投入する
  • サマリ
  • 参考情報
  • 筆者について
テックブログ情報
Amazon Redshiftを使用した高性能ETL処理のベストプラクティス Top 8
ブログAmazon Web Services ブログ
ブログ概要Amazon Web Servicesに関するテックブログです
会社名Amazon.com
会社概要