Hybrid Data Management

データレイクハウス戦略でデータウェアハウスを最適化する理由

記事をシェアする:

以前のブログで、ビジネス・インテリジェンスのための高性能データ処理で知られるデータウェアハウスは、新しいデータと進化するワークロードのためにすぐに高価になる可能性があることを指摘しました。 また、Presto などのビッグデータ・エンジンによって提供されるクエリーとレポートは、高度な分析と複雑な企業データの意思決定をサポートするためにSparkインフラストラクチャー・フレームワークと連携する必要があることを説明しました。 そのためには、PrestoとSparkが既存の最新のデータウェアハウス・インフラストラクチャーとシンプルに連携できる必要があります。 今回は、データウェアハウスの最適化がデータレイクハウス戦略の重要な鍵となる理由について説明します。

データウェアハウス最適化の価値

100年以上前に登場して以来、ガソリン・エンジンはほとんど変わっていません。 大気汚染防止、空調、パワーステアリングなどの現代の需要に対応するために、時間をかけて適応してきただけです。

同様に、データウェアハウスが存在する限り、リレーショナル・データベース(RDB)はデータウェアハウスの基盤であり続けてきました。RDBは、構造化データおよび半構造化データに関連するデータ・エンジニアリング・タスクや機械学習モデルの構築など、新しいワークロードの需要に対応するように適応されました。

例え話に戻ると、自動車に電力を供給する方法に大きな変化がありました。 現在では、ガソリン・エンジン、バッテリー電気自動車 (BEV)、ハイブリッド自動車があります。 エネルギー省アルゴンヌ国立研究所の2021年の出版物を参照した2021年8月のフォーブスの記事は、「ハイブリッド電気自動車(プリウスなど)は小型SUVカテゴリーの中で、15年間の1マイルあたりの総走行コストがBEVを上回って最も低かった」と指摘しています。

ハイブリッド車が所有者の初期購入価格と長期にわたるコストのバランスをとるのに役立つのと同じように、企業はデータと分析エコシステムの高い性能と費用対効果のバランスを見つけようとしています。 基本的に、データセットを過剰にコピーすることなく、適切な環境で適切なワークロードを実行したいと考えています。

データレイクハウス・アーキテクチャの最適化

幸いなことに、クラウド・プラットフォーム、オープンソース、従来のソフトウェア・ベンダーが混在することにより、ITの状況は変化しつつあります。クラウド・オブジェクト・ストレージの台頭により、データ・ストレージのコストが低下しました。オープンデータファイル形式は、Presto、Spark などの複数のデータ・エンジン間でのデータ共有をサポートするために進化しました。インテリジェントなデータ・キャッシュにより、データレイクハウス・インフラストラクチャーのパフォーマンスが向上しています。

これらすべてのイノベーションはソフトウェア・ベンダーによって採用され、顧客に受け入れられています。 では、これは実際的な観点では何を意味するのでしょうか?企業が現在すでに行っていることと何が違うのでしょうか?いくつかのユースケースが役立ちます。ローデータを効果的に使用するには、多くの場合、データウェアハウス内でデータを整理する必要があります。 半構造化データをテーブルにロードするには、再フォーマットと変換をする必要があります。 またMLプロセスはモデルを構築するために大量の容量を必要とします。

現在、データウェアハウス環境でこれらのワークロードを実行している企業は、付加価値や洞察を得られないエンジニアリング・タスクに高いランレートを支払っています。 データ駆動型モデルからの出力のみが、企業が付加価値を引き出すことを可能にします。企業がデータレイクハウス(ibm.com外のサイトへ)でこれらのエンジニアリング・タスクを低いランレートで実行しつつ、変換されたデータをオープン・フォーマットでレイクハウスとウェアハウスの両方で利用できるようにすることで、低コストの処理で同じアウトプットを提供できるようになります。

データウェアハウスとデータレイクハウス全体を最適化する利点

オープン・フォーマットを使用してデータを共有することで、データウェアハウスとデータレイクハウス全体のワークロードを最適化すると、コストと複雑さを軽減できます。 これにより、企業はデータ戦略とアナリティクスへの投資に対する収益を向上させることができると同時に、より優れたデータ・ガバナンスとセキュリティーの実現にも役立ちます。

また、ハイブリッド車により自動車の所有者が自動車への投資から大きな価値を得ることができるように、データウェアハウスとデータレイクハウス全体でワークロードを最適化することで、企業はデータ分析エコシステムからより大きな価値を得ることができます。

データレイクハウス戦略を使用してデータウェアハウスを最適化し、アナリティクスとAI(人工知能)のワークロードを拡張する方法を見いだしてください。

この記事は英語版ブログ「Why optimize your warehouse with a data lakehouse strategy」(2023年4月25日公開)を翻訳したものです。


関連情報

IBMのサービスとソリューション

More Hybrid Data Management stories

データ分析者達の教訓 #14- データから導かれる「あたりまえ」を丁寧に見つめ直す

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  皆さん、はじめまして。 昨年末にIBM にJoinし、Data&AIでデータサイエンスTech Salesをしている宮園と申します。   このリレー連載ブログはSPSS Modelerの実 ...続きを読む


SPSS Modeler の歩き方 2024 〜データ活用のためのガイドブック〜

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

みなさんこんにちは。IBMの京田です。 SPSS Modelerの快適な旅をお楽しみいただくためのツアーガイドを担当します!   2024年の旅程表 本年も2回!6月と11月にユーザーイベントを実施します。加え ...続きを読む


データ分析者達の教訓 #13- 基礎統計量と可視化にかけた時間が予測モデルの値打ちを上げる

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  皆さんこんにちは。IBM Data&AIでデータサイエンスTech Salesをしている斉藤明日香です。 昨年2023年のこちらのシリーズが非常に好評だったためシーズン2突入となりました。 このリレ ...続きを読む