製造業で必要とされるデータレイクとMicrosoft Fabricのご紹介

本記事では、昨今のDX・データ活用において重要視されているデータレイクの必要性とそれを実現するためのソリューションについて考えます。

データレイクの必要性とデータウェアハウスとの違い

データレイクは、2010年代に入ってから注目され始めた考え方です。似た言葉として、「データウェアハウス」がありますが、データレイクはデータウェアハウスよりも新しい概念となります。つまり、ビッグデータ時代において、データウェアハウスだけでは解決できない課題が生じたことから、データレイクの必要性が叫ばれるようになりました。

課題①：データ種別の多様化: データウェアハウスはRDBMSをベースとしているため、対象が構造化データに限定されます。よって、取り扱うデータがERPやCRM等のビジネスデータであれば問題ないものの、IoTデータやログデータ、テキストデータなどの半構造化・非構造化データには対応できません。さらに、データウェアハウスに格納するためには、適切な形式へデータを加工するETLが必須であり、そのためのコストがデータ活用を妨げる要因にもなり得ます。
課題②：乱立するデータウェアハウス: データウェアハウスには「活用の目的が存在する」という特徴があります。「使うかどうか分からないデータを"とりあえず"データウェアハウスに貯めておく」といった使い方は一般的ではありません。また、この特徴により、各部門はそれぞれの目的に合わせた、個別のデータウェアハウス（マーケティング部門向け、生産部門向け、品質保証部門向け等）を構築します。よって、「同じデータが複数のデータウェアハウスに存在し、どれがマスタなのか不明」、「毎回必要なデータをデータソースまで取りに行かなければならない」などの問題が生じます。

データレイクは、上記のような課題を解決するために提唱された考え方です。データソースから収集されたデータを加工せずにそのまま保管することで、将来的な活用に備えます。
また、データレイクは「真」のデータを保管する場所「Single Source of Truth（信頼できる唯一の情報源）」として設計されるため、常に最新のマスタデータを保持します。これにより、「どこからデータを取得すれば良いか分からない」という悩みは生じず、効率的なデータ活用に繋げることが可能です。

データレイクとデータウェアハウスの違いを整理すると、下記の表の通りとなります。

	データレイク	データウェアハウス
データ量	無制限	数TB程度
データの種類	ログデータや画像データなど種類を特定しない	分析用に加工されたデータ
データの活用目的	明確でなく、将来的なデータ活用に備える	「マーケティングデータの分析」など特定の目的が存在する
データの一元性	一元的にデータを保管する（Single Source of Truth）	目的に応じ、複数のデータウェアハウスを構築することもある

データ分析基盤の概念図

データ分析基盤の構成要素とは？

データレイクはデータ分析基盤の構成要素の1つです。データ分析基盤には、データレイク以外にも多数の構成要素が存在し、そのことがデータ分析基盤の理解を妨げる要因になっています。ここでは、データ分析基盤の代表的な構成要素について紹介します。

データレイク: 前述の通り、生データを保管するストレージ。
膨大なデータの保管に長け、安価で使用可能なことが特徴である。
サービス例：Amazon S3, Azure Data Lake Storage Gen2
データウェアハウス: 大規模なデータに対して複雑な集計クエリの実行を可能とするデータベース。
分散処理のためのコンピューティングリソースが必要なため、費用としては高価。
サービス例：Snowflake, Amazon Redshift, Azure Synapse Analytics, BigQuery
データマート: 使い勝手やパフォーマンスの向上のため、データウェアハウスの一部のデータを切り出したもの。
データウェアハウスのビューやRDBMS、BIの内部データセットなど形式はさまざま。
ETL: データを抽出・加工・書き出しするために用いられるツール。
昨今はローコード・ノーコードで直観的に処理（コピー、集計、型変換等）を実装できるツールが増えている。
サービス例：AWS Glue, Azure Data Factory, ASTERIA Warp, DataSpider
データカタログ: ガバナンス担保のために用いられるデータの辞書。
データの管理者やリネージ（どこから来たデータなのか）を管理し、データ活用の信頼性を向上させる。
サービス例：Azure Purview, Informatica
AI: 機械学習モデルの構築・運用基盤。
データサイエンティストのスキルに依存せず、最適なモデル構築が可能な自動ML機能がトレンドになっている。
サービス例：Amazon SageMaker, Azure Machine Learning, DataRobot
BI: データをさまざま軸でグラフィカルに表示し、分析するためのツール。
サービス例：Power BI, Tableau

一般的なデータ分析基盤の構成例（Azureの場合）

まとめ

本記事では、データレイクの必要性とデータ分析基盤の構成要素、最新のデータ分析基盤サービスであるMicrosoft Fabricについてお話しさせていただきました。電通総研は、Fabricをはじめとするデータ分析基盤について、マルチベンダー・マルチクラウドでのシステム構築に取り組んでおり、お客様のご要件やクラウド利用状況に応じたインプリメンテーションが可能です。データ分析基盤やデータ活用全般についての課題をお持ちでしたら、是非お声掛けください。本記事が、皆様のデータ分析基盤に関する理解を深め、電通総研にご興味をお持ちいただくきっかけとなりましたら嬉しく思います。

本記事は役に立ちましたか？コメント・問合せも承ります。

役に立った👍

ブログ

製造業で必要とされるデータレイクとMicrosoft Fabricのご紹介

データレイクの必要性とデータウェアハウスとの違い

データ分析基盤の構成要素とは？

最新のデータ分析基盤を提供する「Microsoft Fabric」

まとめ

関連ソリューション

製造DXを実現するデータマネジメントプラットフォーム

カテゴリー

バックナンバー

ブログ

製造業で必要とされるデータレイクとMicrosoft Fabricのご紹介

データレイクの必要性とデータウェアハウスとの違い

データ分析基盤の構成要素とは？

最新のデータ分析基盤を提供する「Microsoft Fabric」

まとめ

関連ソリューション

製造DXを実現する データマネジメントプラットフォーム

ソリューション関連のブログ

Japan Drone 2025｜次世代エアモビリティEXPO 2025出展報告

射出成形CAEによる不良予測（2）～エアトラップ～

プロジェクト管理の落とし穴｜iQUAVIS API活用によるEarned Value Management(EVM)適用事例

カテゴリー

バックナンバー

製造DXを実現するデータマネジメントプラットフォーム