データマートとは?特徴を知って部門のデータを活用しよう

データは経営全体の戦略を考える上ではもちろん、日々の業務における意思決定を行う上でも欠かせない存在です。

データをさらに身近なものとして業務で積極的に活用するために、この記事ではデータマートの基礎知識や、活用の際のポイントについてご紹介します。

データマートとは

データマート(data mart)の直訳は「データの小売店」です。小売店が消費者のニーズに応じた商品を扱うように、データマートには特定の部門やプロジェクトの用途・目的に応じて抽出・加工されたデータが格納されます。

そのためデータマートは、特定の部門・プロジェクトにおいてデータが使いやすくなるように設計されたデータベースであるといえます。

以下の図は、データマートが部門別に使われる場合の使用例です。各部門の業務やデータ活用の目的に合わせて、格納されるデータが異なります。

データマートが部門別に使われる場合の使用例

データウェアハウス、データレイクとの違い

データマートと比較されるものとして、データウェアハウスやデータレイクが挙げられます。
いずれもデータを保管するデータベースという点は共通していますが、保管データの容量や利用目的などが異なります。

データレイク、データウェアハウス、データマートで利用目的が異なる

データウェアハウス

「データの倉庫」という意味を持つデータウェアハウス(data warehouse)は、社内のデータを一元管理するための統合データベースです。

「データウェアハウスの父」と呼ばれるアメリカのコンピューターサイエンティストであるWilliam H. Inmon氏は、1990年にデータウェアハウスを「経営層の意思決定をサポートする、テーマごとに分解・整理し(subject-oriented)、統合され(integrated)、時系列に沿って(time-variant)、電源の状態に関係なく記憶される(non-volatile)データの集合体」と定義しています。

このように、データウェアハウスには社内のデータが目的ごとに整理され、時系列に沿って保管されるという特徴があります。これにより部署や業務を横断してのデータ分析が可能なため、経営層などが企業全体に関する意思決定の際に、データを活用しやすくなります。

データレイク

「データの湖」という意味を持つデータレイク(data lake)は、構造を問わずさまざまなデータを一元で管理・貯蔵できるリポジトリです。

Pentaho創業者で元CTOのJames Dixon氏は、2010年に自身のブログで「データレイク」の概念を次のように説明しています。

If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.

〈以下、筆者による日本語訳〉
データマートを小売店のボトルウォーター――簡単に飲めるように浄化・パッケージング・計画された水――として考えるならば、データレイクはより自然な状態の大規模な水だ。データレイクは流れ込んでくるデータによって満たされ、データレイクを利用するさまざまなユーザーは調査したり、探索したり、サンプルを採取したりできる。

James Dixon’s Blog 2010/10/14 ”Pentaho, Hadoop, and Data Lakes”
https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/

データマートやデータウェアハウスと異なり、データレイクは利用目的が定まっていないデータや非構造化・半構造化データも保管できるため、高度な分析スキルが必要なものの、柔軟な分析やデータ探索が可能です。

データウェアハウスの利用者としては、データエンジニアやデータサイエンティストといった、データの専門家・技術者が挙げられます。

データマートは特定の部門やプロジェクトでのデータ活用に便利

以下の表ではデータマート、データウェアハウス、データレイクの特徴を項目別にまとめています。

データウェアハウスやデータレイクと比較すると、データマートはデータの利用目的が細分化・限定されており、業務ユーザーが狭い範囲においてデータ活用する際に役立つことが分かります。

データマート データウェアハウス データレイク
主な利用者
  • 部門・プロジェクトのマネージャーや分析担当者、意思決定者など
  • 経営層および企業全体に関わる意思決定者や分析担当者など
  • データエンジニアやデータサイエンティストといった、データの専門家・技術者
目的/用途
  • 特定の業務に特化したデータの保管・分析に活用される
  • 社内データの一元管理や、横断的な分析に活用される
  • 幅広いデータが蓄積され、高度な分析に活用される
対象範囲
  • 特定の部門やプロジェクトなど、対象範囲が小規模
  • 企業全体のデータを統合・管理するなど、対象範囲が大規模
  • 多様な種類のデータを大規模に保管・管理するため、対象範囲が膨大
格納するデータ
  • 利用目的に応じて加工された構造化データ
  • 処理済みの構造化データ
  • ローデータ状態の構造化データ・非構造化データ
データ検索
  • 部門やプロジェクトに応じてデータを保管するため、関連データの検索・アクセスが容易
  • 企業全体のデータを統合しているため、広範囲のデータを検索することが可能
  • 反面、適切なクエリや検索ツールを用いる必要がある
  • 多様なデータを保管しているため、柔軟な検索が可能
  • 反面、データカタログやメタデータが必要
データ分析
  • 部門やプロジェクトに応じた素早い分析が可能
  • 反面、当初の目的外の分析はしづらい
  • 企業全体で一貫性のあるデータを用いた横断的な分析が可能
  • 多様なデータを用いた柔軟な分析が可能
  • 反面、データ品質や管理の質が分析結果に影響する
データ管理
  • 対象範囲が限定的であるため、データの整理・保管は比較的容易
  • 企業全体のデータを統合するため、データの整理・保管には一定のスキルと労力が必要
  • さまざまなデータをそのまま保管できる
  • 反面、データの整理やデータカタログの管理が課題になりやすい

データマートの種類

データマートには、以下のように3つの種類があります。

従属型データマート

企業全体のデータが集約されたデータウェアハウスから、必要なデータを抽出・加工して構築されるデータマートです。

社内のデータを集約し、データウェアハウスを構築・管理する手間が発生するものの、一元管理を行うことで社内全体のデータの精度を高めることができます。

独立型データマート

データウェアハウスを利用せずに、特定の部門・プロジェクトが利用するために単独で構築されるデータマートです。

データウェアハウスを構築する手間がないため、他の種類に比べより迅速に構築することができます。その一方で、最もデータのサイロ化を引き起こしやすい種類であるともいえます。

ハイブリッド型データマート

従属型と独立型の特徴を組み合わせる形で構築されるデータマートです。データウェアハウスから必要なデータを抽出・加工して構築した上で、データウェアハウスにない独自のデータを別途投入することが可能です。

データマートのメリット

業務ユーザーがデータを扱いやすい

データマートは部門やプロジェクトの目的に沿って、あらかじめ必要なレコード、必要な項目に小分けしてデータが加工・保管されてされており、データウェアハウスより効率的にデータにアクセスできます。

業務ユーザーが簡単に素早くデータを扱えるため、業務の意思決定におけるデータ活用のハードルを下げることが可能です。

また他のデータソースからデータを抽出して構築している場合、元データへの影響を気にせず、要件に合わせてユーザーが柔軟にデータを加工することができます。

迅速に低コストで構築できる

利用範囲が限定的であるため、データウェアハウスやデータレイクに比べて設計や構築に手間や時間がかからず、安価に構築することが可能です。

データウェアハウスの負荷を分散できる

データウェアハウスにアクセスが集中して負荷が高まっている場合、データマートを用いることで、データウェアハウスのアクセスを削減し、負荷を分散することができます。

データマートのデメリット

管理が煩雑になりやすい

迅速・低コストで構築できる反面、きちんと管理しないとデータマートが乱立してしまいます。

その結果、社内でデータ連携ができず、データが散在してしまう「データのサイロ化」を招いたり、複数のデータマートで同じようなデータを重複保存し、データストレージを無駄に消費してしまうリスクがあります。

また管理が煩雑になりやすい分、運用コストが増加しやすい傾向もあります。

複雑・多角的な分析が難しい

利用目的を明確化した上でデータを保管しているため、複雑で多角的な分析を行うことには不向きです。そのため新たな発見がしにくいというデメリットがあります。

データマートを利用する際のポイント

事前に運用・管理のルール・方法を検討する

データマートは運用にコストがかかったり、管理が煩雑化する傾向があるため、事前に運用や管理に関するルール・方法を検討しておきましょう。

データマートを作成する際の要件やフローに加え、セキュリティ対策はどのように実施するかや、急にデータが増加した場合にどうするか、といったこともあらかじめ考えておきましょう。

ユーザーのニーズに合わせて改修する

昨今のビジネスにおいて顧客のニーズは多様化し、またその変化も激しいことに伴い、業務要件の変化も激しくなっています。データマートも業務ユーザーの要件に合わせてこまめに改修することが重要です。

改修が適切に行われないと、データマートが使われなくなり、顧客のニーズに合った施策の実施が困難になるリスクがあります。

データの品質を管理する

データ活用の質を高めるには、データの品質を高め、維持する必要があります。

業務要件に合致しているかを意識しながら、データの整合性に問題はないか、複数のデータマートに散在しているデータはないかなどをチェックし、データの品質を管理・維持しましょう。

あわせて読みたい

データマネジメントとは、読んで字の如く、「データを管理する」という意味です。それでは、データがきちんと管理された理想的な状態とは、どのような状態でしょう?また理想的な状態にすることで、得られる効果とは何でしょう?この記事で[…]

データマートの特徴を理解してデータ活用環境を最適化しよう

データマートは特定の部門やプロジェクトなど、範囲を限定し利用目的を明確化することで、効率的なデータ保管と分析が可能となります。またニーズに合わせた柔軟な運用とデータ品質管理を行うことで、業務レベルにおいても意思決定にデータを活用できる強力なツールとなります。

ビジネスの効果を最大化するためにも、ぜひ部門やプロジェクトのユーザーにとって最適になるよう、データ活用環境を整備してみてください。

\現場のデータ活用を効率化する
簡単・安心なBIツール/
WebQuery/Excellent
ご紹介資料
BIツール・WebQuery/Excellent ご紹介資料
データ活用に関する課題を弊社BIツール・WebQuery/Excellentでどう解決できるのか、製品の概要や特長、実績などをご紹介しています。
資料内容
  • WebQuery/Excellentとは
  • ご活用いただいているユーザー層
  • WebQuery/Excellentでできる3つのこと
  • ライセンス/価格体系
  • 導入実績
  • 動作環境
  • お問い合わせ