データは経営全体の戦略を考える上ではもちろん、日々の業務における意思決定を行う上でも欠かせない存在です。
データをさらに身近なものとして業務で積極的に活用するために、この記事ではデータマートの基礎知識や、活用の際のポイントについてご紹介します。
データマートとは
データマート(data mart)の直訳は「データの小売店」です。小売店が消費者のニーズに応じた商品を扱うように、データマートには特定の部門やプロジェクトの用途・目的に応じて抽出・加工されたデータが格納されます。
そのためデータマートは、特定の部門・プロジェクトにおいてデータが使いやすくなるように設計されたデータベースであるといえます。
以下の図は、データマートが部門別に使われる場合の使用例です。各部門の業務やデータ活用の目的に合わせて、格納されるデータが異なります。
データウェアハウス、データレイクとの違い
データマートと比較されるものとして、データウェアハウスやデータレイクが挙げられます。
いずれもデータを保管するデータベースという点は共通していますが、保管データの容量や利用目的などが異なります。
データウェアハウス
「データの倉庫」という意味を持つデータウェアハウス(data warehouse)は、社内のデータを一元管理するための統合データベースです。
「データウェアハウスの父」と呼ばれるアメリカのコンピューターサイエンティストであるWilliam H. Inmon氏は、1990年にデータウェアハウスを「経営層の意思決定をサポートする、テーマごとに分解・整理し(subject-oriented)、統合され(integrated)、時系列に沿って(time-variant)、電源の状態に関係なく記憶される(non-volatile)データの集合体」と定義しています。
このように、データウェアハウスには社内のデータが目的ごとに整理され、時系列に沿って保管されるという特徴があります。これにより部署や業務を横断してのデータ分析が可能なため、経営層などが企業全体に関する意思決定の際に、データを活用しやすくなります。
データレイク
「データの湖」という意味を持つデータレイク(data lake)は、構造を問わずさまざまなデータを一元で管理・貯蔵できるリポジトリです。
Pentaho創業者で元CTOのJames Dixon氏は、2010年に自身のブログで「データレイク」の概念を次のように説明しています。
If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.
〈以下、筆者による日本語訳〉
James Dixon’s Blog 2010/10/14 ”Pentaho, Hadoop, and Data Lakes”
データマートを小売店のボトルウォーター――簡単に飲めるように浄化・パッケージング・計画された水――として考えるならば、データレイクはより自然な状態の大規模な水だ。データレイクは流れ込んでくるデータによって満たされ、データレイクを利用するさまざまなユーザーは調査したり、探索したり、サンプルを採取したりできる。
https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/
データマートやデータウェアハウスと異なり、データレイクは利用目的が定まっていないデータや非構造化・半構造化データも保管できるため、高度な分析スキルが必要なものの、柔軟な分析やデータ探索が可能です。
データウェアハウスの利用者としては、データエンジニアやデータサイエンティストといった、データの専門家・技術者が挙げられます。
データマートは特定の部門やプロジェクトでのデータ活用に便利
以下の表ではデータマート、データウェアハウス、データレイクの特徴を項目別にまとめています。
データウェアハウスやデータレイクと比較すると、データマートはデータの利用目的が細分化・限定されており、業務ユーザーが狭い範囲においてデータ活用する際に役立つことが分かります。
データマート | データウェアハウス | データレイク | |
---|---|---|---|
主な利用者 |
|
|
|
目的/用途 |
|
|
|
対象範囲 |
|
|
|
格納するデータ |
|
|
|
データ検索 |
|
|
|
データ分析 |
|
|
|
データ管理 |
|
|
|
データマートの種類
データマートには、以下のように3つの種類があります。
従属型データマート
企業全体のデータが集約されたデータウェアハウスから、必要なデータを抽出・加工して構築されるデータマートです。
社内のデータを集約し、データウェアハウスを構築・管理する手間が発生するものの、一元管理を行うことで社内全体のデータの精度を高めることができます。
独立型データマート
データウェアハウスを利用せずに、特定の部門・プロジェクトが利用するために単独で構築されるデータマートです。
データウェアハウスを構築する手間がないため、他の種類に比べより迅速に構築することができます。その一方で、最もデータのサイロ化を引き起こしやすい種類であるともいえます。
ハイブリッド型データマート
従属型と独立型の特徴を組み合わせる形で構築されるデータマートです。データウェアハウスから必要なデータを抽出・加工して構築した上で、データウェアハウスにない独自のデータを別途投入することが可能です。
データマートのメリット
業務ユーザーがデータを扱いやすい
データマートは部門やプロジェクトの目的に沿って、あらかじめ必要なレコード、必要な項目に小分けしてデータが加工・保管されてされており、データウェアハウスより効率的にデータにアクセスできます。
業務ユーザーが簡単に素早くデータを扱えるため、業務の意思決定におけるデータ活用のハードルを下げることが可能です。
また他のデータソースからデータを抽出して構築している場合、元データへの影響を気にせず、要件に合わせてユーザーが柔軟にデータを加工することができます。
迅速に低コストで構築できる
利用範囲が限定的であるため、データウェアハウスやデータレイクに比べて設計や構築に手間や時間がかからず、安価に構築することが可能です。
データウェアハウスの負荷を分散できる
データウェアハウスにアクセスが集中して負荷が高まっている場合、データマートを用いることで、データウェアハウスのアクセスを削減し、負荷を分散することができます。
データマートのデメリット
管理が煩雑になりやすい
迅速・低コストで構築できる反面、きちんと管理しないとデータマートが乱立してしまいます。
その結果、社内でデータ連携ができず、データが散在してしまう「データのサイロ化」を招いたり、複数のデータマートで同じようなデータを重複保存し、データストレージを無駄に消費してしまうリスクがあります。
また管理が煩雑になりやすい分、運用コストが増加しやすい傾向もあります。
複雑・多角的な分析が難しい
利用目的を明確化した上でデータを保管しているため、複雑で多角的な分析を行うことには不向きです。そのため新たな発見がしにくいというデメリットがあります。
データマートを利用する際のポイント
事前に運用・管理のルール・方法を検討する
データマートは運用にコストがかかったり、管理が煩雑化する傾向があるため、事前に運用や管理に関するルール・方法を検討しておきましょう。
データマートを作成する際の要件やフローに加え、セキュリティ対策はどのように実施するかや、急にデータが増加した場合にどうするか、といったこともあらかじめ考えておきましょう。
ユーザーのニーズに合わせて改修する
昨今のビジネスにおいて顧客のニーズは多様化し、またその変化も激しいことに伴い、業務要件の変化も激しくなっています。データマートも業務ユーザーの要件に合わせてこまめに改修することが重要です。
改修が適切に行われないと、データマートが使われなくなり、顧客のニーズに合った施策の実施が困難になるリスクがあります。
データの品質を管理する
データ活用の質を高めるには、データの品質を高め、維持する必要があります。
業務要件に合致しているかを意識しながら、データの整合性に問題はないか、複数のデータマートに散在しているデータはないかなどをチェックし、データの品質を管理・維持しましょう。
データマネジメントとは、読んで字の如く、「データを管理する」という意味です。それでは、データがきちんと管理された理想的な状態とは、どのような状態でしょう?また理想的な状態にすることで、得られる効果とは何でしょう?この記事で[…]
データマートの特徴を理解してデータ活用環境を最適化しよう
データマートは特定の部門やプロジェクトなど、範囲を限定し利用目的を明確化することで、効率的なデータ保管と分析が可能となります。またニーズに合わせた柔軟な運用とデータ品質管理を行うことで、業務レベルにおいても意思決定にデータを活用できる強力なツールとなります。
ビジネスの効果を最大化するためにも、ぜひ部門やプロジェクトのユーザーにとって最適になるよう、データ活用環境を整備してみてください。