数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。
数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。
一个数据仓库通常包含以下要素:
√一个用于存储和管理数据的关系数据库
√一个用于分析前数据准备的提取、加载和转换 (ELT) 解决方案
√统计分析、报告和数据挖掘功能
√用于数据可视化和展现的客户端分析工具
其他更复杂的分析应用通过应用数据科学和人工智能 (AI) 算法或图形和空间功能来生成切实可行的信息,从而支持对数据进行更多类型的大规模分析。
数据仓库的优势
数据仓库在高效分析大量不同的数据,提取数据价值并保留历史记录方面拥有独一无二的强大优势。
数据仓库之父兼计算机科学家 William Inmon 定义了数据仓库的 4 大特征,这 4 大特征为数据仓库的强大优势奠定了坚实基础。根据定义,数据仓库具有以下特点:
面向主题:数据仓库可以高效分析关于特定主题或职能领域(例如销售)的数据。
集成:数据仓库可在不同来源的不同数据类型之间建立一致性。
相对稳定:进入数据仓库后,数据将保持稳定,不会发生改变。
反映历史变化:数据仓库分析着眼于反映历史变化。
一个精心设计的数据仓库支持高速查询、高数据吞吐量,能够凭借出色的灵活性帮助用户细分数据或降低数据量,进而执行更加细致的数据检查,满足高层级和精细化数据管理等各种需求。同时,它还能为中间件 BI 环境(为最终用户提供报告、仪表盘和更多其他界面)提供一个坚实的功能性基础。