数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。
数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。
什么是现代数据仓库?
企业中不同用户(例如 IT 部门、数据工程、业务分析和数据科学团队的成员)对数据仓库的需求各不相同。
现代数据架构可有效管理所有数据类型、工作负载和分析,满足这些需求。它包含架构模式以及符合行业优秀实践的必要集成组件。现代数据仓库包括:
√融合数据库,可简化所有数据类型的管理并支持多种数据使用方法
√自助式数据提取和转换服务
√支持 SQL、机器学习、图形和空间处理
√多种分析选项,可轻松使用数据而无需移动数据
√自动化流程,可简化供应、扩展和管理
现代数据仓库可高效简化数据工作流,任何其他仓库都无法企及。这意味着从分析师、数据工程师到数据科学家和 IT 团队的每一个人都可以更加有效地开展工作和创新,从而推动企业发展,而不会发生不计其数的延迟和复杂性。
如何设计一个数据仓库?
在开始设计数据仓库前,您首先需要明确业务需求,就业务范围达成一致并拟定概念设计,然后为数据仓库创建逻辑和物理设计。其中,逻辑设计关注对象之间的关系,物理设计则关注如何以最佳方式存储和检索对象。当然,物理设计还包含传输、备份和恢复流程。
任何数据仓库设计都必须解决以下问题:
√具体的数据内容
√各数据组内部及相互之间的关系
√支撑数据仓库的系统环境
√数据转换类型
√数据刷新频率
此外,最终用户的需求也是数据仓库设计中的一个重要问题。通常来说,大多数最终用户关注的是执行分析和查看汇总数据,而不是各个事务。而事实上,直到具体的需求出现时,最终用户才明确知道自己想要什么。因此,请在计划流程中尽可能探索和预测最终用户的需求。最后,数据仓库设计应当留出足够的扩展和发展空间,以适应不断变化的最终用户需求。