Page 1 of 1

随着时间的推移管理数据:从仓库到 Lakehouse 架构 - 第 1 部分

Posted: Sun Jan 26, 2025 6:39 am
by suchona.kani.z
在计算机出现之前,公司依靠分类账、库存清单、大量的直觉和其他有限的手动方法来收集和分析其指标。然而,在 20 世纪 80 年代末,数据仓库的概念出现了,主要用于创建静态报告。随着数据仓库的引入,公司开始根据数据而不是直觉做出决策。

随着技术的不断发展,企业的数字化进程也在加速。然而,这也给数据分析领域带来了新的挑战。众所周知的三个 V——Volume(数据量)、Velocity(速度)和 Veracity(数据质量)——对于大数据一词的定义至关重要。大数据对已建立的传统关系数据仓库架构提出了重大挑战,公司现在不仅要分析结构化表,还要分析半结构化和非结构化数据,这催生了数据湖的概念。

由于这些新挑战,业务分析系统的架构和概念已经发生了变化。在这篇博文的第一部分中,我们将介绍它的发展、创建的原因以及它解决的问题。

数据仓库
让我们想象一下我们需要转向数据驱动的解决方案的情况。我们已经 美国消费者电子邮件列表 有不同的销售、生产、供应链等系统。现在您可能想知道:为什么我不能直接访问生产数据库(例如我们的销售数据库)并基于该数据库创建报告?尽管此方法可行,但请考虑以下场景。也许您需要比较多个系统的数据,而不仅仅是销售系统。或者您想要分析生产系统中存储时间不超过(例如 30 天)的历史数据。此类场景的清单很长。这就是数据仓库发挥作用的地方。数据仓库可以定义如下:

数据仓库是存储来自各种来源的数据以用于历史和趋势报告的存储库。它充当各个学科领域的中心枢纽,并包含唯一可靠的信息来源(单一版本的事实)。


数据仓库架构

数据生命周期通常包括以下步骤:

1. 数据提取:该过程首先从各种源系统(例如事务数据库、平面文件、表格和外部数据源)提取数据。
2. 数据转换:提取后,数据被转换、清理并转换为适合分析的一致格式。
3. 加载数据:将转换后的数据加载到数据仓库中。
4. 数据存储:数据仓库中的数据通常以针对查询和分析优化的结构化格式存储,例如星型或雪花模式。该存储架构旨在快速有效地检索数据以进行报告和分析。
5. 管理元数据:提供数据信息的元数据在数据仓库环境中至关重要。它包括有关数据源、转换规则、数据沿袭以及帮助用户理解和信任数据的其他信息的详细信息。
6. 商业智能和报告:最后一步是使用商业智能工具和报告应用程序来分析数据并获得见解。用户可以创建仪表板、可视化和报告来支持公司内部的决策。