第6章 数据工程(二)

news/2025/2/27 5:15:19

6.3 数据治理和建模

数据治理是开展数据价值化活动的基础,关注对数字要素的管控能力覆盖组织对数据相关活动的统筹、评估、指导和监督等工作,需要重点关注元数据、数据标准化、数据质量数据模型和数据建模等方面的内容。

6.3.1 元数据

元数据是关于数据的数据(Data About Data)。其实质是用于描述信息资源

或数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。

1.信息对象

元数据描述的对象可以是单一的全文、目录、图像、数值型数据以及多媒体(声音、动态图像)等,也可以是多个单一数据资源组成的资源集合,或是这些资源的生产、加工、使用、管理、技术处理、保存等过程及其过程中产生的参数的描述等。

2.元数据体系

根据信息对象从产生到服务的生命周期中,元数据描述和管理内容的不同以及元数据作用的不同,可以将元数据分为多种类型,从最基本的资源内容描述元数据开始,到指导描述元数据的元元数据,形成了一个层次分明、结构开放的元数据体系。

6.3.2 数据标准化

数据标准化的主要内容包括元数据标准化、数据元标准化、数据模式标准化和数据分类与编码标准化

数据标准化阶段的具体过程包括确定数据需求、制定数据标准、批准数据标准和实施数据标准

6.3.3 数据质量

衡量数据质量的指标体系包括完整性、规范性、一致性、准确性、唯一性、及时性等。数据质量是一个广义的概念,是数据产品满足指标、状态和要求能力的特征总和

(1)数据质量描述。数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素和数据质量非定量元素

(2)数据质量评价过程。是产生和报告数据质量结果的一系列步骤。

(3)数据质量评价方法。是通过应用一个或多个数据质量评价方法来完成的。数据质量评价方法分为直接评价法和间接评价法直接评价法通过将数据与内部或外部的参照信息(如理论值等)进行对比来确定数据质量间接评价法利用数据相关信息(如对数据源、采集方法等的描述)推断或评估数据质量

(4)数据质量控制。分成前期控制和后期控制两大部分。前期控制包括数据录入前的质量控制、数据录入过程中的实时质量控制后期控制数据录入完成后的后处理质量控制与评价

6.3.4 数据模型

根据模型应用的目的不同,可以将数据模型划分为3类:概念模型、逻辑模型和物理模型

6.3.5 数据建模

通常来说,数据建模过程包括数据需求分析、概念模型设计、逻辑模型设计和物理模型设计等过程

6.4 数据仓库和数据资产

6.4.1 数据仓库

数据仓库是一个面向主题的、集成的、随时间变化的、包含汇总和明细的、稳定的历史数据集合数据仓库通常由数据源、数据的存储与管理、OLAP服务器、前端工具等组件构成。

6.4.2 主题库

主题库建设数据仓库建设的一部分。主题库是为了便利工作、精准快速地反映工作对象全貌而建立的融合各类原始数据、资源数据等,围绕能标识组织、人员、产权、财务等的主题对象长期积累形成的多种维度的数据集合。例如,人口主题库、土地主题库、企业主题库、产权主题库、财务主题库、组织主题库等。

主题库建设可采用多层级体系结构,即数据源层、构件层、主题库层

6.4.3 数据资产管理

在数字时代,数据是一种重要的生产要素,把数据转化成可流通的数据要素,重点包含数据资源化、数据资产化两个环节。

(1)数字资源化。通过将原始数据转变为数据资源,使数据具备一定的潜在价值,是数据资产化的必要前提。数据资源化以数据治理为工作重点,以提升数据质量、保障数据安全为目标,确保数据的准确性、一致性、时效性和完整性,推动数据内外部流通。

(2)数据资产化。通过将数据资源转变为数据资产,使数据资源的潜在价值得以充分释放。数据资产化以扩大数据资产的应用范围、显性化数据资产的成本与效益为工作重点,并使数据供给端与数据消费端之间形成良性反馈闭环。

在数据资产化之后,将关注数据资产的流通、数据资产的运营、数据价值评估等流程和活动,为数据价值的实现提供支撑。

数据资产流通是指通过数据共享、数据开放或数据交易等流通模式,推动数据资产在组织内外部的价值实现。

数据共享是指打通组织各部门间的数据壁垒,建立统一的数据共享机制,加速数据资源在组织内部流动。

数据开放是指向社会公众提供易于获取和理解的数据。

数据交易是指交易双方通过合同约定,在安全合规的前提下,开展以数据或其衍生形态为核心的交易行为。

数据资产运营是指对数据服务、数据流通情况进行持续跟踪和分析,以数据价值管理为参考,从数据使用者的视角出发,全面评价数据应用效果,建立科学的正向反馈和闭环管理机制,促进数据资产的迭代和完善,不断适应和满足数据资产的应用和创新。

数据价值评估数据资产管理的关键环节,是数据资产化的价值基线

6.4.4 数据资源编目

数据资源编目实现数据资产管理的重要手段数据资源目录体系设计包括概念模型设计和业务模型设计等,概念模型设计明确数据资源目录的构成要素,通过业务模型设计规范数据资源目录的业务框架。

数据资源目录的概念模型数据资源目录、信息项、数据资源库、标准规范等要素构成。


http://www.niftyadmin.cn/n/5869474.html

相关文章

量子计算可能改变世界的四种方式

世界各地的组织和政府正将数十亿美元投入到量子研究与开发中,谷歌、微软和英特尔等公司都在竞相实现量子霸权。 这其中的利害关系重大,有这么多重要的参与者,量子计算机的问世可能指日可待。 为做好准备,,我们必须了…

Storage Gateway:解锁企业混合云存储的智能钥匙

在数字化转型的浪潮中,企业数据量呈指数级增长,传统本地存储面临成本高、扩展难、管理复杂等挑战。如何实现本地基础设施与云端的无缝协同,构建灵活、安全且经济的存储架构?AWS Storage Gateway 作为混合云存储的核心枢纽&#xf…

健康检查、k8s探针、Grails+Liquibase框架/health 404 Not Found排查及解决

概述 健康检查对于一个pod而言,其重要性不言而喻。 k8s通过探针来实现健康检查。 探针 k8s提供三种探针: 存活探针:livenessProbe就绪探针:readinessProbe启动探针:startupProbe 存活探针 存活探针决定何时重启…

ChatGPT入驻Safari,AI搜索时代加速到来

2月25日,人工智能领域巨头OpenAI宣布了一项重磅更新:为其广受欢迎的ChatGPT应用新增Safari浏览器扩展功能,并支持用户将ChatGPT设置为Safari地址栏的默认搜索引擎。这一举措标志着OpenAI在将ChatGPT整合进用户日常网络浏览体验方面迈出了重要…

【多模态大模型】GLM-4-Voice端到端语音交互机器人VoiceAI

写在前面:开源选手中最能打的 GLM-4-Voice,由智谱 AI 和清华大学共同研发,并发表论文 “GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot”,旨在打造智能且类人化的端到端语音聊天机器人。GLM-4-Voi…

GPT-5倒计时:2025年AI海啸来袭,机器与人类对话临近

大家好,我是Shelly,一个专注于输出AI工具和科技前沿内容的AI应用教练,体验过300款以上的AI应用工具。关注科技及大模型领域对社会的影响10年。关注我一起驾驭AI工具,拥抱AI时代的到来。 人工智能&AIGC术语100条 Shelly聊AI-重…

基于低代码的安全工具平台架构

随着网络安全的日益重要,安全工程师在日常工作中需要使用大量的工具和接口。然而,这些工具的多样性、复杂的安装方法以及数据格式的碎片化,使得安全工作变得繁琐且效率低下。为了解决这一问题,基于低代码的安全工具平台应运而生&a…

Junit框架缺点

JUnit 是 Java 生态中最流行的单元测试框架,广泛应用于单元测试和集成测试中。尽管它功能强大且易于使用,但也存在一些缺陷和局限性。以下是 JUnit 的主要缺点: 1. 功能相对固定 问题:JUnit 的核心功能相对固定,缺乏灵…