发布:admin2025-10-24 20:10:51 7454条浏览分类:世界杯直播网
数据库学习笔记(一) | 数据(Data)的定义和种类
什么是数据(Data)结构化数据(Structured Data)半结构化数据(Semi-structured Data)非结构化数据(Unstructured Data)
数据(Data)和元数据(Metadata)大数据的5个V
什么是数据(Data)
数据是数据点(data points)的集合,也称数据集(data set)。 数据点通常是单个事实、单个实体、单个问题点… 一个日期、一种颜色、一个地址、一张购物小票、一部电影、一个喜欢的电影列表、一本书、一本书的作者、一张图…都是数据。
结构化数据(Structured Data)
具有高度组织性(有序)。给定类型的所有记录都有:
一样的字段;字段是强类型的(即不是同类型的数据不能存入);值存在完整性约束。e.g. 非空 关系模型就是典型的例子。
数据是结构化的。DDL(data definition language) 用来定义结构。DDL类似于在Java、C++或Python中定义类。数据实例(行、元组)必须以与对象匹配类定义相同的方式匹配DDL。关系模型具有的其他性能:
实体完整性。每个数据表必须存在主键(Primary Key),且主键必须非空且唯一。参照完整性。参照的关系中的属性值必须能够在被参照关系中找到或取空值。即,若属性或属性组F是基本关系R的外键,它与基本关系S的主键Ks相对应,则对于R中的每个元组,其在F上的值必须为S中的某个主键值或空值(当F的每个属性均为空时)。索引。辅助数据结构,加快查找速度。
e.g. 有数据表students。执行sql语句 select * from students limit 3; 得到的结果是结构化数据。 对结构化数据,添加的数据必须具有相同字段。
半结构化数据(Semi-structured Data)
有带字段的记录。可以解析数据以将记录和字段提取到数据结构中。不同记录可以具有一些公共字段。任何记录都可能具有任何类型的任何字段。文档是典型示例。常见的结构:标题、列表、脚注。不同的文档具有不同的组合、嵌套。
e.g. JSON解析后的结果是半结构化数据。
非结构化数据(Unstructured Data)
没有明确的记录或定界符。只是一些处理引擎可以解析的字符/字节序列。
e.g. 图像、音频文件。以下程序是解析图片得到非结构化数据的示例。
fn = "C:\\Users\\liruo\\OneDrive\\图片\\I94.jpg"
image_data = open(fn, "rb")
image_data = image_data.read(100)
print(image_data)
运行结果如下:
C:\Users\liruo\AppData\Local\Programs\Python\Python37-32\python.exe C:/Users/liruo/OneDrive/文档/Database/hw1/hw1_rl3091/tests/simpletest.py
b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01\x01,\x01,\x00\x00\xff\xdb\x00C\x00\x08\x06\x06\x07\x06\x05\x08\x07\x07\x07\t\t\x08\n\x0c\x14\r\x0c\x0b\x0b\x0c\x19\x12\x13\x0f\x14\x1d\x1a\x1f\x1e\x1d\x1a\x1c\x1c $.\' ",#\x1c\x1c(7),01444\x1f\'9=82<.342\xff\xdb\x00C\x01\t\t\t\x0c\x0b\x0c'
Process finished with exit code 0
数据(Data)和元数据(Metadata)
元数据是描述数据的数据,提供有关其他数据的信息。 元数据有三种类型:描述型元数据,结构型元数据,管理元数据。
描述型元数据描述了用于发现或标识数据的资源。可以包含诸如标题、摘要、作者和关键词之类的元素。结构型元数据是有关数据容器的元数据,并指示如何将复合对象组合在一起。例如如何将页面排序以构成章节。它描述了数字资料的类型、版本、关系和其他特征。管理元数据提供了有助于管理资源的信息。例如某个资源是如何创建、何时创建的,它的文件类型和其他技术信息、以及谁可以访问它。
e.g. Java的反射机制。
sql语句 select * from students limit 3; --> 获取到数据 decribe students; --> 获取到元数据
大数据的5个V
Volume(体积):数据的规模。Velocity(速度):分析数据流。Variety(多样性):数据的不同形式。Veracity(真实性):数据的不确定性。Value(质量):数据的质量。