结构化、半结构化和非结构化数据

结构化数据(Structured Data)

指采用标准化格式的数据,具有明确定义的结构,符合数据模型,遵循持久的顺序,并且易于人类和程序访问。此数据类型通常存储在数据库中。其特征有:

具有符合数据模型的可识别结构

以行和列的形式呈现,例如在数据库中

有条理,便于明确理解数据的定义、格式和含义

位于文件或记录的固定字段中

在类中聚集了类似的数据组

同一组中的数据点具有相同的属性

信息易于人类和其他程序访问和查询

元素可寻址,从而实现高效的分析和处理

结构化数据包括:Excel文件、SQL数据库、Web表单等。

半结构化数据(Semi-structured Data)

此数据不在关系数据库中,不符合数据模型,但具有某些结构元素。虽然它不像结构化数据那么严格,但它确实有一些相似的元素。

此数据不能以行和列存储或存储在数据库中。这些数据包含元数据和标签,有助于对其进行适当的分组并描述其存储方式。半结构化数据是按层次结构进行组织的,尽管该组中的实体可能不具有相同的属性或特征。它很难实现自动化和管理,程序也很难访问。

半结构化数据包括:JSON数据、XML语言数据、电子邮件、网页文件等。

非结构化数据(Unstructured Data)

这种非结构化数据不符合任何其他模型,也没有易于识别的结构。它没有组织,也无法以任何合乎逻辑的方式存储。非结构化数据不适合任何数据库结构,没有规则或格式,程序也无法轻易使用。

非结构化数据包括:视频、报告、调查、网页文档、图像和备忘录等。

三者的优势和劣势

三种数据优劣互补,此消彼长,借结构化数据来分析。其优势:

(1)易于存储和访问

由于结构化数据具有明确定义的架构,因此在需要时很容易找到数据。无论是人还是计算机,相关数据库都可以快速轻松地找到。

(2)数据挖掘很简单

如果人工智能或机器学习需要数据,则很容易应用。即使使用手动计算,也可以轻松地从数据中提取知识。

(3)易于更新和删除

如果数据结构合理,更新和删除数据就成了简单的任务。

(4)可轻松扩展

由于数据适合预设的架构,因此很容易添加更多数据。流数据或不断刷新的数据会自动添加到正确的位置。

(5)更佳的商业智能

当数据结构化时,数据挖掘就简单得多。这意味着,任何预测或从中得出的商业智能假设都更有可能是正确和准确的。机器学习算法可以轻松抓取数据,从而实现简单的数据查询和操作。

(6)数据安全很简单

结构化数据存储在数据仓库中,该仓库通常具有安全层。虽然没有什么是 100% 安全的,但结构化数据的安全性易于实施,并遵循标准的行业最佳实践。

(7)轻松搜索信息

由于结构化数据可以根据文本字符串和属性建立索引,因此搜索操作变得简单。数据的性质很容易理解,数据背后的含义和关系也很容易被接受。

其劣势:

(1)存储不灵活

存储结构化数据的数据仓库或关系数据库的集合结构不灵活。无论出于何种原因,如果数据的要求发生了变化,则很可能需要更新所有结构化数据。

(2)有限的使用案例

因为所有数据都是以某种方式收集的,以用于某种用途,所以这就是它的使用方式。因此,结构化数据的灵活性较低。