非结构化数据和数据仓库

发表于 2020-06-24 | 分类于数据仓库 |

1 非结构化数据

通信

容量和生命周期较短，分布有限
文档

与通信相反

2 结构化与非结构化集成

匹配困难。

两者间的公共连接是文本。

需要考虑以下问题：

匹配：是否建立连接
上下文：推断关系
同名：是否是同一事物
别称：同一事物的不同名称
缩写
不完整
词干

匹配前准备：

删除无意义的词语
将单词简化为词干
概率匹配：搜集尽可能多的数据说明两者间的关系。匹配变量越多，有关系的可能性越大。

3 主题匹配

(1) 产业特征主题

先划分主题，在收集匹配信息。根据主题逐一与非结构化数据匹配。

(2) 自然事件主题

先收集匹配信息，再划分主题。

(3) 主题词关联

只要结构化环境中出现了非结构化环境中的关键词就建立匹配。意义不大，其容易误导。

(4) 元数据关联

通过元数据与主题或产业特征主题关联。

4 两层数据仓库

一层非结构化数据，一层结构化数据。

查看非结构化数据需要注意：

非结构化数据以低粒度级存在
需要一个时间要素
数据是按照主题组织起来的

(1) 与结构化层关系

匹配方法：

标识符
紧密标识符（概率匹配）
关键字到元数据或库

匹配依据：

通信

基本标识符，如邮件地址、电话号码等
文档

根据词语和主题

标识符唯一确定一条记录，紧密标识符大概率确定一条记录。

(2) 减少非结构化数据量

删除通信废话
存储上下文。通常使用关键词前后的语句存储代替整篇文档存储。
分开存储通信和文档
跟踪使用频率，并选择合适的存储策略

(3) 非结构化数据可视化

与结构化类似，实质是数字的显式。

5 自组织图SOM

非结构化数据形象化的结果，显示不同词语和文档聚集方式，并根据主题显示。

特点：

展示信息群：非结构化共性和关系
具有向下钻取能力
提供快速关联文档的能力

参考资料

《数据仓库》