非结构化数据和数据仓库

1 非结构化数据

  • 通信

    容量和生命周期较短,分布有限

  • 文档

    与通信相反

2 结构化与非结构化集成

匹配困难。

两者间的公共连接是文本。

需要考虑以下问题:

  • 匹配:是否建立连接
  • 上下文:推断关系
  • 同名:是否是同一事物
  • 别称:同一事物的不同名称
  • 缩写
  • 不完整
  • 词干

匹配前准备:

  • 删除无意义的词语
  • 将单词简化为词干
  • 概率匹配:搜集尽可能多的数据说明两者间的关系。匹配变量越多,有关系的可能性越大。

3 主题匹配

(1) 产业特征主题

先划分主题,在收集匹配信息。根据主题逐一与非结构化数据匹配。

(2) 自然事件主题

先收集匹配信息,再划分主题。

(3) 主题词关联

只要结构化环境中出现了非结构化环境中的关键词就建立匹配。意义不大,其容易误导。

(4) 元数据关联

通过元数据与主题或产业特征主题关联。

4 两层数据仓库

一层非结构化数据,一层结构化数据。

查看非结构化数据需要注意:

  • 非结构化数据以低粒度级存在
  • 需要一个时间要素
  • 数据是按照主题组织起来的

(1) 与结构化层关系

匹配方法:

  • 标识符
  • 紧密标识符(概率匹配)
  • 关键字到元数据或库

匹配依据:

  • 通信

    基本标识符,如邮件地址、电话号码等

  • 文档

    根据词语和主题

标识符唯一确定一条记录,紧密标识符大概率确定一条记录。

(2) 减少非结构化数据量

  • 删除通信废话
  • 存储上下文。通常使用关键词前后的语句存储代替整篇文档存储。
  • 分开存储通信和文档
  • 跟踪使用频率,并选择合适的存储策略

(3) 非结构化数据可视化

与结构化类似,实质是数字的显式。

5 自组织图SOM

非结构化数据形象化的结果,显示不同词语和文档聚集方式,并根据主题显示。

特点:

  • 展示信息群:非结构化共性和关系
  • 具有向下钻取能力
  • 提供快速关联文档的能力

image-20200624111241355

image-20200624111309971

参考资料

《数据仓库》