1 非结构化数据
通信
容量和生命周期较短,分布有限
文档
与通信相反
2 结构化与非结构化集成
匹配困难。
两者间的公共连接是文本。
需要考虑以下问题:
- 匹配:是否建立连接
- 上下文:推断关系
- 同名:是否是同一事物
- 别称:同一事物的不同名称
- 缩写
- 不完整
- 词干
匹配前准备:
- 删除无意义的词语
- 将单词简化为词干
- 概率匹配:搜集尽可能多的数据说明两者间的关系。匹配变量越多,有关系的可能性越大。
3 主题匹配
(1) 产业特征主题
先划分主题,在收集匹配信息。根据主题逐一与非结构化数据匹配。
(2) 自然事件主题
先收集匹配信息,再划分主题。
(3) 主题词关联
只要结构化环境中出现了非结构化环境中的关键词就建立匹配。意义不大,其容易误导。
(4) 元数据关联
通过元数据与主题或产业特征主题关联。
4 两层数据仓库
一层非结构化数据,一层结构化数据。
查看非结构化数据需要注意:
- 非结构化数据以低粒度级存在
- 需要一个时间要素
- 数据是按照主题组织起来的
(1) 与结构化层关系
匹配方法:
- 标识符
- 紧密标识符(概率匹配)
- 关键字到元数据或库
匹配依据:
通信
基本标识符,如邮件地址、电话号码等
文档
根据词语和主题
标识符唯一确定一条记录,紧密标识符大概率确定一条记录。
(2) 减少非结构化数据量
- 删除通信废话
- 存储上下文。通常使用关键词前后的语句存储代替整篇文档存储。
- 分开存储通信和文档
- 跟踪使用频率,并选择合适的存储策略
(3) 非结构化数据可视化
与结构化类似,实质是数字的显式。
5 自组织图SOM
非结构化数据形象化的结果,显示不同词语和文档聚集方式,并根据主题显示。
特点:
- 展示信息群:非结构化共性和关系
- 具有向下钻取能力
- 提供快速关联文档的能力
参考资料
《数据仓库》