Download presentation
Presentation is loading. Please wait.
1
机器学习与数据挖掘 可视化技术
2
可视化技术 MDS (MultiDimensional Scaling) 在低维空间显示高维数据的内在结构 可能有复杂的内部结构
可能无法嵌入低维空间 2018年11月19日 Machine Learning
3
可视化技术 MDS (MultiDimensional Scaling) 已知对象的相互距离/相似度,显示结构 社交网络 无线传感器
机器人探测器 Mars Exploration Rover-B (NASA) kaname/ISTS_hapyou.ppt 2018年11月19日 Machine Learning
4
可视化技术 MDS (MultiDimensional Scaling) 通过对象间的距离/相似度,计算坐标
2018年11月19日 Machine Learning
5
可视化技术 MDS (MultiDimensional Scaling) 数学方法
2018年11月19日 Machine Learning
6
可视化技术 双曲可视化(Hyperbolic Visualization) 人眼中心区分辨率极高 往外迅速降低 聚焦中心 适当保持背景
2018年11月19日 Machine Learning
7
可视化技术 双曲可视化(Hyperbolic Visualization) 可视化显示应该符合人眼的特性 中心显示更多细节
快速看到想看的信息 边缘保持更多全局联系 理解中心细节的背景信息 浏览过程中可以轻易变换视角 2018年11月19日 Machine Learning
8
可视化技术 双曲可视化(Hyperbolic Visualization) 双曲几何:符合人眼视觉特性 M.C. Escher
2018年11月19日 Machine Learning
9
可视化技术 双曲可视化(Hyperbolic Visualization) 适合树、图的可视化(子节点数指数增加)
2018年11月19日 Machine Learning
10
可视化技术 相关反馈 反馈与检索是可视化技术的重要内容 相关反馈在可视化中是很重要的
可视化不仅包括向用户输出信息,还包括从用户输入人工处理后的信息 显示设备的硬件能力和人的视觉能力不可能让人把所有信息在瞬间全部获得 可视化过程是包含人的反复迭代过程 相关反馈在可视化中是很重要的 2018年11月19日 Machine Learning
11
相关反馈 相关反馈例:起始界面 http://nayana.ece.ucsb.edu/imsearch/imsearch.html
2018年11月19日 Machine Learning
12
相关反馈 相关反馈例:初始查询结果 2018年11月19日 Machine Learning
13
相关反馈 相关反馈例:用户标注反馈信息 2018年11月19日 Machine Learning
14
相关反馈 相关反馈例:改进的查询结果 2018年11月19日 Machine Learning
15
相关反馈 矢量空间相关反馈 对象(文档)用特征矢量表示,查询亦然 优化目标函数: sim (Q, Cr) - sim (Q, Cnr) X
O O X X O O O X (N: 文档总数;余弦相似度) Q 2018年11月19日 Machine Learning
16
相关反馈 矢量空间相关反馈 问题:大多数文档的相关/不相关属性未知 Rocchio算法 初始查询 权重 2018年11月19日
Machine Learning
17
相关反馈 矢量空间相关反馈 计算简单,直观 可以同时提高精度和查全率 对查全率更有效 一些系统不使用非相关反馈(=0)
用户只有非常关心查全率时才愿意花时间反馈 查全率低的查询:相关文档被反馈的比例高得多,所以对相关文档的描述全面得多 不相关文档千差万别,难以描述 一些系统不使用非相关反馈(=0) 2018年11月19日 Machine Learning
18
相关反馈 矢量空间相关反馈 缺点:高维空间问题 高维空间的特性和三维空间很不一样 随着维数增加,此种情况的概率指数增加
文档矢量空间:数十万维 随着维数增加,此种情况的概率指数增加 2018年11月19日 Machine Learning
19
相关反馈 概率相关反馈 P(tk|R) = |Drk| / |Dr|
P(tk|NR) = (Nk - |Drk|) / (N - |Dr|) 修改特征维的权重 不再保留初始查询 2018年11月19日 Machine Learning
20
相关反馈 使用的假设 用户有足够技能提交一个好的初始查询 相关模型是“优秀”的 如果初始查询很好,为何要反馈? 相关文档之间是相似的
高维空间…… 不相关文档之间也是相似的 至少是“聚类相似”的 “幸福的…相似,不幸的…各有各的不幸”:托尔斯泰 不相关文档和相关文档不相似 真的吗?(高维空间) 2018年11月19日 Machine Learning
21
相关反馈 搜索引擎中的使用情况 绝大多数都不使用相关反馈 弱反馈 反馈信息有限,性能提高有限 反馈代价昂贵,大型系统难以承受
操作复杂、时间长,用户不喜欢 弱反馈 Google “Similar Pages” Excite “More like this” 4%的查询使用此功能 只有约2/3的反馈可以提高性能 2018年11月19日 Machine Learning
Similar presentations