数据结构与算法 第九次上机作业讲评 助教:钟威 邮箱: 第一部分 文本的向量空间模型 下载搜狗新闻分类语料环境,搜狗分类语料。该语料一共有九个 类,每个类在一个文件夹下,内容分别是: C000008 财经 C000010 IT C000013 健康 C000014.

Slides:



Advertisements
Similar presentations
1 曾老師、各位同學大家好 ! 首先自我介紹 ; 個人聯合大學電機系 畢業,服完兩年兵役後, 75 年開始就 業 ; 四年內換了幾個工作, 79 年創立貿 特科技, 90 年、 91 年分別於大陸寧波 與昆山設立特一電子與柏特電子,經 歷 20 年的工作磨鍊,今天事業上算是 穩定、成熟 ! 承蒙曾老師看重,利用一.
Advertisements

中正國中 特教組長 粘玉芳 校內分機 : /02/21. 下列條件擇一: 一、身心障礙手冊 二、特殊教育學生鑑定及就學輔導會證明.
如何科学认识风水 主讲嘉宾孙百川 揭开神秘的面纱 揭开神秘的面纱 破除迷信的枷锁 破除迷信的枷锁 还易经本来面目 还易经本来面目 学易用易不迷易 学易用易不迷易.
魏晉南北朝的胡漢融和概況. 北朝的漢胡融和 1) 北朝漢胡 融和的概 況 2) 北魏孝文 帝推行的 漢化措施 及影響 北邊民族徙居中原,由 來已久。自曹魏招用胡 兵始,沿邊胡族內徙日 繁。不少胡族君主更傾 心嚮慕漢族文化,大力 促成胡漢的融和。北魏 推行的漢化措施,影響 尤為深遠。
示範課 -- 作文立意. 重溫作文構思課  構思嘗試深化  多角度思考  宜先剖析題目, 運用聯想, 循序漸進擴大範圍, 然後歸納材料, 定訂主題  同學的作品, 反映部分能夠掌握, 主線清晰, 層 層深入, 舉例恰當  但有部分同學只有枝葉, 欠缺主線, 更無中心思 想, 反映立意不足.
幼教人員法律事件探討 ─ 幼兒教育及照顧法 姚其壯 第一章 總則〈第一條至第六條〉 第二章 幼稚園設立及其教保服務 〈第七條至第十四條〉 第三章 幼稚園組織與人員資格及權益 〈第十五條至第二十八條〉 第四章 幼稚權益保障 〈第二十九條至第三十三條〉 第五章 家長之權利與義務 〈第三十四條至第四十條〉
畫面中的兩個人要去參加金融業儲備幹部的面試 活動,你認為誰的面試穿著是正確的? V.S 動動腦 V.S 動動腦 慎重 讓人感到 尊重 輕便 讓人聯想 隨便 畫面中的兩個人要去參加金融業儲備幹部的面試 活動,你認為誰的面試穿著是正確的?
IT 服务与业务发展融合 王维航 北京华胜天成科技股份有限公司 十分钟的悲剧.
高考心理辅导  福建中医药大学  林山  高考是什么?  真有那么 “ 苦大仇深 ” ?  为什么不能是 “ 快乐挑战 ” ?  高考(事) --- 认知(怎么个事 - 压力大小) --- 情绪反应(烦躁、焦虑、害怕 VS 自信、 从容、期盼) --- 行为表现(发挥正常.
蕭文生 中正大學法律系教授兼法學院院長.  壹、前言  貳、司法院釋字第六八四號解釋  參、大學生之受教權  肆、大學自治之範疇  伍、大學生之其他基本權利  陸、救濟管道之改善  柒、結語.
大陸學歷採認相關問題 楊景堯 淡江大學中國大陸研究所. 學歷採認的定義與範圍 廣義的定義 — 承認學歷 狹義的定義 — 具備任職, 任教, 考試資格 範圍 — 高等教育為主 台灣人取得大陸學歷的採認 大陸人取得大陸學歷的採認 外國人取得大陸學歷的採認.
提昇餐廳供餐品質 及服務滿意度 標竿學習主題 標竿學習計劃排定進度 分析客戶對餐廳供餐滿意度偏低原因:
第八課 謝 天. 第八課 謝 天 作者主旨文章作法 民國 陳之藩 謙卑感 恩,功 成不居 以「謝天」的傳統觀念 為中心,經由疑惑、思 索、領悟三個層次的敘 述,賦予新的意義 ★題目含義:表示對很多「人」的感謝。
模仿貓 記敘文 ( 童話 ) 作者: 海倫、波頓 課文朗讀課文朗讀、模仿大賽 作者 美國女畫家,她用藝術家的嚴 肅態度和精神,幫兒童讀繪畫 插圖,並得過許多次獎。她的 作品藝術價值高,有雨本成為 美國美術協會兒童讀物展覽的 入選作品。她常常自寫自畫, 文筆很不錯。
蔬菜大觀園 V.S 大家來種菜 蔬菜的外觀及分類  蔬菜是我們常吃的食物,蔬菜的外觀形狀不 同,有各種不同的顏色、形狀、氣味等,嚐 起來的味道也不相同。  蔬菜的營養價值不盡相同,可實用的部位也 不同,有的是根、有的是莖、有的是葉、有 的是花、有的是果實,還有的是種子。  依據蔬菜種類和食用部位的不同,可以將蔬.
身心障礙鑑定醫療服務流程 衛生福利部南投醫院 社會工作室主任 黃穎雯. 目錄 舊制、新制類別 新制鑑定申請流程 南投醫院鑑定流程 常見問題.
社工之路的通行證 --- 社工師證照 考試心得分享 東吳大學社工系碩一 呂錦綸. 一、考前準備 閱讀主流老師的書籍、掌握各科概要。 閱讀主流老師的書籍、掌握各科概要。 重視概念性的知識,打好基礎是很重要低 ~ 重視概念性的知識,打好基礎是很重要低 ~ 是必備讀物 ! 是必備讀物 ! 勤作考古題,參考當年度碩士班考試及高.
第二框 生命科技与生命伦理.
政府的权力:依法行使. 政府的权力:依法行使 重庆“最牛钉子户”事件 九龙坡区法院一名张院长称,法院已组织6次调解,有时1天就有2次调解。3月28日下午,九龙坡区委书记郑洪还专门接待吴苹3小时。1日,在法院组织下,拆迁双方基本达成口头协议,今天下午,双方签字生效。按协议,吴苹选择了异地实物安置方案,开发商将其在沙坪坝开发的一处门面房,按同样面积交付吴苹,吴同意此方案.
第八課 馮諼客孟嘗君 謀職達人 來也.
心理学辅导.
蔬菜大觀園V.S大家來種菜 高雄市楠梓區翠屏國中小教師 林珮如
“腸”保安康 現代人的腸胃保健.
如何做個稱職的父母 財團法人雲林縣雲萱婦幼文教基金會 王招萍.
那一段「詩聲戀」的日子 孟令今老師.
獨立國家國協 1.地形 2.氣候 3.產業.
綜合活動領域 教學分享.
國小學童財金生活教育 主講人: 秘書長陳琬惠 社團法人中華民國財金智慧教育推廣協會.
诚信人生 ---高二(2)班主题班会.
兩岸融合教育之議題: 以東莞台商子弟學校為例
航向未來 飛揚國際 —關於華航與長榮的財務報表 指導老師: 組員:張甄芸 4A 鄭雅華 4A070079
世界史.
面对苦难 (约翰福音15:18-16:4) 2/22/15 我们不属世界,神从这世界中拣选了我们,却没有为我们另设一处“世外桃源”,乃是让我们住在地上,以他的信实为粮,以他的生命为光。既然在这被罪玷污的世界中,就会有苦难仇恨,然而它们不能打倒我们,因为它们 无目的 无缘故 无胜算 在世上我们虽有苦难,也可以放心,因为耶稣已经胜了世界。
《少年小樹之歌》簡介: 凡是讀過這本書的人 一定永遠忘不了他們是在何年何月何地 還有為什麼買下它的 小樹的讀者們將永遠記得
   時間 國立臺南師範學院數學教育系     謝  堅.
如果你没法阻止战争,那你就把战争的真相告诉世界
程焕文 中山大学资讯管理学院 2015年10月17日 山东·临沂
102學年度第二學期 208家長座談會 歐陽美慧.
小綠葉蟬的『祕蜜』~ 蜜香烏龍茶.
個人投資理財與策略 富蘭克林:邱良弼.
第六章 中国公务员制度 干部 VS 公务员.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
恒泰期货研究所2016年 期债暴跌告一段落,短期波动降低 国债期货周报
第二节 留 数 一、留数的引入 二、利用留数求积分 三、在无穷远点的留数 四、典型例题 五、小结与思考.
高三班級輔導 輔導教師:李倩玉老師 日期: ~2.21
科技學院主計業務講習及實務交流座談 主計室專門委員 黃建芬.
鄭成功的反清復明 背景 荷西競逐 = 明清交替 ☆桂王(永曆) 1644明亡 → 南明政權(18年) → 1662亡(吳三桂) 鄭成功 荷西競逐 = 明清交替 ☆桂王(永曆) 1644明亡 → 南明政權(18年) → 1662亡(吳三桂) 鄭成功 1. 唐王賜姓:朱成功.
全港小學校際辯論賽 田家炳盃 田家炳教育基金 保良局田家炳小學 iDebate.hk 保良局田家炳小學 田家炳教育基金 iDebate.hk
第三单元 单元写作学案 确立自信 学习反驳.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
談情說愛 臺東縣新生國小 高年級性別教育宣導 主講人:葉菁華
闲言碎语.
二十 石钟山记.
中國房市面面觀 中國房地產未來走向與機會.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
第一章 语言文字运用 专题五  挖掘隐含信息,准确实现图文转换.
沃尔玛VS明湖 大家好,我是世界上最大的连锁零售企业 沃尔玛… 哟,我是明湖,位居茂名市地方零售业之首,夜景下的我多美,多来关顾哦!
拿破崙帝國的起落 - 從法蘭西第一共和到第一帝國
性別平等教育融入全民國防 建議融入章節 第一章全民國防導論 第二節全民國防教育的重要性 於討論瑞士、以色列全民皆兵議題時融入.
創世記(五) 亞伯拉罕、以撒和雅各 【 本課簡介 】 亞伯拉罕、以撒和雅各這三個人,在上帝眼中都不是道德完美的人,沒有一個能說自己比另外兩個好。聖經誠實地告訴我們這三個人都說過謊,聖經不但沒有美化這三位偉大的聖徒,反而叫我們看見這三人跟我們一樣平几,也有軟弱。既然如此,上帝揀選他們是看上他們哪一點呢?上帝是看上他們的信心,這三個人都相信上帝,上帝能在相信的人身上行神蹟,上帝寧願要相信祂的人,而不是好人。聖經甚至說亞伯拉罕信上帝,上帝就以此為他的義。
陸正案,為臺灣早期一宗幼童綁架撕票案。 小四童陸正自補習班下課後失蹤就再也沒看到人了 事後歹徒勒索贖金新臺幣一佰萬元,陸正母親在歹徒指定地點中山高速公路南下九十九點九公里處交款,但肉票仍未釋回,事隔九個多月宣告偵破。 依據共犯羅濟勳、鄧運振指述,陸正被帶上車後就大叫,邱和順就摀住他嘴,陸正則咬邱和順的手,邱和順痛到大罵:「╳你娘敢咬我,找死。」然後掐他的喉嚨,後來車開到山上去,邱和順拿刀刺陸正的肚子兩刀,再將陸正衣服都脫光,把陸正套進肥料袋丟棄到海邊。
管理第五章 領導 管理:個案、理論、辯證3/e.洪明洲 著.前程文化 出版.
排列组合 1. 两个基本原理 分类加法计数原理 分步乘法计数原理.
第一节 大数定律 一、问题的引入 二、基本定理 三、典型例题 四、小结.
第三节 常见天气系统.
微信商城系统操作说明 色卡会智能门店.
指導老師:邱登裕老師 組員:B 張萬鈞 B 鄭瑞傑 B 蔡譯陞 B 胡瑜真
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
性騷擾與性別平等議題 分享人:毛菁華.
Presentation transcript:

数据结构与算法 第九次上机作业讲评 助教:钟威 邮箱:

第一部分 文本的向量空间模型 下载搜狗新闻分类语料环境,搜狗分类语料。该语料一共有九个 类,每个类在一个文件夹下,内容分别是: C 财经 C IT C 健康 C 体育 C 旅游 C 教育 C 招聘 C 文化 C 军事 做过的预处理包括:去掉多余的空行和空格,丢弃一些无法解码 的字符以及控制字符,正则过滤掉一些网页标签(如 >[1]; 下一页 等),以及分词和词性标注。 后缀为.seg 的文件是经过分词的语料(由一个个空格分隔开的 token 组成,每个 token 格式为 / )

任务 1 请大家给出一个全局的词频统计(建议采用 Trie 树,每个汉字是 由两个字节组成,每个字节的编码空间为 );同时统计每 个词的 IDF 和 ICF ( ICF 与 IDF 类似,是词对于类的分布包含的信 息量)。结果输出为文件,每个词条占一行。 文件读取 构建 Trie 树遍历 Trie 树 处理流程:

文件读取 采用循环逐个读入所有文件 sprintf 用来生成文件路径, fopen 用来打开文件(在 vs2012 以上版本默认用 fopen_s ,设置后可用 fopen ) 一次读取一个字符串,可以根据词性标注等去除无用字符

构建 Trie 树 Trie 树节点 Node 一个中文字符占两个 char 把 char 型转成 unsigned char 型 统计这个词在多少篇文章中出现 过,用于后面计算 IDF 统计这个词在多少个类别中出现 过,用于后面计算 ICF

遍历 Trie 树 递归遍历 Trie ,如果找到某个节点的词频大于 0 ,说明这里 存在一个词,那么计算这个词的 idf 和 icf ,并且输出到文件; 否则递归调用下一层。 str 用来存放当前的词

任务 2 统计每篇文章的词频( TF )向量。实现按 TF*IDF 的文档相似度 检索(建议先直接生成按 TF*IDF 向量夹角余弦值构成的文档相似 矩阵),即输入一篇文档的 ID (类 ID+ 文章名),输出所检索的 目标文章内容,然后再输出前 3 篇跟这篇文章最相似的文章( ID+ 内容)。可以支持循环输入响应, esc 退出系统。 计算 TF- IDF 构建 TF- IDF 矩阵 计算相似 度 处理流程:

计算 TF-IDF Tf-idf=tf*idf 前面任务一已经计算过 idf ,现在只需计算 tf 。 计算 tf 时,我们需要统计一个词在一篇文章中出现的总次数和这 篇文章的总词数,这时需要纪录每个词在出现过的文章中的词频。 部分同学在 Node 里面开 个元素的数组,用来存 这个单词在各篇文章中的 tf 值,显然一个单词不会在所 有 篇文章中都出现,而且这样内存空间会不够用 改进方法: 因为一个单词不会在所有文件中出现,所以 可以在 Node 里面构建一个链表来代替 tf 数组, 用来存出现了这个单词的文章的 id 和 tf 值。

在读取完一篇文章内容并加入 Trie 树后调用 calculate_tf 函数,计算这篇文章的 tf 向量,然后 在 dfs 遍历 Trie 树的时候计算 tf-idf 。 13 级杨炎锦同学的部分程序

TF-IDF 矩阵的存储 矩阵大小: 17910* 几十万,用一个二维数组显然存不下。 因为一篇文章一般只有几百个词,而矩阵行的维度为几十万,所 以这个矩阵有很多 0 元素,为稀疏矩阵。这样我们可以采用稀疏 矩阵的形式来存储。 稀疏矩阵有三元组、十字链表等存储形式,但在这里我们只需要 存词的 id 和 tf-idf 值,所以我们对篇文章建立一个二元结构体数组 用来存这篇文章的词的 id 和 tf-idf 值。

14 级白珂同学的部分程序

相似度计算 由 tf-idf 矩阵计算所有文章两两之间的相似度运算量会特别大(有 同学计算相似度矩阵花费 3 个多小时),很多同学采用的方法是 输入一篇文章,然后去计算这篇文章和其他所有文章的相似度, 再找出相似度最高的三篇文章,然后输出。

第二部分 矩阵特征值的计算 在上一步工作生成的文档相似矩阵及文档相似检索功能的基础上, 实现关键词检索。及输入一个或多个关键词,匹配所有包含这个 关键词的文档,然后按文档内容与该关键词的相关度排降序,输 出前 5 篇文档的内容。 该功能实现的基本流程是: 1 、按关键词检索到所有匹配上的文档,比如有 m 篇。得到这 m 篇 文档的 TF*IDF 向量构成的 m*n 的矩阵( n 为词向量的长度) 2 、求出该矩阵最大特征值对应的特征向量,按照与该特征向量的 夹角的余弦值排降序,输出前 5 篇文档的内容。(选做,参考 HITs 算法)。

按关键词检索文档 方法 1 :遍历所有文档去找出包含该词的文章。有同学采用读取 所有.seg 的分词文件来做匹配,从而找出包含该词的文章。 方法 2 :像前面存储 tf-idf 矩阵那样,前面我们是构建一个每篇文 章到该文章所有词的映射;这里可以对每个词构建一个该词到包 含该词的所有文章 id 的映射,这样输入一个词我们可以很快找到 包含该词的所有文章。

特征值方法找相关度最高 5 篇文章

谢谢!