指導老師 : 黃三益教授 M 徐慎宜 D 林皇吉 D 唐 筠

Slides:



Advertisements
Similar presentations
解读 2012 年度 “3000 人计划 ” 申报公告 南京经济技术开发区 组织人事处. 组织架构 1 公告解读 3 流程进度 申报系统 4 培训内容 2.
Advertisements

DOC 推廣活動 月餅星光大道. 中秋  農曆八月十五日,是中國傳統的中秋節。 古人將一年分成春夏秋冬四季,而一季又 分為孟、仲、季三月,八月是仲秋之月, 而十五又是這個月中間的一天,正處在秋 季的正中,所以把八月十五稱為「中秋」 或「仲秋」。  中秋夜,月亮最圓,月色最美,因此人們 把月圓看成是團圓的象徵,同時也稱八月.
1 徵題網頁說明. 大考中心題庫向高中教師公開徵題辦法 壹、目 的 大考中心謹向全國高中教師廣徵試題,以擴大試題來 源,並豐富試題的創新度與多樣性,期能藉助高中教師 的教學與命題經驗,使題庫試題更貼近考生的學習範疇。 貳、實施期間:自即日起。 參、徵題對象 一、高中現任學科教師、代理教師及退休教師。
中 五 級中 五 級 戰後國共關係 與 中華人民共和國成立 中國歷史科 1 )認識國共政治協商的概況 2 )認識國共內戰的概略經過及結果 3 )中華人民共和國成立.
社会科学、人文艺术研究的新视角 — 有效利用 SSCI 探索研究前沿 石翡 汤森路透科技与医疗集团.
不吃早餐的影響: 體內的葡萄糖無法 足夠供應給大腦與 肌肉,會感覺疲勞, 注意力無法集中。。 營養的早餐:乳品 + 全榖類食品 + 蛋白質 + 水果 早餐你吃了嗎?
北京师范大学生命科学学院 北京师范大学生命科学学院 余跃强 章腾勋 王航 余跃强 章腾勋 王航 2 目 录目 录目 录目 录  前言 前言  概述 概述  形态和生活史 形态和生活史  寄生适应特征 寄生适应特征  致病机制与症状 致病机制与症状  诊断 诊断  流行情况 流行情况.
人文地理專題研究 王志明.
文書處理 總務處文書組長 楊琇惠 主講.
2014年爱婴医院复核方案解读 省卫生计生委妇幼处 邱灵.
导言 第四 单元 凡尔赛—华盛顿体系与第二次世界大战
市直单位财务明细信息表 填报说明 珠海市财政局 2013年12月 1.
职业教育.课程改革.项目课程 江苏省太仓中等专业学校校长 江苏省职业教育教学改革创新指导委员会委员 江苏省职业教育课程开发研究中心组组长
社團經費申請 及核銷相關規定 製作:世新大學會計室.
会计实验.
2014届毕业生毕业论文与毕业实习动员 一、郑州航院毕业论文工作规定 二、法律系毕业论文工作安排 三、法律系毕业论文格式要求
最新消息插播! 意見反應: 我是貴校學生的家長,請問貴校該給工讀生的薪水何時才肯發呢?現在已經是十一月中了,九月十月的薪水還沒入帳我們不知道是卡在哪個環節,但貴校是否知道有多少同學需要這筆錢去過生活、繳納房租? …………………………………………………….? 請各位報帳同仁、專兼任助理們務必養成平時定期清帳的習慣,不要等到年終或結案前才開始緊張。
第5章 排版的高级应用.
高水平科技论文 写作、投稿与发表 彭超群 联系电话: 传 真:
校园信息管理系统 河北科技大学网络中心 2000/4/10.
清华经历 1997年清华大学水利工程系本科学位 1997年清华大学计算机科学双学位、 2000年清华大学水利工程系硕士学位
“卓越工程师”培养的质量保障体系构建探索
项目十一:毕业论文版面设计 ——Word长文档版面设计.
项目十二: 毕业论文的整体优化 ——Word长文档综合排版
土地出让转让的政策与实务 岳晓武 国土资源部利用司.
老師:鍾郁芬 老師 指導 組長:陳欣怡 組員:曾郁雯 倪敏富 王宣化 簡宏倫 黃郁涵
專題報告製作 胡舉軍 助理教授 資訊管理學系 樹德科技大學
题目回顾 泉水在地下蓄积,一旦有机会,它便骄傲地涌出地面,成为众人瞩目的喷泉,继而汇成溪流,奔向远方。但人们对地下的泉水鲜有关注,其实,正是因为有地下那些默默不语的泉水的不断聚集,才有地上那一股股清泉的不停喷涌。 请根据你对材料的理解和感悟,自选一个角度,写一篇不少于800字的文章,文体自定,标题自拟。要求:立意明确,不要套作,不得抄袭。
广 东 技 术 师 范 学 院 美术学院 装潢专业 2012级(3)班 郑可珊
第十九章 散文 教学要求: 了解散文的含义、分类、特点,学习写作抒情散文。 重点: 散文的特点,散文的写作。 难点: 散文的写作训练。
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
PISA科学试题和国内初中科学学业水平测试试题比较分析
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
一流的科技信息推动一流的科学研究 SCI数据库在科研中的价值与应用
FRONTPAGE.
CNKI走进上海农林职业技术学院 同方知网(北京)技术有限公司 上海分公司 培训讲师: 卢娜
技师专业论文与答辩 技师专业论文与答辩辅导 2016年3月.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
模块4 授导型教学的设计 陈冬.
博硕士研究生学位论文电子版 在线提交说明 华中师范大学图书馆
农机化项目管理培训会 柳州市农机局 郑崇宁
一二·九运动                                                                    0712班.
中小学教育科研课题的选择 王典伟.
氣候變遷對南台灣降雨造成之影響 研究背景 結果與討論 研究方法 結論 朱振豪1 、彭康豪1 、莊煌甲1 、邱俊彥2,* 研究目的
茶联盟茶文化季 茶文化台湾之旅 签证指南.
出口农产品风险管理 企业分类及监督管理表格
让微笑伴您一生.
时代发展趋势: 科学人文交融 华中科技大学 杨叔子 2010年2月修改.
● 四 (2)班 家 长 网络交 流 会 ● 快乐成长 与您 共享 家庭 学校 社会.
学科科研工作与科研 奖励政策解读讲座 朱文斌 博士 教授 2015年9月8日.
班级小插曲.
第9章 金融监管.
第十三章 調查研究.
首都师范大学.
美国物理教师学会年会 参会介绍 乐永康
電 子 工 程 系 資料庫系統期末報告 門市人流管理系統 組員: 吳事佳 楊琮琪
Non-exhaustive clustering
關心今天的老人, 就是關心明天的自己 作者:周儀.
大綱 *專題演講介紹 *大陸醫療的改革與發展 *海報發表文章分享 2012海峽兩岸醫院院長論壇行後報告 ‧台北
《郑伯克段于鄢》 黎兰老师制作.
《高中信息技术校本课程》解析 知识单元三 文档编辑与处理 编写:南京五中 孙泓 汪斌 内容解析:孙泓
微信商城系统操作说明 色卡会智能门店.
ACM Digital Library 進階利用與實作 郭珮琪主講
IEP 評鑑 張雅雁.林妤芳.李允文. 吳庭耀.張祖銘..
僅首頁出現本title即可 責任的故事(二年級) 生命最美麗動人的本能 簡報製作:瑞柑國民小學 鄭雙慧 文/ 何秀芳.
仲裁处理细则及常见问题解析.
嘉義縣立溪口國民中學 辦理96年度推動自由軟體學校資訊融入教學
4. 曾文水庫越域引水環評報告彙整 資料來源: 1. 曾文水庫越域引水下游輸水工程環境影響差異分析暨環境現況差異分析及對策檢討報告(定稿本)
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
手机淘宝“变形”产品—微淘 操作流程指南 (内测版).
Presentation transcript:

指導老師 : 黃三益教授 M954020009 徐慎宜 D954020004 林皇吉 D954020008 唐 筠 資料探勘與知識發現 期末專案報告 指導老師 : 黃三益教授 M954020009 徐慎宜 D954020004  林皇吉 D954020008 唐 筠

議程 簡介 背景 動機與目的 研究流程 資料探勘程序 結論 研究限制 未來展望 2008/6/17

簡介 背景 文字探勘是資料探勘的一環,透過文字探勘的理論與 技術,可對非結構化的資料進行深入挖掘資訊,洞察 文件的潛在價值,提供決策者評估與實行依據 一般文字探勘應用大量的文件資料庫,提供資訊蒐集、 訊息過濾、事件相關、趨勢預測、犯罪分析、案例追 蹤、知識管理、知識萃取與決策輔助等多種相關應用 2008/6/17

簡介 動機與目的 本研究希望透過分析此該基金會所贊助的計畫摘要的 內容,並透過摘要的分析,得知該基金會所贊助的計 畫案類型比例的分部,分析目前的研究計畫領域趨勢, 進而做為提供調整經費預算的比重等重要依據 說明: 美國國家科學基金會 ( National Science Foundation, NSF ) 為 一獨立的美國政府機構,依據經修正之1950年國家科學基 金法案 ( the National Science Foundation Act of 1950 ) 所設 置 2008/6/17

簡介 研究流程 確立研究目標 資料蒐集與確定 資料前置處理 資料整合 資料清理 資料轉換 資料精簡 模型建立與組成 數據分析與探討 結論 簡介 研究流程 確立研究目標 資料蒐集與確定 資料前置處理 資料整合 資料清理 資料轉換 資料精簡 模型建立與組成 數據分析與探討 結論 2008/6/17

資料探勘程序 1.轉換企業問題成為資料探勘問題 資料探勘程序 1.轉換企業問題成為資料探勘問題 為了瞭解美國國家科學基金會所贊助的計畫比例,讓 基金會對於所贊助的計畫在領域部門的比例有所了解, 因此轉換此問題為資料探勘的問題即是經由分析摘要 文件後,摘要內容文字所出現重要文字的頻率比較, 可以得知目前或是該年度的研究趨勢與領域方向,除 了可以作為未來研究趨勢的導引,也可以做為將來調 整經費贊助比例的依據 2008/6/17

資料探勘程序 2.選擇合適的資料 資料來源 UC Irvine Machine Learning Repository 網站的NSF Research Award Abstracts 1990-2003的資料集 網址為 http://archive.ics.uci.edu/ml/datasets/NSF+Research+Award+A bstracts+1990-2003 該網站為熱門且實用的資料集提供網站,除了提供資料集 也接受研究者提供與分享自己的資料集,並有格式規範提 供研究者參考,因此選用該網站資料做研究,在公信力上 是有一定的水平 2008/6/17

資料探勘程序 3.瞭解選擇的資料 1/2 名稱 型態 說明 Title 文字 摘要的標題 Type 該計畫是屬於贊助計畫或是專案計畫等 資料探勘程序 3.瞭解選擇的資料 1/2 名稱 型態 說明 Title 文字 摘要的標題 Type 該計畫是屬於贊助計畫或是專案計畫等 Date 日期 該計畫提案日期 File 摘要文件檔案名稱 Award Number 數字 該基金會贊助計畫的編號 Start Date 計畫開始執行日期 Expires 計畫預計結束日期,可以為預估日期 Total Amt. 該基金會贊助的金額 Investigator 說明研究者姓名與研究者的電子郵件帳號 Abstract 提案計畫的摘要內容 表1文件摘要重要欄位屬性說明資訊 2008/6/17

資料探勘程序 3.瞭解選擇的資料 2/2 名稱 定義 說明 idnsfid.txt doic NSF_doc_id 文件檔案標號對應 資料探勘程序 3.瞭解選擇的資料 2/2 名稱 定義 說明 idnsfid.txt doic NSF_doc_id 文件檔案標號對應 docauths.txt docid Author_string 文件作者編號對應 doctitles.txt docid Title_string 文件標題與編號對應 docwords.txt docid wordid freq 文件編號、文字編號與字詞出現頻率對應表 備註 - 定義說明 docid   = a counter generated for each document as it was processed. wordid   = the id for a word, as obtained from the word.txt file. freq = the number of times that the word (wordid) appears in the file (docid) NSF_doc_id = the value taken from the File: field of an NSF awards file. Title_String = the value of the Title: field of an NSF awards file. Author_String = derived from the Investigator: field when feasible 表2文件摘要重要欄位屬性說明資訊 2008/6/17

資料探勘程序 4.建立模式集 本研究將由doctitle.txt此檔案為主要分析來源 配合其他檔案為輔助進行模是建立與資料分析 資料探勘工具 資料探勘程序 4.建立模式集 本研究將由doctitle.txt此檔案為主要分析來源 配合其他檔案為輔助進行模是建立與資料分析 資料探勘工具 Wordstat 5.1做為分析工具 加入Simstat模組輔助分析過程進行 摘要文件內容在領域分類上使用Wordstat工具內所附加的 字典進行文字比對與分類 使用的資料筆數為32108筆資料 2008/6/17

資料探勘程序 5.整理收集的資料為適合探勘問題的資料 資料探勘程序 5.整理收集的資料為適合探勘問題的資料 資料整合 消除資料不一致中的綱目不一致 ( schema conflict ) 的情況 本計畫由網站所提供的資料集均為文字檔案,且並無定義 資料庫綱要,因此,在此步驟,由人工方是手動一一將資 料整理與定義資料庫綱要,並且留意資料整合在此遇到的 問題,例如: Docid 和 DOC ID 這兩者不同的問題 資料清理: 主要目的是確認資料的完整性 由於資料中某些屬性有遺缺的情況,為了不影響探勘的結 果,本計畫以「直接忽略法」為資料清理的原則 2008/6/17

資料探勘程序 6.轉換資料 1/3 對於文字探勘而言,資料的前置處理是非常重要的, 由其是轉換資料的部分,需要特別小心與謹慎,因為 不同演算法有其適合的資料型態 本計畫使用Classification Model,並以關聯法則為分析 方式,因此在資料轉換的部分,需要將資料轉換為符 合此規則的型態 2008/6/17

資料探勘程序 6. 資料精簡 2/3 研究將摘要文件中的獨特屬性刪除 資料探勘程序 6. 資料精簡 2/3 研究將摘要文件中的獨特屬性刪除 例如贊助者 ( Sponsor ) 、程序參考( Program Ref )等 以將資料的維度降低,以利於探勘進行 2008/6/17

資料探勘程序 6. 資料轉換 3/3 資料經過轉換後,以Multiple Response 中的Inter-rater進行 分析,並以Nominal measure的Cohen’s Kappa與Ordinal measure的Kippendorff’s r 做為檢驗兩相鄰的觀測值,經過 分析,如圖,表示期望和觀察是幾乎相近的 2008/6/17

資料探勘程序 7.建立模式1/2 運用內容分析法建立分析模式,並以探勘工具中的字典做為字詞比對依據,字典中可分 為外觀 ( APPARENCE ) 、藝術 ( ARTS )、通訊 ( COMMUNICATION )、教育 ( EDUCATION )、家庭 ( FAMILY )、財務 ( FINANCE )、情緒 ( HUMOR )等常見的字詞 分類,如圖。並透過建立應對的關聯法則,進行第八步驟,關聯法則說明如表 2008/6/17

資料探勘程序 7.建立模式2/2 表3 關聯法則建立 - 以通訊類別為例 分類 項目 COMMUNICATION COMMUNICATIVE 資料探勘程序 7.建立模式2/2 表3 關聯法則建立 - 以通訊類別為例 分類 項目 COMMUNICATION COMMUNICATIVE CONVERSATION DISCUSSION DISCUSSIONS LISTENER OPINIONS PHILOSOPHIZE SOCIAL TALK TALKING UNDERSTANDING 2008/6/17

資料探勘程序 7.對模式進行評估1/2 由2000年到2003年之間 資料探勘程序 7.對模式進行評估1/2 由2000年到2003年之間 研究者申請贊助計畫的摘要文件所提出的內容,以教育類 別為最多,占了39.8% 工作類別數量為第二所提出的文件內容,其比例為31.7% 通訊類別 ( 涵蓋一般的溝通 )則為12.6%,位居第三 2008/6/17

資料探勘程序 7.對模式進行評估2/2 教育、工作、通訊與其他所佔有的比例圖 2008/6/17

資料探勘程序 9.對結果進行評估1/4 進行Clustering的部分 以之前已經預定的關鍵字目錄為分群標準 並以發生在相同案例作為基準 資料探勘程序 9.對結果進行評估1/4 進行Clustering的部分 以之前已經預定的關鍵字目錄為分群標準 並以發生在相同案例作為基準 索引部分,以Jaccard’s coffident ( occurrence ) 與Cosin theta ( frequency ) 為主要方式 Jaccard’s coffident -分群後的Dendrogram 2008/6/17

資料探勘程序 9.對結果進行評估2/4 Jaccard’s coffident -分群後類別之間的相似矩陣 2008/6/17

資料探勘程序 9.對結果進行評估3/4 Cosin theta ( frequency ) - 分群後的Dendrogram 資料探勘程序 9.對結果進行評估3/4 Cosin theta ( frequency ) - 分群後的Dendrogram 2008/6/17

資料探勘程序 9.對結果進行評估4/4 Cosin theta ( frequency ) - 分群後類別之間的相似矩陣 2008/6/17

資料探勘程序 結論 經由上述的分析,可以清楚的知道關於美國國家科學 基金會的贊助於2000年到2003年在不同領域中的比例 資料探勘程序 結論 經由上述的分析,可以清楚的知道關於美國國家科學 基金會的贊助於2000年到2003年在不同領域中的比例 透過如此的分析也可以知道過去當時其學術領域所探 討的領域趨勢 而教育的部分,由研究結果可以得知,幾乎是一個值 得發展的領域,因此當獲得這些資訊的時候,可以提 供決策者在經費預算與學門領導方向可以有更多的思 考空間與決策依據 2008/6/17

資料探勘程序 研究限制 工具 資料集 使用的試用版 資料探勘程序 研究限制 工具 使用的試用版 在使用多變量分析的部分,因為有許多分析需要有事先的描述程 式,所以如果不是事先撰寫script語法,就必須使用該公司的檔 案 在這一方面,分析上受到許多限制 資料集 對於網站做了部分斷詞的前置處理檔案而言,並不一定就能符合 研究立即可以使用分析的部分 例如:對於摘要內容雖然有提供一個資料夾檔案的字詞頻率分析, 但是,對於想要以摘要文件內容的其他欄位處理,會是一件浩大 的前置作業工程 研究者必須再先行使用斷詞與斷字的軟體對每一年份的每一資料 夾中的每一個贊助摘要文件處理 2008/6/17

資料探勘程序 未來展望 1/2 研究趨勢預測 主題發展 資料探勘程序 未來展望 1/2 研究趨勢預測 在研究趨勢的預測部分,不單是以過往資料作為預測未來 趨勢的基準,也要同時以過往資料作為淘汰過時或是不適 合的研究議題或是領域,如此才能在研究領域中找出創新 的切入點與良好的洞察力 對於一般支援贊助相關計畫或是研究的單位,這會是一個 非常良好的決策依據 主題發展 在主題發展的部分,一則是結合研究趨勢的預測,二則是 對於雖然非當時其大部份的研究相關計畫,但是卻是具有 前瞻的領導發展探究,以特定的主題方式進行分析,對於 前瞻領導計劃的推導具有一定的依據說明 因此,運用本研究的方式進行更大量與更加深入的探討, 訂定不同的特定主題,應該可以找出這樣的決策依據 2008/6/17

資料探勘程序 未來展望 2/2 預算編列與控制 透過前述研究趨勢預測與主題發展,可以提供決策者在預 算編列與控制上,有更好的分配方式與依據 資料探勘程序 未來展望 2/2 預算編列與控制 透過前述研究趨勢預測與主題發展,可以提供決策者在預 算編列與控制上,有更好的分配方式與依據 不至於讓經費侷限在某些領域或是某些計畫提案 如此更能促進在每個部門皆有均衡的經費使用與發展 2008/6/17

Thanks 2008/6/17