Homework : Similarity, Classification, Training and Prediction 楊立偉教授 wyang@ntu.edu.tw © Copyright
Introduction to Term Project 財經分析 real and practical scenarios for business with data from multiple sources 展現課堂內所學技術或工具 Text Mining Clustering Classification Machine Learning, and other techniques.
Grading 評分標準 35% 實驗設計及方法 35% 完成度及效果 30% 成果簡報 (含demo)
Requirement (1) 需求一:分別列出看漲及看跌的關鍵字列表 參考做法 用種子關鍵字,例如下跌、衰退等,挑選一批文章後 ,找出具鑑別力的關鍵字列表。 用指數或股價漲跌,例如第D+n天與第D天相比,指數 或價格下跌超過特定幅度σ,則視第D天的文章合為一 批為看跌文件集,從中找出具鑑別力的關鍵字列表; 看漲文件集亦然。 n及σ為實驗參數;可自行設計或應用各種技巧。
Requirement (2) 需求二:預測指數或股價漲跌,並測試準確率 參考做法 可針對指數、或是個股,由需求一的詞彙集建立向量 空間模型,再依符合程度進行投票或分類,預測漲跌 可以不預測、預測漲或跌。有預測的次數中,計算正 確的次數,做為準確率 需進行模擬回測:例如以前10個月資料做訓練,在第 11個月中的每日模擬D日出現的新文件,預測D+1日 的漲跌,也可以周一至周四開盤日資料做訓練,預測 每個周五的漲跌 其它未規範之處可自行假設或調整實驗設計
Dataset 下載連結 以7zip解壓縮(含密碼), Access格式 2016/1/1~2016/11/30 PTT Stock 鉅亨網, Yahoo奇摩理財, Yahoo股市, 聯合財經網 (全) mobile01 > 投資與理財 以7zip解壓縮(含密碼), Access格式
Deliverables 分組展示 不限程式語言與演算法 期末上台展示 先以投影片說明,之後進行實機demo,再進行code review 最後將投影片、系統擷圖、程式碼打包壓縮zip繳交 (檔案過大者請繳交連結)