支持文档排序的检索系统
任务 支持文档排序的检索系统 在2次实验课内完成(5月5日-5月19日) 最迟在6月2日提交
任务 输入 输出 要求 给定1万个文档 一个至少两个关键词的查询Q Q中所有关键词的df值(不存在时df=0) 按照相似度从高到低排序 输出Top10的文档 文档ID;相似度;文档内容 要求 tf-idf计算权重,consine计算相似度 不要求做词条变化如friends -> friend等,直接用空格作为分割符 都转成小写A->a 能支持多次查找 文档集保持相同路径(E3files\),这样提交作业不需要包含文档集
测试格式 输入:Q=T1 T2 输出 T1: df1 T2:df2 第一个文档ID,相似度=0.23132 第一个文档内容 空行 第二个文档内容 。。。(直到第10个文档)
测试格式(数字仅是举例) 输入:new york city 输出 new:2000 york:123 city:323123 空行 D1750: sim=0.23132 Recent trials in New York City proved that all politicans are crooks . An extra tax on politicians seems appropriate and is consistent with this new enlightened policy of disciplinary taxation . D2319: sim=0.21 More Greenwichers than in the past have bought one or more `` second homes '' in New England , Florida , the Caribbean or New York City . `` The person who used to have two houses now has four , '' says Carl W. Menk , chairman of Canny , Bowen Inc. , executive recruiters in New York . 。。。(直到第10个文档)
测试样例 输入1:new york city 输入2:I like new york city 输入3:aaaaaa city 输入4:aaaaa bbbb 输入5:任意输入