SEWM2007中文网页分类评测 江西师范大学参赛队报告 江西师范大学网络应用研究所 2007年3月11日
划分为Train Set和Test Set, 优选特征维数和模型参数。 系统模块结构 HTML格式处理模块 中文分词模块 分类训练模块 划分为Train Set和Test Set, 优选特征维数和模型参数。 训练集 HTML格式处理 中文分词 特征表示 生成分类模型 CWT100g HTML格式处理 中文分词 特征表示 进行分类 结果 分类模块 江西师范大学网络应用研究所
内容提纲 CWT20G预处理 中文分词 分类器训练 测试集合的分类 江西师范大学网络应用研究所
预处理流程 ZLib HTMLParser 原始数据 解压缩得到的网页文件 解析后的文件 信息过滤与提取 结果数据存储 江西师范大学网络应用研究所
网页数据的特点 使用工具 提取的内容 包含语义丰富的标记 带来噪音(非文本内容及其大量的广告信息) 大量的链接信息 采用Java开源项目:HTMLParser 提取的内容 <Title>、<URL>、<Body>、<Link>、<A> 另外,提取页面的位置信息,例如 人民网 >> 时政 >> 时政专题 >> 中国共产党十六届六中全会 江西师范大学网络应用研究所
内容提纲 CWT20G预处理 中文分词 分类器训练 测试集合的分类 江西师范大学网络应用研究所
中文分词 采用中科院计算所ICTCLAS分词软件 词干化处理(Stemming) 去除中英文停用词 由于网页中有部分超常的英文字符以及一些乱码,分词系统会报错并且停止 。 对这些异常文件采用北大天网提供的基于词典的分词程序。 词干化处理(Stemming) 去除中英文停用词 中文:哈工大的中文停词表,共494个词 英文: Rainbow的禁止词,共524个 江西师范大学网络应用研究所
内容提纲 CWT20G预处理 中文分词 分类器训练 测试集合的分类 江西师范大学网络应用研究所
特征选择 江西师范大学网络应用研究所
江西师范大学网络应用研究所
特征维数 分类器 Example1共有166031个词,根据文档频率过滤后,剩下74078个词 用卡方统计特征选择30,000个词和60,000个词 分类器 标准KNN分类器,K=15 SVMlight算法, joachims二元分类器 江西师范大学网络应用研究所
内容提纲 CWT20G预处理 中文分词 分类器训练 测试集合的分类 江西师范大学网络应用研究所
权重计算公式: 采用LTC权重 对词出现在网页的不同位置,给予不同的权重 TITLE,BODY,URL,ANCHOR的权重之比为:5:1:0.5:0.5 网页的位置信息权重设置为4 江西师范大学网络应用研究所
分类结果 江西师范大学网络应用研究所
系统环境 硬件平台: 操作系统: 编程语言: HP ProLiant ML570 G3 机架式服务器; 2个双核的Xeon P2.8G,硬盘:274G 操作系统: RedHat AS4_64 编程语言: Java 江西师范大学网络应用研究所
未来的工作 使用系统的网页去噪技术 考虑链接信息对网页类别的影响 不同位置词的权重设置应该更合理 链入信息与链出信息应该区分对待 江西师范大学网络应用研究所
谢谢各位! 江西师范大学网络应用研究所