SEWM2007中文网页分类评测 江西师范大学参赛队报告

Slides:



Advertisements
Similar presentations
簡介 …………………………p.1 健康新天地 ………………….p.2 小食餐單 …………………….p.3 士多啤梨 蘋果 之營養 p.4 蕃茄 葡萄之營養 p.5 鮮奶的益處 ………………….p.6 有關圖片...…………………..p.7 總結.
Advertisements

中医特色疗法及其在临床 中的应用 静乐县中医院 主治中医师 曹怀奎. 中药熏洗疗法是根据中医辨证论治的原则,依据疾 病治疗的需要,选配一定的中药组成熏蒸方剂,将中药 煎液趁热在皮肤或患处进行熏蒸、熏洗,而达到治疗效 果,是一种祖国医学最常用的传统外治方法。
醫學美學之我見ー肉毒桿菌 班級:應日三乙 姓名:蔡雅卉 學號: 497E0076. 前言 現在的人,已經把 整型看做是微不足 道的事情了。即使 只是戴牙套、局部 雷射、割雙眼皮、 打美白針、肉毒桿 菌等等,都可以在 身體上做不同的改 變,而讓自己更滿 意自己的外表。
毛周角化症的植物护理. 引 言 —— 本课题的必要性和可信度  目前 美容市场常用毛周角化症的护理方法:自行使 用去角质沐浴用品,像是磨砂膏、去角质刷、丝瓜 布等等。适度的去角质有一定的帮助,但过头就会 造成皮肤的伤害。过度的摩擦不只会使皮肤受伤, 还会使角质层变得更厚。  我们小组设计了一套天然植物的毛周角化症护理,
鼻后孔阻塞综合征 程靖 1 、吴小海 2 1. 广东药学院附属第一医院(临床医学院) 耳鼻咽喉科学教研室 广州 广东药学院附属第二医院耳鼻咽喉科.
项目一:准备出库 出入库作业实务. 学习目标 1 .掌握出库的基本要求 2 .理解货物出库的依据和基本方法 3 .明确出库的作业流程 4 .能按要求完成货物出库前的准备工作 ,能计算出库货物的仓容,安排调配装 卸机具 5 .会填写各种出库单证 6 .掌握货物出库的各种方式.
张 猛,陕西安康人。 振东健康培训经理。 曾任教育培训师、保健品营销主管等职务。 从事中药保健养生护理用品研发工作 3 年,带领团 队完成 4 项课题 10 个产品的研发工作.
第三节 特殊饮食的护理 一、鼻饲法 目的 准备 操作步骤 注意事项 鼻饲法是将导管经鼻腔 插入胃内,从管内注入 流质食物、营养液、水 分和药物的方法。
小儿脑性瘫痪 广州中医药大学第二临床医学院 针灸教研室 樊莉. 概述 定义:指由于大脑在尚未成熟阶段受到损 伤所导致的运动障碍和姿势障碍,可伴有 智力低下、惊厥、听觉与视觉障碍、学习 困难等。是一种非进行性中枢性运动功能 障碍。 发病率为 1.3% ,男多于女。 属中医 “ 五软 ” 、 “ 五迟.
2013执业医师考试辅导 —卫生法规.
小荳荳-義大利麵 組員: 顏瑄誼.林欣嫻.李昱暄.黃珮瑜.潘錡..
第二节 散剂的特点及制备 散剂:系指药物或与适宜的辅料经粉碎、均 匀混合制成的干燥粉末状制剂,分为 口服散剂和局部用散剂。 特点 :①起效快 ②相对比较稳定 ③制法简 单 ④应用方式灵活 ⑤不宜制成散剂 的药物.
成为顾客贴心、老板放心的金牌服务人员 ——顾客服务案例培训
明清文人集中的寓言 pg359-371 韓佩思 中碩一
关 爱 老 人 关 爱 健 康 第八章 老年人呼吸系统的变化及护理.
C语言程序设计 李伟光.
春季是细菌、病毒繁殖滋生的旺季,肝脏具有解毒、排 毒的功能,负担最重,而且由于人们肝气升发,也会引起旧 病复发,如春季肝火上升,会使虚弱的肺阴更虚,故肺结核 病会乘虚而入。中医认为,春在人体主肝,而肝气自然旺于 春季。如果春季养生不当,便易伤肝气。为适应季节气候的 变化,保持人体健康,在饮食调理上应当注意养肝为先。
會計資訊系統 專章A.
第三章 調整與編表.
教學經驗分享 吳毅成 國立交通大學資訊工程系 2012年4月.
吸烟有害健康 课题调查报告 无锡市新安中学初三(4)班.
健管之刊 ——处暑养生 健 康 管 理 部 第十四期.
北京中医药大学东直门医院 把握“癌”的命脉 祁烁 血液肿瘤科.
讲故事训练 授课人:田轶.
第十一課 菜園 6-11.
7.5 乳化作用.
《女性消费行为与研究方法》 广东外语外贸大学 杨晓燕教授.
红花酒精湿敷 用于乳腺癌术后皮瓣坏死的新进展.
口服给药术 南通大学护理学院基础护理教研室.
99年成語200題庫(21-40).
校本选修课 第三专题 西藏问题 北京师大二附中 李文燕.
实验四 果蝇培养、麻醉及雌雄鉴别 一 实验目的
猪生产与综合实训 授课教师:徐元青 联系电话:
月经不调的简易 分类诊断与治疗.
月经生理.
产后出血 定义:胎儿娩出后24小时内阴道出血≥500ml,称产后出血。 一、病因
第二章 人体的营养 第一节 食物中的营养物质. 第二章 人体的营养 第一节 食物中的营养物质.
中醫療法解決失眠問題 指導老師: 林儒禮 報告人:呂佳祐 謝宜璟
血液循环的意义:在人的体内循环流动的血液,可以把营养物质输送到全身各处,并将人体内的废物收集起来,排出体外。促进人的新陈代谢。
正修科技大學教學發展中心 教師教學觀摩與經驗分享 電子工程系 張法憲副教授.
第一节 食物 一、食物中含有多种营养成分.
第 6 章 温里剂.
单位:临朐县龙岗镇上林初中 作者:王晓英 王复刚 课时量:1课时 适合学段:初中
碳水化合物、蛋白质、脂肪、无机盐、维生素、水
营养早餐 小组成员:李鸿磊.官鸿铭.李智恒.梁振.徐林焰.林禧.胡喜燕.黄晟.林梦舒.徐锦海.陈莹、陈斯杭。
课件 第 三 单 元 物质构成的奥秘 课 题 1 分子和原子(1) 华池县五蛟初中 张诚
的蒸气压增大到与外界压力相等时,就有大量气泡从液体内部逸出,即液体开始沸腾。这时的温度称为液体的沸点。 纯粹的液体有机化合物在一定的压力下具有恒定的沸点(沸程 ℃)。液体有机化合物含有水等杂质时,沸点通常会降低,沸程变宽。据此我们可以测定纯液体有机物的沸点及定性检验液体有机物的纯度。蒸馏还是提.
蘇軾詞的賞析
环境和我们 六年级下册第四单元 温州市水心小学 缪旭春.
儿童饮食卫生习惯.
柯奕宏(06) 王予亨(13) 郭秉逸(15) 楊雯凈(23) 顏佑瑩(32)
第十五章 传播学调查研究方法.
自然與生活科技領域 認識太陽能 蘇紋琪、石明玉.
 全能的天才畫家- 李奧納多‧達文西 (西元1452年-1519年) 指導老師:袁淑芬老師 製作人:饒佩芯.
認識我的故鄉_台中市.
项目五 价格策划.
精忠报国  演唱:屠洪纲 作词:陈涛 作曲:张宏光  狼烟起 江山北望  龙起卷 马长嘶 剑气如霜  心似黄河水茫茫  二十年 纵横间 谁能相抗  恨欲狂 长刀所向  多少手足忠魂埋骨它乡  何惜百死报家国  忍叹惜 更无语 血泪满眶  马蹄南去 人北望  人北望 草青黄 尘飞扬  我愿守土复开疆  堂堂中国要让四方来贺.
任务2.3 平板菌落计数.
樂樂請假了 尊重的故事 資料來源:臺北縣國民小學品德教育手冊 故事來源:臺北縣國民小學品德教育手冊 網路小故事
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
聽聽那冷雨---重點摘要 二愛 王煜榕.
从茶叶中提取咖啡因.
2013年广州军区医疗机构 医用耗材及检验试剂集中招标采购
北师大版五年级下册 购物策略.
憲政與民主 應化3A 邱泓明.
方格紙上畫正方形.
古蹟知性之旅 我和新港奉天宮有個約 報告人:陳 映 竹 傅 湘 甯.
第四章 買賣業會計.
Presentation transcript:

SEWM2007中文网页分类评测 江西师范大学参赛队报告 江西师范大学网络应用研究所 2007年3月11日

划分为Train Set和Test Set, 优选特征维数和模型参数。 系统模块结构 HTML格式处理模块 中文分词模块 分类训练模块 划分为Train Set和Test Set, 优选特征维数和模型参数。 训练集 HTML格式处理 中文分词 特征表示 生成分类模型 CWT100g HTML格式处理 中文分词 特征表示 进行分类 结果 分类模块 江西师范大学网络应用研究所

内容提纲 CWT20G预处理 中文分词 分类器训练 测试集合的分类 江西师范大学网络应用研究所

预处理流程 ZLib HTMLParser 原始数据 解压缩得到的网页文件 解析后的文件 信息过滤与提取 结果数据存储 江西师范大学网络应用研究所

网页数据的特点 使用工具 提取的内容 包含语义丰富的标记 带来噪音(非文本内容及其大量的广告信息) 大量的链接信息 采用Java开源项目:HTMLParser 提取的内容 <Title>、<URL>、<Body>、<Link>、<A> 另外,提取页面的位置信息,例如 人民网 >> 时政 >> 时政专题 >> 中国共产党十六届六中全会 江西师范大学网络应用研究所

内容提纲 CWT20G预处理 中文分词 分类器训练 测试集合的分类 江西师范大学网络应用研究所

中文分词 采用中科院计算所ICTCLAS分词软件 词干化处理(Stemming) 去除中英文停用词 由于网页中有部分超常的英文字符以及一些乱码,分词系统会报错并且停止 。 对这些异常文件采用北大天网提供的基于词典的分词程序。 词干化处理(Stemming) 去除中英文停用词 中文:哈工大的中文停词表,共494个词 英文: Rainbow的禁止词,共524个 江西师范大学网络应用研究所

内容提纲 CWT20G预处理 中文分词 分类器训练 测试集合的分类 江西师范大学网络应用研究所

特征选择 江西师范大学网络应用研究所

江西师范大学网络应用研究所

特征维数 分类器 Example1共有166031个词,根据文档频率过滤后,剩下74078个词 用卡方统计特征选择30,000个词和60,000个词 分类器 标准KNN分类器,K=15 SVMlight算法, joachims二元分类器 江西师范大学网络应用研究所

内容提纲 CWT20G预处理 中文分词 分类器训练 测试集合的分类 江西师范大学网络应用研究所

权重计算公式: 采用LTC权重 对词出现在网页的不同位置,给予不同的权重 TITLE,BODY,URL,ANCHOR的权重之比为:5:1:0.5:0.5 网页的位置信息权重设置为4 江西师范大学网络应用研究所

分类结果 江西师范大学网络应用研究所

系统环境 硬件平台: 操作系统: 编程语言: HP ProLiant ML570 G3 机架式服务器; 2个双核的Xeon P2.8G,硬盘:274G 操作系统: RedHat AS4_64 编程语言: Java 江西师范大学网络应用研究所

未来的工作 使用系统的网页去噪技术 考虑链接信息对网页类别的影响 不同位置词的权重设置应该更合理 链入信息与链出信息应该区分对待 江西师范大学网络应用研究所

谢谢各位! 江西师范大学网络应用研究所