SEWM2007中文网页分类评测江西师范大学参赛队报告

Slides:

Advertisements

Similar presentations

簡介 …………………………p.1 健康新天地 ………………….p.2 小食餐單 …………………….p.3 士多啤梨蘋果之營養 p.4 蕃茄葡萄之營養 p.5 鮮奶的益處 ………………….p.6 有關圖片...…………………..p.7 總結.

Advertisements

中医特色疗法及其在临床中的应用静乐县中医院主治中医师曹怀奎. 中药熏洗疗法是根据中医辨证论治的原则，依据疾病治疗的需要，选配一定的中药组成熏蒸方剂，将中药煎液趁热在皮肤或患处进行熏蒸、熏洗，而达到治疗效果，是一种祖国医学最常用的传统外治方法。

醫學美學之我見ー肉毒桿菌班級：應日三乙姓名：蔡雅卉學號： 497E0076. 前言現在的人，已經把整型看做是微不足道的事情了。即使只是戴牙套、局部雷射、割雙眼皮、打美白針、肉毒桿菌等等，都可以在身體上做不同的改變，而讓自己更滿意自己的外表。

毛周角化症的植物护理. 引言 —— 本课题的必要性和可信度  目前美容市场常用毛周角化症的护理方法：自行使用去角质沐浴用品，像是磨砂膏、去角质刷、丝瓜布等等。适度的去角质有一定的帮助，但过头就会造成皮肤的伤害。过度的摩擦不只会使皮肤受伤，还会使角质层变得更厚。  我们小组设计了一套天然植物的毛周角化症护理，

鼻后孔阻塞综合征程靖 1 、吴小海 2 1. 广东药学院附属第一医院（临床医学院）耳鼻咽喉科学教研室广州广东药学院附属第二医院耳鼻咽喉科.

项目一：准备出库出入库作业实务. 学习目标 1 ．掌握出库的基本要求 2 ．理解货物出库的依据和基本方法 3 ．明确出库的作业流程 4 ．能按要求完成货物出库前的准备工作，能计算出库货物的仓容，安排调配装卸机具 5 ．会填写各种出库单证 6 ．掌握货物出库的各种方式.

张猛，陕西安康人。振东健康培训经理。曾任教育培训师、保健品营销主管等职务。从事中药保健养生护理用品研发工作 3 年，带领团队完成 4 项课题 10 个产品的研发工作.

第三节特殊饮食的护理一、鼻饲法目的准备操作步骤注意事项鼻饲法是将导管经鼻腔插入胃内，从管内注入流质食物、营养液、水分和药物的方法。

小儿脑性瘫痪广州中医药大学第二临床医学院针灸教研室樊莉. 概述定义：指由于大脑在尚未成熟阶段受到损伤所导致的运动障碍和姿势障碍，可伴有智力低下、惊厥、听觉与视觉障碍、学习困难等。是一种非进行性中枢性运动功能障碍。发病率为 1.3% ，男多于女。属中医 “ 五软 ” 、 “ 五迟.

2013执业医师考试辅导 —卫生法规.

小荳荳-義大利麵組員: 顏瑄誼.林欣嫻.李昱暄.黃珮瑜.潘錡..

第二节散剂的特点及制备散剂：系指药物或与适宜的辅料经粉碎、均匀混合制成的干燥粉末状制剂，分为口服散剂和局部用散剂。特点：①起效快 ②相对比较稳定 ③制法简单 ④应用方式灵活 ⑤不宜制成散剂的药物.

成为顾客贴心、老板放心的金牌服务人员 ——顾客服务案例培训

明清文人集中的寓言 pg359－371 韓佩思中碩一

关爱老人关爱健康第八章老年人呼吸系统的变化及护理.

C语言程序设计李伟光.

春季是细菌、病毒繁殖滋生的旺季，肝脏具有解毒、排毒的功能，负担最重，而且由于人们肝气升发，也会引起旧病复发，如春季肝火上升，会使虚弱的肺阴更虚，故肺结核病会乘虚而入。中医认为，春在人体主肝，而肝气自然旺于春季。如果春季养生不当，便易伤肝气。为适应季节气候的变化，保持人体健康，在饮食调理上应当注意养肝为先。

會計資訊系統專章A.

第三章調整與編表.

教學經驗分享吳毅成國立交通大學資訊工程系 2012年4月.

吸烟有害健康课题调查报告无锡市新安中学初三（4）班.

健管之刊 ——处暑养生健康管理部第十四期.

北京中医药大学东直门医院把握“癌”的命脉祁烁血液肿瘤科.

讲故事训练授课人：田轶.

第十一課菜園 6-11.

7.5 乳化作用.

《女性消费行为与研究方法》广东外语外贸大学杨晓燕教授.

红花酒精湿敷用于乳腺癌术后皮瓣坏死的新进展.

口服给药术南通大学护理学院基础护理教研室.

99年成語200題庫(21-40).

校本选修课第三专题西藏问题北京师大二附中李文燕.

实验四果蝇培养、麻醉及雌雄鉴别一实验目的

猪生产与综合实训授课教师：徐元青联系电话：

月经不调的简易分类诊断与治疗.

产后出血定义：胎儿娩出后24小时内阴道出血≥500ml,称产后出血。一、病因

第二章　人体的营养第一节食物中的营养物质. 第二章　人体的营养第一节食物中的营养物质.

中醫療法解決失眠問題指導老師: 林儒禮報告人:呂佳祐謝宜璟

血液循环的意义：在人的体内循环流动的血液，可以把营养物质输送到全身各处，并将人体内的废物收集起来，排出体外。促进人的新陈代谢。

正修科技大學教學發展中心教師教學觀摩與經驗分享電子工程系張法憲副教授.

第一节食物一、食物中含有多种营养成分.

第 6 章温里剂.

单位：临朐县龙岗镇上林初中作者：王晓英王复刚课时量：1课时适合学段：初中

碳水化合物、蛋白质、脂肪、无机盐、维生素、水

营养早餐小组成员：李鸿磊.官鸿铭.李智恒.梁振.徐林焰.林禧.胡喜燕.黄晟.林梦舒.徐锦海.陈莹、陈斯杭。

课件第三单元物质构成的奥秘课题 1 分子和原子（1）华池县五蛟初中张诚

的蒸气压增大到与外界压力相等时，就有大量气泡从液体内部逸出，即液体开始沸腾。这时的温度称为液体的沸点。纯粹的液体有机化合物在一定的压力下具有恒定的沸点（沸程 ℃）。液体有机化合物含有水等杂质时，沸点通常会降低，沸程变宽。据此我们可以测定纯液体有机物的沸点及定性检验液体有机物的纯度。蒸馏还是提.

蘇軾詞的賞析

环境和我们六年级下册第四单元温州市水心小学缪旭春.

儿童饮食卫生习惯.

柯奕宏（06）王予亨（13）郭秉逸（15）楊雯凈（23）顏佑瑩（32）

第十五章传播学调查研究方法.

自然與生活科技領域認識太陽能蘇紋琪、石明玉.

　全能的天才畫家－李奧納多‧達文西 (西元1452年-1519年) 指導老師：袁淑芬老師製作人：饒佩芯.

認識我的故鄉＿台中市.

项目五价格策划.

精忠报国演唱：屠洪纲作词：陈涛作曲：张宏光狼烟起江山北望龙起卷马长嘶剑气如霜心似黄河水茫茫二十年纵横间谁能相抗恨欲狂长刀所向多少手足忠魂埋骨它乡何惜百死报家国忍叹惜更无语血泪满眶马蹄南去人北望人北望草青黄尘飞扬我愿守土复开疆堂堂中国要让四方来贺.

任务2.3 平板菌落计数.

樂樂請假了尊重的故事資料來源：臺北縣國民小學品德教育手冊故事來源：臺北縣國民小學品德教育手冊網路小故事

聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝.

聽聽那冷雨---重點摘要二愛　王煜榕.

从茶叶中提取咖啡因.

2013年广州军区医疗机构医用耗材及检验试剂集中招标采购

北师大版五年级下册购物策略.

憲政與民主應化3A 邱泓明.

方格紙上畫正方形.

古蹟知性之旅我和新港奉天宮有個約報告人：陳映竹傅湘甯.

第四章買賣業會計.

Presentation transcript:

SEWM2007中文网页分类评测江西师范大学参赛队报告江西师范大学网络应用研究所 2007年3月11日

划分为Train Set和Test Set，优选特征维数和模型参数。系统模块结构 HTML格式处理模块中文分词模块分类训练模块划分为Train Set和Test Set，优选特征维数和模型参数。训练集 HTML格式处理中文分词特征表示生成分类模型 CWT100g HTML格式处理中文分词特征表示进行分类结果分类模块江西师范大学网络应用研究所

内容提纲 CWT20G预处理中文分词分类器训练测试集合的分类江西师范大学网络应用研究所

预处理流程 ZLib HTMLParser 原始数据解压缩得到的网页文件解析后的文件信息过滤与提取结果数据存储江西师范大学网络应用研究所

网页数据的特点使用工具提取的内容包含语义丰富的标记带来噪音(非文本内容及其大量的广告信息) 大量的链接信息采用Java开源项目：HTMLParser 提取的内容 <Title>、<URL>、<Body>、<Link>、<A> 另外，提取页面的位置信息，例如人民网 >> 时政 >> 时政专题 >> 中国共产党十六届六中全会江西师范大学网络应用研究所

内容提纲 CWT20G预处理中文分词分类器训练测试集合的分类江西师范大学网络应用研究所

中文分词采用中科院计算所ICTCLAS分词软件词干化处理（Stemming）去除中英文停用词由于网页中有部分超常的英文字符以及一些乱码，分词系统会报错并且停止。对这些异常文件采用北大天网提供的基于词典的分词程序。词干化处理（Stemming）去除中英文停用词中文：哈工大的中文停词表，共494个词英文： Rainbow的禁止词，共524个江西师范大学网络应用研究所

内容提纲 CWT20G预处理中文分词分类器训练测试集合的分类江西师范大学网络应用研究所

特征选择江西师范大学网络应用研究所

江西师范大学网络应用研究所

特征维数分类器 Example1共有166031个词，根据文档频率过滤后，剩下74078个词用卡方统计特征选择30,000个词和60,000个词分类器标准KNN分类器，K＝15 SVMlight算法， joachims二元分类器江西师范大学网络应用研究所

内容提纲 CWT20G预处理中文分词分类器训练测试集合的分类江西师范大学网络应用研究所

权重计算公式：采用LTC权重对词出现在网页的不同位置，给予不同的权重 TITLE，BODY，URL，ANCHOR的权重之比为：5:1:0.5:0.5 网页的位置信息权重设置为4 江西师范大学网络应用研究所

分类结果江西师范大学网络应用研究所

系统环境硬件平台：操作系统：编程语言： HP ProLiant ML570 G3 机架式服务器； 2个双核的Xeon P2.8G，硬盘：274G 操作系统： RedHat AS4_64 编程语言： Java 江西师范大学网络应用研究所

未来的工作使用系统的网页去噪技术考虑链接信息对网页类别的影响不同位置词的权重设置应该更合理链入信息与链出信息应该区分对待江西师范大学网络应用研究所

谢谢各位！江西师范大学网络应用研究所