豆瓣算法工程师 曾俊瑀 douban id : knighter

Slides:



Advertisements
Similar presentations
1 曾老師、各位同學大家好 ! 首先自我介紹 ; 個人聯合大學電機系 畢業,服完兩年兵役後, 75 年開始就 業 ; 四年內換了幾個工作, 79 年創立貿 特科技, 90 年、 91 年分別於大陸寧波 與昆山設立特一電子與柏特電子,經 歷 20 年的工作磨鍊,今天事業上算是 穩定、成熟 ! 承蒙曾老師看重,利用一.
Advertisements

中正國中 特教組長 粘玉芳 校內分機 : /02/21. 下列條件擇一: 一、身心障礙手冊 二、特殊教育學生鑑定及就學輔導會證明.
2014 年职称英语等级考试 综合类精讲班 主讲:叶老师. 职称英语考试与复习方法 一、职称英语考试 1. 职称英语考试的特点: a 综合英语分为 A B C 级 b 职称英语考试和教材的关系 c 可以借助字典 d 送分( 分) (1) 词汇选项(可能送 3—8 分) (2) 阅读判断.
示範課 -- 作文立意. 重溫作文構思課  構思嘗試深化  多角度思考  宜先剖析題目, 運用聯想, 循序漸進擴大範圍, 然後歸納材料, 定訂主題  同學的作品, 反映部分能夠掌握, 主線清晰, 層 層深入, 舉例恰當  但有部分同學只有枝葉, 欠缺主線, 更無中心思 想, 反映立意不足.
幼教人員法律事件探討 ─ 幼兒教育及照顧法 姚其壯 第一章 總則〈第一條至第六條〉 第二章 幼稚園設立及其教保服務 〈第七條至第十四條〉 第三章 幼稚園組織與人員資格及權益 〈第十五條至第二十八條〉 第四章 幼稚權益保障 〈第二十九條至第三十三條〉 第五章 家長之權利與義務 〈第三十四條至第四十條〉
畫面中的兩個人要去參加金融業儲備幹部的面試 活動,你認為誰的面試穿著是正確的? V.S 動動腦 V.S 動動腦 慎重 讓人感到 尊重 輕便 讓人聯想 隨便 畫面中的兩個人要去參加金融業儲備幹部的面試 活動,你認為誰的面試穿著是正確的?
IT 服务与业务发展融合 王维航 北京华胜天成科技股份有限公司 十分钟的悲剧.
高考心理辅导  福建中医药大学  林山  高考是什么?  真有那么 “ 苦大仇深 ” ?  为什么不能是 “ 快乐挑战 ” ?  高考(事) --- 认知(怎么个事 - 压力大小) --- 情绪反应(烦躁、焦虑、害怕 VS 自信、 从容、期盼) --- 行为表现(发挥正常.
蕭文生 中正大學法律系教授兼法學院院長.  壹、前言  貳、司法院釋字第六八四號解釋  參、大學生之受教權  肆、大學自治之範疇  伍、大學生之其他基本權利  陸、救濟管道之改善  柒、結語.
提昇餐廳供餐品質 及服務滿意度 標竿學習主題 標竿學習計劃排定進度 分析客戶對餐廳供餐滿意度偏低原因:
第八課 謝 天. 第八課 謝 天 作者主旨文章作法 民國 陳之藩 謙卑感 恩,功 成不居 以「謝天」的傳統觀念 為中心,經由疑惑、思 索、領悟三個層次的敘 述,賦予新的意義 ★題目含義:表示對很多「人」的感謝。
模仿貓 記敘文 ( 童話 ) 作者: 海倫、波頓 課文朗讀課文朗讀、模仿大賽 作者 美國女畫家,她用藝術家的嚴 肅態度和精神,幫兒童讀繪畫 插圖,並得過許多次獎。她的 作品藝術價值高,有雨本成為 美國美術協會兒童讀物展覽的 入選作品。她常常自寫自畫, 文筆很不錯。
蔬菜大觀園 V.S 大家來種菜 蔬菜的外觀及分類  蔬菜是我們常吃的食物,蔬菜的外觀形狀不 同,有各種不同的顏色、形狀、氣味等,嚐 起來的味道也不相同。  蔬菜的營養價值不盡相同,可實用的部位也 不同,有的是根、有的是莖、有的是葉、有 的是花、有的是果實,還有的是種子。  依據蔬菜種類和食用部位的不同,可以將蔬.
社工之路的通行證 --- 社工師證照 考試心得分享 東吳大學社工系碩一 呂錦綸. 一、考前準備 閱讀主流老師的書籍、掌握各科概要。 閱讀主流老師的書籍、掌握各科概要。 重視概念性的知識,打好基礎是很重要低 ~ 重視概念性的知識,打好基礎是很重要低 ~ 是必備讀物 ! 是必備讀物 ! 勤作考古題,參考當年度碩士班考試及高.
政府的权力:依法行使. 政府的权力:依法行使 重庆“最牛钉子户”事件 九龙坡区法院一名张院长称,法院已组织6次调解,有时1天就有2次调解。3月28日下午,九龙坡区委书记郑洪还专门接待吴苹3小时。1日,在法院组织下,拆迁双方基本达成口头协议,今天下午,双方签字生效。按协议,吴苹选择了异地实物安置方案,开发商将其在沙坪坝开发的一处门面房,按同样面积交付吴苹,吴同意此方案.
第八課 馮諼客孟嘗君 謀職達人 來也.
心理学辅导.
蔬菜大觀園V.S大家來種菜 高雄市楠梓區翠屏國中小教師 林珮如
“腸”保安康 現代人的腸胃保健.
那一段「詩聲戀」的日子 孟令今老師.
獨立國家國協 1.地形 2.氣候 3.產業.
天涯社区 涯叔农场 农产品电商&众筹项目 招商推介.
綜合活動領域 教學分享.
诚信人生 ---高二(2)班主题班会.
兩岸融合教育之議題: 以東莞台商子弟學校為例
航向未來 飛揚國際 —關於華航與長榮的財務報表 指導老師: 組員:張甄芸 4A 鄭雅華 4A070079
世界史.
面对苦难 (约翰福音15:18-16:4) 2/22/15 我们不属世界,神从这世界中拣选了我们,却没有为我们另设一处“世外桃源”,乃是让我们住在地上,以他的信实为粮,以他的生命为光。既然在这被罪玷污的世界中,就会有苦难仇恨,然而它们不能打倒我们,因为它们 无目的 无缘故 无胜算 在世上我们虽有苦难,也可以放心,因为耶稣已经胜了世界。
如果你没法阻止战争,那你就把战争的真相告诉世界
102學年度第二學期 208家長座談會 歐陽美慧.
小綠葉蟬的『祕蜜』~ 蜜香烏龍茶.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
個人投資理財與策略 富蘭克林:邱良弼.
第六章 中国公务员制度 干部 VS 公务员.
穿越迷雾,读懂全球化经济本质 谈美国次贷危机与人民币升值问题.
教育部 試辦中小學 教師專業發展評鑑基本概念 台中教育大學 徐照麗.
大陸教育基本現況認識 楊景堯 淡江大學中國大陸研究所.
第三章 魏晉南北朝的分合.
移民與文化--鄉愁的想像 王婉甄.
性別平權.
青龙偃月刀 韩少功. 青龙偃月刀 韩少功 走近作者 韩少功,湖南长沙人。1985年倡导“寻根文学”的主将。1996年出版的长篇小说《马桥词典》。比较著名的有《爸爸爸》、《女女女》等。
2008年3月8日 順德聯誼總會何日東小學上午及下午校
彰化基督教醫院 健康檢查科 / 家庭醫學科 吳美鳳醫師
經濟系 在學什麼專業? 經濟學是一門研究人類經濟行為的社會科學 為什麼鑽石會比水貴? 為什麼台灣中央銀行不多印一點台幣, 以增加大家的財富?
模块二顶级销售人员是如何造就的.
淄博信息工程学校 ZIBOIT&ENGINEERING VOCATONAL SHCOOL 02 认识虚拟局域网 计算机网络技术专业.
UI(用户界面)集训班 Illustrator 高级班.
第一讲 雅思阅读概述 王冉 2015/02.
EBNF 请用扩展的 BNF 描述 C语言里语句的结构; 请用扩展的 BNF 描述 C++语言里类声明的结构;
单元解析:教材主编 牛长清.
Wentao Ding Linfeng Shi Jiajie Yu
基于规则抽取的 时间表达式识别.
整合思维导图的初中英语教学设计 主讲人:卢璐.
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
WSDM见闻 程龚.
编程作业3:网页正文抽取 (10分).
C++语言程序设计 C++语言程序设计 第七章 类与对象 第十一组 C++语言程序设计.
C语言程序设计 主讲教师:陆幼利.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
实体描述呈现方法的研究 实验评估 2019/5/1.
基于知识库对自然语言中属性取值对的探索 潘笑吟.
数据集的抽取式摘要 程龚, 徐丹云.
Chapter 18 使用GRASP的对象设计示例.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
OpenStack vs CloudStack
S + Vt. + O (主语+谓语+宾语 句型).
基于列存储的RDF数据管理 朱敏
Adj + Noun映射到知识库中的classes
第8章 创建与使用图块 将一个或多个单一的实体对象整合为一个对象,这个对象就是图块。图块中的各实体可以具有各自的图层、线性、颜色等特征。在应用时,图块作为一个独立的、完整的对象进行操作,可以根据需要按一定比例和角度将图块插入到需要的位置。 2019/6/30.
Presentation transcript:

豆瓣算法工程师 曾俊瑀 junyu.zeng@gmail.com douban id : knighter 2013.10.26 NLP在豆瓣标签系统 的应用 豆瓣算法工程师 曾俊瑀 junyu.zeng@gmail.com douban id : knighter 2013.10.26

什么是标签 标签的作用 标签的提取 标签的整合 总结与思考

什么是标签 标签的作用 标签的提取 标签的整合 总结与思考

什么是标签 用户视角

什么是标签 系统视角

什么是标签 一个有意义的片断 文本长度和信息量的平衡 具有信息量 可被用户理解和使用 相对独立的语法成分:词或短语 以简要的方式反映较多的内容 由使用和展示方式决定

什么是标签 标签的作用 标签的提取 标签的整合 标签的特点

标签的作用 标签预测 用户画像 标签推荐 热点发现

什么是标签 标签的作用 标签的提取 标签的整合 总结与思考

标签的提取 标题 导演 主演 类型 别名 剧情简介

标签的提取 小组标题 小组帖子 小组简介

标签的提取 词库构建 原始文本 中文分词 词性标注 标签集 标签选择

标签的提取 条目元信息 外部资源 维基百科/维基字典 词库构建 生成候选词 内部词库 词的独立性

标签的提取 词库构建 外部资源 元信息词列表 维基百科 维基字典 书名,电影名,出版社,作者,译者,歌手,演员,导演 文本中的实体词 维基百科中不包含的形容词等

标签的提取 词库构建 内部词库 使用N-gram生成候选词 计算词的内部独立性 计算词的外部独立性 我在豆瓣工作 在豆,瓣工,豆瓣工 豆瓣,工作 计算词的内部独立性 P(豆瓣) >> P(豆)*P(瓣) 计算词的外部独立性

示例 溶咖 陈奕 豆瓣电 个么 吗的 我人 人个 速溶咖 百事可 贝叶 大我 有是 的里 求的 曼哈 农夫山 潘多 的为 个已 我哪 我租 个么 吗的 我人 人个 大我 有是 的里 求的 的为 个已 我哪 我租 溶咖 陈奕 豆瓣电 速溶咖  百事可  贝叶 曼哈 农夫山   潘多 国际主 瓣电  邻广 桎梏 揶揄 蹒跚 缱绻 袈裟 徜徉 纨绔 憔悴 邯郸 霹雳 璀璨 骷髅 陈奕迅 速溶咖啡  豆瓣电台   百事可乐 贝叶斯         曼哈顿  农夫山泉      潘多拉

标签的提取 词库构建的优点 无监督/半监督 词典的准确率较高 可以发现新词 符合豆瓣语料的词频分布

标签的提取 中文分词 词性标注 规则+匹配 条件随机场 用词性筛除无实意的候选词 实词:含有实际意义的词语 虚词:没有完整的词汇意义,但有语法功能 名词、动词、形容词 > 副词、代词

标签的提取 标签选择 UGC标签的词频特征 被用户标注过的次数 使用过该标签的用户数 该标签所属的条目数

标签的提取 标签选择 TF/IDF TextRank 主题模型 类似于PageRank 基于图的排序算法 使用窗口内共现作为link 精度更高但较为费时

什么是标签 标签的作用 标签的提取 标签的整合 总结与思考

标签的整合 合并同义词 <我的奋斗> 豆瓣日志 豆瓣小组 罗永浩 -- 老罗 -- 罗胖子 拉丁文 -- 拉丁语 夏代 -- 夏朝 豆瓣小组 男盆友 -- 男朋友 -- 蓝盆友 ⓾ -- ➉ -- ➓ -- 10

标签的整合 合并同义词 实体链接(Entity Linking) 相似度计算 外部资源(维基百科等) 词共现 其他方法 DNN:word2vec

标签的整合 标签分类 电影类型:剧情 动作 爱情 科幻 动画 悬疑 惊悚 地区:美国 香港 台湾 日本 韩国 英国 法国 电影类型:剧情 动作 爱情 科幻 动画 悬疑 惊悚  地区:美国 香港 台湾 日本 韩国 英国 法国  科技:互联网 科普 科学 交互 设计 通信

标签的整合 标签分类的方法 词性标注 外部资源 人工工作

标签的整合 构建标签树 扁平结构 -> 层次结构 全局的标签树不依赖于具体的信息源 有助于跨类别的推荐

什么是标签 标签的作用 标签的提取 标签的整合 总结与思考

什么是标签 标签的作用 标签的提取 标签的整合 总结与思考

总结与思考 标签 vs 分类 multi-label与multi-class 区别: 标签预测也可以当做多分类问题来解决 可以为一个对象分配多个标签,而只归于一类 实际应用中:类别是固定的,需要的训练数据更规范 标签预测也可以当做多分类问题来解决 类别不均衡 类的个数过多 新的类别不好处理

总结与思考 标签 vs 文本摘要 文本摘要 都是文本长度与信息量的平衡 面向的对象都可以是人(用户) 以自然语言的句子为基本单位 句子合成方法不够成熟 使用和展示的方式有限 用户不大可能写摘要 都是文本长度与信息量的平衡 面向的对象都可以是人(用户)

总结与思考 标签 vs 隐层特征 都可以用于推荐 白盒 vs 黑盒 隐层特征(Latent Factor): 可以用标签生成 面向的对象是机器:不具有直接的可解释性 性能可能有提升 维度、计算量

标签选择 特征 分类 标签树 文本摘要 标签 词共现 自然语言处理 中文分词 同义词 词性标注 词库构建 外部资源 维基百科

讨论 非结构化文本信息的挖掘——让机器“理解”文本 随着互联网的发展,互联网上的文本信息成为了知识获取(维基百科),信息获取(新闻网站)和传播(SNS)的重要途径,而其中大部分都是非结构化的文本信息。 为了让机器“理解”文本,需要对互联网中海量的非结构化文本信息进行挖掘,欢迎大家一起讨论非结构化文本挖掘的各项技术,例如网页信息抽取,短文本处理,关系抽取,实体识别等等。

谢谢!