课程主页: http://home.ustc.edu.cn/~hwd/ 机器学习与知识发现 课程实验 授课老师:陈恩红 课程主页: http://home.ustc.edu.cn/~hwd/ 4/12/2019
QM9数据集:分子属性预测 数据链接: https://github.com/geekinglcq/QM9nano4USTC 数据简介:该数据集包括了13万有机分子的构成,空间信息及其对应的属性. 它被广泛应用于各类数据驱动的分子属性预测方法的实验和对比. 除了原始数据外,我们还给出了一些有效的预处理/特征工程方案,如CM,HOB,BAML等. 目标:预测分子能量(对应变量:U0) 特征类型 实例数量 特征数量 任务类型 缺失值 多变量 133, 885 / 回归 有
BDCI-18比赛题目:面向电信行业存量用户的智能套餐个性化匹配模型 任务目标:利用已有的用户属性(如个人基本信息、用户画像信息等)、 业务属性、消费习惯及偏好,预测最适合用户的套餐类型(共5种)。 数据集:CSV格式,训练集612652条,测试集262565条。每条样例涵盖 用户的25种输入属性以及目标属性:套餐类型。 结果提交及评估方式:提交csv结果文件,有2列,分别为“用户编号” 和“预测的用户套餐类型”。宏平均F1-score作为最终得分。 重要时间节点:10月19日报名截止,10月24日初赛结束。 比赛链接:https://www.datafountain.cn/competitions/311/details 2019/4/12
BDCI-18比赛题目:汽车行业用户观点主题及情感识别 任务目标:以用户对汽车的评价文本为输入,确定对应的讨论主题和 情感值(正向1、中性0、负向-1),以帮助厂商分析评论用户对所讨论 主题的偏好。 数据集:CSV格式,训练集9947条,测试集2364条。训练集已经过人工 标注,共有5个字段:评论ID、文本内容、主题(限定为10类)、情感 值、情感词(不作为评分依据)。 结果提交及评分方式:提交csv结果文件,字段与训练集一致。采用F1- Score评价方式。按照“主题+情感分析”识别数量和结果(是否正确) 来进行判断,注意:参赛者需要识别文本中可能包含的多个“主题”。 重要时间节点:10月19日报名截止,10月22日初赛结束。 比赛链接:https://www.datafountain.cn/competitions/310/details 2019/4/12
BDCI-18比赛题目:互联网金融平台用户评价观点提取 任务目标:参赛者根据用户评论数据进行分析,提取用户对于平台的 评价或印象(如:利率高、提现速度慢、客服态度好、活动多、安全有 保证、不讲信用等),要求相同或相似评价进行聚合处理(如:利率高 、收益率高等认为属于相同或相似评价)。同时,分析新闻事件对用户 评论观点随时间变化的影响。 数据集:评论数据来源于爬取的互联网金融平台评论数据,共14万条 ,每一条包括:评论ID,评论内容,评论时间,平台名称,用户名称等 。新闻数据来源于网页、微信、BBS、手机app、论坛、电子报等。每 条新闻内容包含文章ID,新闻标题,新闻内容,发布时间,和新闻发布 平台名称。 结果提交及评分方式:要求参赛者将评论分析的模型、算法、结果及 相关重要细节以PDF文档的方式进行提交。如果有额外爬取的数据,要 求参赛者上传其爬取的数据及相关数据的说明。 重要时间节点:11月11日报名截止,11月24日决赛。 比赛链接:https://www.datafountain.cn/competitions/309/details
实验要求 自行组队:每人只限参加一个队伍,每队最多不超过4人;10月19日前 将队伍信息(人员姓名+学号,队伍选题)发到 yijuwa@outlook.com 实验数据:比赛中的数据可在报名后自行下载,也会在课程主页上提 供 实验报告:写明组内人员分工,实验任务目标,实验所用方案技术, 实验结果及分析等 截止时间:2019.1.4 2019/4/12
课程主页: http://home.ustc.edu.cn/~hwd/ 机器学习与知识发现 文献阅读 授课老师:陈恩红 课程主页: http://home.ustc.edu.cn/~hwd/ 4/12/2019
报告要求 阅读至少3篇英文论文(CCF推荐的A,B类会议、期刊),选题与课程 相关即可,具体不限 根据所读论文撰写文献阅读报告,中/英文不限,鼓励使用英文 截止时间:2019.1.4 2019/4/12