电脑棋手的思维 王金一.

Slides:



Advertisements
Similar presentations
數學社群 教學分享 和平國小 陳淑渟老師 數學社群 教學分享 和平國小 陳淑渟老師. 小一常發生的 學習困難 定位板的應用 序數的學習 困難與教學 突破 主題大綱.
Advertisements

企业文化与核心价值观 主讲:孟凡驰 教授 中交四航局. 2 目 录 一、企业文化的目的价值恒久性与工具价值实践性 二、企业文化管理学特征 三、企业文化与企业发展战略 四、企业文化整合、提炼、培育和建设的目的 五、集团文化与分公司文化 六、企业核心价值观.
健康.安全年 製作 : 黃靜怡. 安全第一,我想,這是一句大家都耳熟能詳的話吧,說安全, 簡單的說,就是注意自己、眼睛要看、耳朵要聽,不要莽莽 撞撞的,安全是大家所期望的,而父母總是常常掛念我們, 就是希望我們能安全,畢竟,孩子是父母一輩子的牽掛,會 擔心我們的,往往就是關心我們的人,每個人都希望自己做.
【大願文教基金會】園藝治療師 黃盛璘督導、王麗玲執行. 年齡在 2 足歲以上 18 歲以下,經醫學中 心或區域醫 院鑑定為 重度、極重度 身心障礙,不具行動能 力、且不能自理生活,並持有身心障礙 手冊的新北市居民。 八里愛心教養院~服務對象.
第二十九课 致儿子书 张之洞.
如何陪伴孩子度過 高三歲月.
幾米 作業 1 飛上天空 我想飛上天空 遨遊在無際的天空 美麗的天空 漂亮的天空 這終究只是夢…… (李高仰)
把人的生命写在教育的旗帜上 了解一个案件 欣赏一篇散文 学习一种理念 感悟一个故事.
六大原因造成 現代人身體酸性化.
学习全国“两会”精神 常州工学院  理学院党总支 2014年3月.
乘势而上再谱发展新篇章 -2012全国两会精神解读
开启新征程 点燃中国梦 开启新征程 点燃中国梦 ——学习、领会2013年全国“两会”精神.
第八章 组织文化的整合 ——并购中的文化整合(二) 小组成员:浦若蓉、朱谷一、贾彦彦.
【2008年高考重庆卷】A.当冰雪皑皑之际,唯独梅花昂然绽放于枝头,对生命充满希望和自信,教人精神为之一振。
景区讲解常用方法.
An Introduction to Applied AI
班級愛心小護士訓練 臺南市東區勝利國小 健康中心.
各位弟兄姐妹,主內平安! 請將手機關靜音,帶著敬虔的心來到上帝的面前!
项目四 营业税 山东经贸职业学院 财政金融系.
敬业·创业·乐业 ——我的成长之路 赵谦翔.
四年七班親師會 自信學習,健康成長.
第一节 呼吸道对空气的处理.
十面“霾”伏 湖南长沙民政职业技术学院“思政”第九组 组员:李亮亮 许静 赵凯丽 何敏 张艳欣 付幻菱 陈京萍 王诗雨.
醫療旅遊.
社會發展學系 簡 介.
人物小传:杨嘉嵋,1975年出生,国家 重点四川大学本科毕业,中国传媒大学博士毕业,现为上海政法学院讲师。多次发表学术论文:《试论社会主义法治的目标和现代法治精神的培育》发表于钦州师范高等专科学校校报2000年04期,《西部在引进,利用外资中应重视的问题及对策》发表于四川师范学院学报2000年05期,《试论毛泽东的刑法思想》发表于达县师范高等专科学校学报2001年01期,《美国著名主持人的十点共性》发表于中国广播电视学刊2007年08期,《我国电视法治节目的现状与提升》发表于新闻战线2008年08期。
如何对付脏空气.
第二章 语用的主要要素分析 第一节 语境 第二节 预设 第三节 角色 第四节 视角.
从从容容中考去.
來去旅行囉! ~水的循環~ 設計者:李淑珍 學校:東寧國小.
股 指 期 货 的 应 用 1.
公关协调 能力目标 初步学会对内及对外公众关系协调的基本方法。 知识目标 掌握组织内外公众协调的原理和方法。
美麗的星空 陳弦希製作.
性別刻板印象.
初三8班(上) 期末总结班会.
初三(上) 期末总结班会.
一週菜單設計.
改革开放给我们带来的变化 系别:11商务流通系 班级:物流四班 组员:物四男生组.
教師執行計畫案聘任助理說明會 (勞務型、學習型申請方式說明)
绪 论  珍惜大学生活 开拓新的境界.
大村國小 尋根之旅.
第二节 工业地域的形成 工业联系 工业集聚 工业地域
那年我參加瑞士巴塞爾博覽會, 除了接單做貿易,還零售賣品, 以擴大出口商品的影響。
中國醫藥大學 北港分部簡報.
西安国际港务区 入区企业相关地方税收 知识培训
水腫的原因 徐淑娟護理師 PM.
拒绝毒品健康成长 ——张鸿谊.
當代國際企業.
中国未成年人法制安全课程 雾霾哪里来? 初中段 第七讲.
动商研究中心 让高校体育驶入快车道 --国家“学校体育”相关文件解读 2016 年 05 月 15 日.
第三章 领悟人生真谛 创造人生价值 第一节 树立正确的人生观 创造有价值的人生 第二节 第三节 科学对待人生环境.
鸟的生殖和发育.
第十四章 中国特色社会主义事业的依靠力量. 第十四章 中国特色社会主义事业的依靠力量 内容提要 包括知识分子在内的工人、农民是中国特色社会主义事业的根本力量;改革开放以来出现的新的社会阶层是中国特色社会主义事业的建设者;必须认真贯彻尊重劳动、尊重知识、尊重知识人才、尊重创造的重大方针,最广泛最充分地调动一切积极因素;巩固和加强各族人民的团结合作。
终极(13)班 赵树杰 许志鹏 初二(13)班.
全面推廣政府服務流程改造 行政院研究發展考核委員會  主任委員 宋餘俠 102年7月17日.
中国政法大学卫生法研究中心 于秀艳 2011年6月28日 杭州
思想道德修养与法律基础.
第1課 華南地區— 海陸文化的交會區.
多元文化“地球村”—— 世界文化之旅.
何俊賢教學資料.
歡樂大派對 六年七班 第一組 自然成果發表會.
專題報告: 沒有國哪裡會有家?.
100道素菜 想看哪一道菜時 直接點一下就可進入 1西蘭花燒豆腐 2蕃茄炒凍豆腐 3東坡豆腐 4.西芹腰果百合 5土豆燉番瓜 6香椿豆腐
就在那裡上主要我去.
環境教育宣導 疼愛地球 珍惜資源 愛護環境.
校外教學六福村一日遊.
債之標的 楊智傑.
知识产权在中小企业中的作用 讲座内容 一、知识产权在发达国家及知名企业中的地位 二、知识产权的基本概念及其特点
第6课 我是共和国的公民.
以下資料極度機密 使用手冊 1.謹慎閱讀並熟記在心… 因為你可能只有這次機會 2.分析方式,為本門絕招,盡量外傳!! 3.可反覆練習熟練!
Presentation transcript:

电脑棋手的思维 王金一

你可曾听说过“深蓝”? 1997年5月11日,IBM开发的“深蓝”击败了国际象棋冠军卡斯帕罗夫。 卡氏何许人也? 1980年他获得世界少年组冠军 1982年他并列夺得苏联冠军 1985年22岁的卡斯帕罗夫成为历史上最年轻的国 际象棋冠军 现在的积分是2849,这一分数是有史以来最高分。 远远领先于第二位的克拉姆尼克的2770

电脑棋手:永不停歇的挑战! 1988年“深思”击败了丹麦特级大师拉森。 1993年“深思”第二代击败了丹麦世界优秀女棋手小波尔加。

电脑棋手:永不停歇的挑战! 2001年“更弗里茨” 击败了除了克拉姆尼克之外的所有排名世界前十位的棋手。 2002年10月“更弗里茨”与世界棋王克拉姆尼克在巴林交手,双方以4比4战平。 2003年1至2月“更年少者”与卡斯帕罗夫在纽约较量,3比3战平。

领域在延伸 Checkers Sokoban Chinese chess Go Poker Othello Lines of action Hex Awari Amatons Shogi Rosambo Domineering …… ……

许多人在努力                   

他们来自于何方? Canada、America、England、China、Japan、Holland、Mexico…… University of Alberta、University of Wisconsin、University of Maryland、 MIT、University of Tokyo、University of Albama、University of California、 Erasmus University、Cambrige University……

解谜:电脑是怎样下棋的 ——人机博弈程序的一般设计方法 解谜:电脑是怎样下棋的 ——人机博弈程序的一般设计方法 以中国 棋为例

(1)第一步该做什么? 数据结构的选取 ——棋盘表示 在机器中表示棋局,让程序知道 博弈状态。 占用空间-〉少 操作速度-〉快 是否方便-〉方便

九列十行 十四种不同的棋子 三十二个棋子

几种棋盘表示的方式 二维数组——直观 紧凑的数据结构——省空间,不直 观,速度? 比特棋盘——用于8*8棋盘(国际象 棋),64位主机

(2)接下来怎么办? 产生合法走步的规则,使博弈能公正的进行,并且能够判断对手是否乱走。依赖于具体棋类特征。 是一段将局面所有可能的正确走法罗列出来的程序。称之为走法产生。

几种走法产生的实现方式 一般做法 建立小型数据库 位运算

位运算走法产生之例 寻找象的可走步

位运算走法产生之要求 一个基于比特棋盘的完善的数据库 该数据库应位于内存中

(3)终于到核心了 从所有的走法中找出最佳的走法, 也就是—— 搜索

搜索的基本方法 极大极小值 负极大值 Alpha-Beta搜索

极大极小值搜索 对抗性搜索 静态估值 有限深度 深度优先

负极大值算法 重点在于:父节点的值是各子节点的值的负数的极大值。 红走 黑走

Alpha-Beta剪枝

在奇数层进行Alpha剪枝,偶数层Beta剪枝。 和极大极小搜索结合 在奇数层进行Alpha剪枝,偶数层Beta剪枝。 和负极大值搜索结合 在每一层都进行Beta剪枝。

优化的搜索算法 渴望搜索 极小窗口搜索 置换表 哈希表 Zobrist哈希技术

优化的搜索算法 迭代深化 历史启发 杀手启发 SSS*/DUAL*算法 MTD(f)算法

(4)最后 评估局面优劣,配合搜索技术做出智能的选择——估值技术 棋子价值评估 SideValue=Sum(piecenumber*piecevalue) 棋子灵活性 Mobility=Sum(movenumber*movevalue) 棋盘控制 棋子关系的评估(威胁、保护、形、定势。并且要考虑到谁走棋)

估值的几种形式 终点估值 思路清晰,容易设计,模块独立性高, 同搜索算法耦合程度低 速度慢 棋子价值表 T[pieceType][boardWidth][boardHeight] 二者结合 动态棋子价值表

估值函数的内容及其调试 Score=aX+bY+cZ+dK+…… X=车+马+炮+……

参数确定的方法 手工调整 爬山法 蒙特卡罗 模拟退火 遗传算法

爬山法的缺陷——初值依赖

蒙特卡罗 使用多种初始参数,从不同的地方开始多次爬山 有足够多次的爬山,出现频率最高的结果是最优解的概率就会足够大 不同初值的大量采样,使运算效率低

模拟退火 MetroPolis重要性采样的基本思想:在寻优的开始使用较高的概率进行随机突跳,随着寻优过程的深入逐步降低这一接受不佳参数概率。并且随着搜索的深入,可接受的参数的不佳程度也越来越小。

模拟退火 一次对参数改变一点,测试。 提高,保留 不提高,在一定概率上继续 由粗到细,逼近最优参数

遗传算法 随机产生一组初始个体构成初始种群,并评价每一个体的适配值。 判断算法收敛准则是否满足,若满足则输出搜索结果,否则执行以下步骤。 根据适配值大小以一定方式执行复制操作。 按交叉概率pc之行交叉操作。 按变异概率pm执行变异操作。 返回上面第二步骤。

遗传算法 适配值:对个体进行评价的指标,算法优化的主要信息,与个体的目标值对应 复制:复制概率正比于适配值 交叉:交换父代个体中的部分信息产生后代,继承 变异:随机改变个体中的某些信息产生新个体,增加种群多样性

标准遗传算法优化框图

使用遗传算法优化参数估值的过程

Genetic Algorithms 优越性 全空间并行搜索,重点集中在高性能部分,防止陷入局部最优

孰优孰劣? 名局测试 和其他博弈程序对弈 选不同的参数,自相对弈 同向下几层的搜索结果比较

OK啦!