电脑棋手的思维王金一.

Slides:

Advertisements

Similar presentations

數學社群教學分享和平國小陳淑渟老師數學社群教學分享和平國小陳淑渟老師. 小一常發生的學習困難定位板的應用序數的學習困難與教學突破主題大綱.

Advertisements

企业文化与核心价值观主讲：孟凡驰教授中交四航局. 2 目录一、企业文化的目的价值恒久性与工具价值实践性二、企业文化管理学特征三、企业文化与企业发展战略四、企业文化整合、提炼、培育和建设的目的五、集团文化与分公司文化六、企业核心价值观.

健康．安全年製作 : 黃靜怡. 安全第一，我想，這是一句大家都耳熟能詳的話吧，說安全，簡單的說，就是注意自己、眼睛要看、耳朵要聽，不要莽莽撞撞的，安全是大家所期望的，而父母總是常常掛念我們，就是希望我們能安全，畢竟，孩子是父母一輩子的牽掛，會擔心我們的，往往就是關心我們的人，每個人都希望自己做.

【大願文教基金會】園藝治療師黃盛璘督導、王麗玲執行. 年齡在 2 足歲以上 18 歲以下，經醫學中心或區域醫院鑑定為重度、極重度身心障礙，不具行動能力、且不能自理生活，並持有身心障礙手冊的新北市居民。八里愛心教養院～服務對象.

第二十九课致儿子书张之洞.

如何陪伴孩子度過高三歲月.

幾米作業 1 飛上天空我想飛上天空遨遊在無際的天空美麗的天空漂亮的天空這終究只是夢…… (李高仰)

把人的生命写在教育的旗帜上了解一个案件欣赏一篇散文学习一种理念感悟一个故事.

六大原因造成現代人身體酸性化.

学习全国“两会”精神常州工学院　理学院党总支 2014年3月.

乘势而上再谱发展新篇章－2012全国两会精神解读

开启新征程点燃中国梦开启新征程点燃中国梦 ——学习、领会2013年全国“两会”精神.

第八章组织文化的整合 ——并购中的文化整合（二）小组成员：浦若蓉、朱谷一、贾彦彦.

【2008年高考重庆卷】A.当冰雪皑皑之际，唯独梅花昂然绽放于枝头，对生命充满希望和自信，教人精神为之一振。

景区讲解常用方法.

An Introduction to Applied AI

班級愛心小護士訓練臺南市東區勝利國小健康中心.

各位弟兄姐妹，主內平安！請將手機關靜音，帶著敬虔的心來到上帝的面前！

项目四营业税山东经贸职业学院财政金融系.

敬业·创业·乐业 ——我的成长之路赵谦翔.

四年七班親師會自信學習，健康成長.

第一节呼吸道对空气的处理.

十面“霾”伏湖南长沙民政职业技术学院“思政”第九组组员：李亮亮许静赵凯丽何敏张艳欣付幻菱陈京萍王诗雨.

社會發展學系簡介.

人物小传：杨嘉嵋，1975年出生，国家重点四川大学本科毕业，中国传媒大学博士毕业，现为上海政法学院讲师。多次发表学术论文：《试论社会主义法治的目标和现代法治精神的培育》发表于钦州师范高等专科学校校报2000年04期，《西部在引进，利用外资中应重视的问题及对策》发表于四川师范学院学报2000年05期，《试论毛泽东的刑法思想》发表于达县师范高等专科学校学报2001年01期，《美国著名主持人的十点共性》发表于中国广播电视学刊2007年08期，《我国电视法治节目的现状与提升》发表于新闻战线2008年08期。

如何对付脏空气.

第二章语用的主要要素分析第一节语境第二节预设第三节角色第四节视角.

从从容容中考去.

來去旅行囉！ ~水的循環~ 設計者：李淑珍學校：東寧國小.

股指期货的应用 1.

公关协调能力目标初步学会对内及对外公众关系协调的基本方法。知识目标掌握组织内外公众协调的原理和方法。

美麗的星空陳弦希製作.

性別刻板印象.

初三8班（上）期末总结班会.

初三（上）期末总结班会.

一週菜單設計.

改革开放给我们带来的变化系别：11商务流通系班级：物流四班组员：物四男生组.

教師執行計畫案聘任助理說明會 (勞務型、學習型申請方式說明)

绪论　珍惜大学生活开拓新的境界.

大村國小尋根之旅.

第二节工业地域的形成工业联系工业集聚工业地域

那年我參加瑞士巴塞爾博覽會，除了接單做貿易，還零售賣品，以擴大出口商品的影響。

中國醫藥大學北港分部簡報.

西安国际港务区入区企业相关地方税收知识培训

水腫的原因徐淑娟護理師 PM.

拒绝毒品健康成长 ——张鸿谊.

當代國際企業.

中国未成年人法制安全课程雾霾哪里来？初中段第七讲.

动商研究中心让高校体育驶入快车道 --国家“学校体育”相关文件解读 2016 年 05 月 15 日.

第三章领悟人生真谛创造人生价值第一节树立正确的人生观创造有价值的人生第二节第三节科学对待人生环境.

鸟的生殖和发育.

第十四章中国特色社会主义事业的依靠力量. 第十四章中国特色社会主义事业的依靠力量内容提要包括知识分子在内的工人、农民是中国特色社会主义事业的根本力量；改革开放以来出现的新的社会阶层是中国特色社会主义事业的建设者；必须认真贯彻尊重劳动、尊重知识、尊重知识人才、尊重创造的重大方针，最广泛最充分地调动一切积极因素；巩固和加强各族人民的团结合作。

终极（13）班赵树杰许志鹏初二（13）班.

全面推廣政府服務流程改造行政院研究發展考核委員會　主任委員宋餘俠 102年7月17日.

中国政法大学卫生法研究中心于秀艳 2011年6月28日杭州

思想道德修养与法律基础.

第1課華南地區— 海陸文化的交會區.

多元文化“地球村”—— 世界文化之旅.

何俊賢教學資料.

歡樂大派對六年七班第一組自然成果發表會.

專題報告：沒有國哪裡會有家？.

100道素菜想看哪一道菜時直接點一下就可進入 1西蘭花燒豆腐 2蕃茄炒凍豆腐 3東坡豆腐 4.西芹腰果百合 5土豆燉番瓜 6香椿豆腐

就在那裡上主要我去.

環境教育宣導疼愛地球珍惜資源愛護環境.

校外教學六福村一日遊.

債之標的楊智傑.

知识产权在中小企业中的作用讲座内容一、知识产权在发达国家及知名企业中的地位二、知识产权的基本概念及其特点

第6课　我是共和国的公民.

以下資料極度機密使用手冊 1.謹慎閱讀並熟記在心… 因為你可能只有這次機會 2.分析方式，為本門絕招，盡量外傳！！ 3.可反覆練習熟練！

Presentation transcript:

电脑棋手的思维王金一

你可曾听说过“深蓝”？ 1997年5月11日，IBM开发的“深蓝”击败了国际象棋冠军卡斯帕罗夫。卡氏何许人也？ 1980年他获得世界少年组冠军 1982年他并列夺得苏联冠军 1985年22岁的卡斯帕罗夫成为历史上最年轻的国际象棋冠军现在的积分是2849，这一分数是有史以来最高分。远远领先于第二位的克拉姆尼克的2770

电脑棋手：永不停歇的挑战！ 1988年“深思”击败了丹麦特级大师拉森。 1993年“深思”第二代击败了丹麦世界优秀女棋手小波尔加。

电脑棋手：永不停歇的挑战！ 2001年“更弗里茨” 击败了除了克拉姆尼克之外的所有排名世界前十位的棋手。 2002年10月“更弗里茨”与世界棋王克拉姆尼克在巴林交手，双方以4比4战平。 2003年1至2月“更年少者”与卡斯帕罗夫在纽约较量，3比3战平。

领域在延伸 Checkers Sokoban Chinese chess Go Poker Othello Lines of action Hex Awari Amatons Shogi Rosambo Domineering …… ……

许多人在努力

他们来自于何方？ Canada、America、England、China、Japan、Holland、Mexico…… University of Alberta、University of Wisconsin、University of Maryland、 MIT、University of Tokyo、University of Albama、University of California、 Erasmus University、Cambrige University……

解谜：电脑是怎样下棋的 ——人机博弈程序的一般设计方法解谜：电脑是怎样下棋的 ——人机博弈程序的一般设计方法以中国棋为例

（1）第一步该做什么？数据结构的选取 ——棋盘表示在机器中表示棋局，让程序知道博弈状态。占用空间-〉少操作速度-〉快是否方便-〉方便

九列十行十四种不同的棋子三十二个棋子

几种棋盘表示的方式二维数组——直观紧凑的数据结构——省空间，不直观，速度? 比特棋盘——用于8*8棋盘（国际象棋），64位主机

（2）接下来怎么办？产生合法走步的规则，使博弈能公正的进行，并且能够判断对手是否乱走。依赖于具体棋类特征。是一段将局面所有可能的正确走法罗列出来的程序。称之为走法产生。

几种走法产生的实现方式一般做法建立小型数据库位运算

位运算走法产生之例寻找象的可走步

位运算走法产生之要求一个基于比特棋盘的完善的数据库该数据库应位于内存中

（3）终于到核心了从所有的走法中找出最佳的走法，也就是—— 搜索

搜索的基本方法极大极小值负极大值 Alpha-Beta搜索

极大极小值搜索对抗性搜索静态估值有限深度深度优先

负极大值算法重点在于：父节点的值是各子节点的值的负数的极大值。红走黑走

Alpha-Beta剪枝

在奇数层进行Alpha剪枝，偶数层Beta剪枝。和极大极小搜索结合在奇数层进行Alpha剪枝，偶数层Beta剪枝。和负极大值搜索结合在每一层都进行Beta剪枝。

优化的搜索算法渴望搜索极小窗口搜索置换表哈希表 Zobrist哈希技术

优化的搜索算法迭代深化历史启发杀手启发 SSS*/DUAL*算法 MTD(f)算法

（4）最后评估局面优劣，配合搜索技术做出智能的选择——估值技术棋子价值评估 SideValue=Sum(piecenumber*piecevalue) 棋子灵活性 Mobility=Sum(movenumber*movevalue) 棋盘控制棋子关系的评估（威胁、保护、形、定势。并且要考虑到谁走棋）

估值的几种形式终点估值思路清晰，容易设计，模块独立性高，同搜索算法耦合程度低速度慢棋子价值表 T[pieceType][boardWidth][boardHeight] 二者结合动态棋子价值表

估值函数的内容及其调试 Score=aX+bY+cZ+dK+…… X=车+马+炮+……

参数确定的方法手工调整爬山法蒙特卡罗模拟退火遗传算法

爬山法的缺陷——初值依赖

蒙特卡罗使用多种初始参数，从不同的地方开始多次爬山有足够多次的爬山，出现频率最高的结果是最优解的概率就会足够大不同初值的大量采样，使运算效率低

模拟退火 MetroPolis重要性采样的基本思想：在寻优的开始使用较高的概率进行随机突跳，随着寻优过程的深入逐步降低这一接受不佳参数概率。并且随着搜索的深入，可接受的参数的不佳程度也越来越小。

模拟退火一次对参数改变一点，测试。提高，保留不提高，在一定概率上继续由粗到细，逼近最优参数

遗传算法随机产生一组初始个体构成初始种群，并评价每一个体的适配值。判断算法收敛准则是否满足，若满足则输出搜索结果，否则执行以下步骤。根据适配值大小以一定方式执行复制操作。按交叉概率pc之行交叉操作。按变异概率pm执行变异操作。返回上面第二步骤。

遗传算法适配值：对个体进行评价的指标，算法优化的主要信息，与个体的目标值对应复制：复制概率正比于适配值交叉：交换父代个体中的部分信息产生后代，继承变异：随机改变个体中的某些信息产生新个体，增加种群多样性

标准遗传算法优化框图

使用遗传算法优化参数估值的过程

Genetic Algorithms 优越性全空间并行搜索，重点集中在高性能部分，防止陷入局部最优

孰优孰劣？名局测试和其他博弈程序对弈选不同的参数，自相对弈同向下几层的搜索结果比较

OK啦！