>就跟有个五六岁的小孩,到你面前轻而易举的解决了你数十年都没有解决的难题。

其他评委换位思考,要是换做是自己,估计也会和他一样,甚至更加激动。

哪管的了什么大会流程,所以其他评委都默契的没有阻止他的发问。

张卫国以为落寒和他们采取了一样的设计原理,博雅他们设计的系统包含了“策略网络”“快速落子”和“价值网络”。整个机器人包含了两个大脑,“落子选择器”和“棋局评估器”。

一个四人小组,尤其是其他四人还在打酱油的情况下,落寒想要通过记录棋谱来提升系统的水平显然是不可能。

“呃......”落寒有点懵,这才刚讲一句话就被评委提问了,还这么激动,有点想要冲上台来的样子,这什么情况?

还是会长看出来落寒的的疑问,开口到:“卫国,你先坐下,你看你都吓住这位同学了。

我要是没记错,这位同学是叫落寒吧,我们就跳过之前的阶段,直接开始答辩吧!

我们都比较想知道你的设计原理。”

台下的正在等待上台的其他小组都难以置信。

台下的评委都是什么人,至少都是博雅的副教授,现在他们都不知道落寒围棋机器人系统的设计原理。

他们不知道落寒这个系统所代表的含义,不代表这些在行业内研究几十年的评委们不知道。

如果这个系统真的如落寒所说,那它就象征着计算机技术已进入人工智能的新信息技术时代(新it时代),其特征就是大数据、大计算、大决策,三位一体。

它的智慧正在接近人类。

“对不起,小同学,你继续讲,我有点激动了。”张卫国此时也反应过来了,讪讪一笑对落寒道了个歉坐下来了。

落寒一看,既然评委们都这么说了,他索性就放弃了之前准备的演讲稿,直接回答起问题来。

“我设计的这款系统是基于神经网络原理,与目前世面上机器人系统最大的区别就是,它不再需要人类数据。

也就是说,它一开始就没有接触过人类棋谱。它使用新的强化学习方法,让自己变成了老师。”

看着台下的评委都露出一股思索的表情,落寒继续补充道:

“这个系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。

随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。”

落寒慢慢讲诉着自己的设计理念,评委则是越听越吃惊,心里都泛起惊涛骇浪,就算是不是研究智能系统这一方向的老师,都开始感兴趣起来。

“理论上来说,它不光可以成为围棋机器人,他甚至可以通过自我博弈学习任何一种棋类。”

落寒发现刚才那位评委又开始兴奋起来,他赶忙说道:

“不过,我也不知道什么地方出来问题,导致这个系统在提升到职业五段的水平后,就停止不前了,目前我还没找到解决办法。”

张卫国一听又重新平静下来,继续问着关键问题:

“那你落子时如何选择的?选择方案是什么?”

“根据我了解的相关论文文献,到现在为止所有研究所设计的相关系统,落子时的选择都是基于两方面的考虑。”

“一是通过训练形成一个‘策略网络’,主要是将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。

然后,训练出一个‘价值网络’对自我对弈进行预测,以-1(对手的绝对胜利)到1的标准,预测所有可行落子位置的结果。

这两个网络自身都十分强大,而目前国际上所有的相关文献描述的都是,将这两种网络整合进基于概率的蒙特卡罗树搜索中,实现了它真正的优势。”

张卫国推了推眼镜,额头微点,这个落寒肚子里倒是有不少货啊,他说的正是他们的设计思路。

“而我的系统在设计如何落子时是将上述两个神经是网络合二为一,摒弃了棋谱,通过它自己产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

让它从低级的对战慢慢成长,从而让它能得到更高效的训练和评估”

落寒停顿了一下,观察了一下评委,发现他们差不多消化了他所说的信息,继续道:

“在获取棋局信息后,围棋系统会神经网络中根据策略网络功能,探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。

在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为阿尔法围棋的最终选择。

在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,围棋系统的搜索算法就能在其计算能力之上加入近似人类的直觉判断。”

前世包括阿尔法系统的旧版本,都是结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。

而现在落寒所讲述的方法,还没有任何期刊杂志发表过,毫不过分的说落寒现在的方法是全球首创也不为过。

当然这是在获得深度睡眠学习系统后,在梦里附身前世阿尔法的机器人的主创人员学到的办法,只是时间有些短,现在还有一些问题没有解决。

......

台上,落寒对着一堆博雅的教授副教授继续侃侃而谈,回答者他们各种各样的


状态提示:第623章--第2页完,继续看下一页
回到顶部