【图片】转自知乎：通用人工智能模型AIXI_人工智能吧

原作者为知乎用户囧神

作者：囧神
链接：https://www.zhihu.com/question/34393952/answer/65205814
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
目前强AI在学术界一般指通用人工智能（artificial general intelligence/universal artificial intelligence）。即通过一个通用的数学模型，能够最大限度概括智能的本质。那么，什么是智能的本质？目前比较主流的看法，是系统能够具有通用效用最大化能力：即系统拥有通用归纳能力，能够逼近任意可逼近的模式，并能利用所识别到的模式取得一个效用函数的最大化效益。这个模型现在已经有了，叫做AIXI，由澳大利亚国立大学的marcus hutter所提出：

只用这一个公式，就概括出了智能的本质！用这个一个模型，就可以概括深度学习、SVM、传统逻辑、强化学习等各种理论！
那么，目前是否根据这个公式就可以直接做出通用人工智能了呢？很遗憾，可以证明，这个模型的计算复杂度是δ（4）。也就是不仅这个模型是不可计算的，而且它的不可计算等级为4（一般的停机问题为δ（1））！也即是说只能采用可计算的模型来逼近AIXI，目前热门的deepmind，就是这个方法的先行者（deepmind的创始人是marcus hutter的博士）。
此外，还有一些通用智能模型，包括AIXI的变种Gรถdel machine，但是总体思想上来说，并没有超越AIXI的框架范畴（民科的就算了）。
通用人工智能这一块非常冷门，也就那么几个人在搞，在知乎上就看到一个人有真正了解过这块。终于有人问这个问题了，很好！

有人问这个模型的解释，简单说下吧：

可以证明，在任何确定性的世界里，即世界的后续状态由其先前历史完全唯一的决定，那么使用算法概率来预测未来就是一个很有效的方法，仅仅通过很有限的几个错误，算法概率就能帮助我们准确的预测未来。即使对于不确定性的环境，只要它仍然是“有规律的”，或可以看作某种可计算的测度，那么仍然仅需有限几个错误，算法概率就能帮我们准确的逼近真实的分布概率分布。
而且，这种逼近的快慢取决于真实环境的复杂性，越简单的环境越容易估计，越复杂的环境则需要更多的错误才能逼近，但不管怎么样，只要环境是“有规律的”，总可以用有限个错误去逼近。我们深信现实世界是“有规律”的，虽然我们不知道它的复杂性有多高，也就不知道什么时候才能真正精确的进行预测，但我们知道，只要坚持用算法概率估测未来，肯定在某个时候，在经历了足够多的试错之后，我们可以逼近现实世界背后真实的运行机制。
但是，通用归纳模型仅仅是一种预测模型，预测的行为本身并不构成对环境的任何影响。虽然主体对环境作出了预测，但不会采取任何行为去改变环境。但现实生活中，我们都是世界的一份子，我们的每一个行为都有意无意的影响着环境，而且，最重要的不是解释世界而是改造世界。比如我们研究股市的模式，然后根据自己发现的模式预测股票随后的走势，然后根据预测结果决定买进还是卖出，但无论是买进还是卖出，我们的交易行为都反过来影响着股市的波动。这个过程可以看作“主体”与“环境”的交互过程。
考虑一个面对未知环境的主体，它与环境不断交互，在每一个回合中，主体p都对环境作出某种动作，然后这个动作激发环境q作出某种反应，反过来给主体一些反馈，主体感知到这种反馈，同时从中体会到某种正面（幸福）或负面（悲伤）的效用，然后计划下一回合的交互该采取那种动作，主体的所有信息都来自过去与环境交互的历史，它对未知环境的评估也主要依赖于这些信息。

如图所示，p的输入带是q的输出带，p的输出带是q的输入带。在第k个回合，主体p输出（做动作）ak，环境q读取ak，然后输出ok，伴随着ok还反馈给主体p某种“效用”rk，主体p读取（感知到）ok和rk，然后进行下一个（第k + 1个）回合. . .生活是一系列选择的总和，如果你选择了做ak，你就可能面对ok、品尝rk，要想收获更多，就需要慎重选择，需要立足当下、评估未来。如何立足当下，评估未来呢？这里我们用算法概率来估测可能的未来历史，评估主体与所有可能的环境q交互出的所有可能的历史，类似霍夫曼编码那样，对于简单的环境赋予高的权重，对于复杂的环境赋予低的权重，然后用综合权衡后的算法概率来评估可能的历史

:

最智能的主体就是在这种不确定的环境中最大化未来的期望累积效用的主体AIXI，也
就是说，在主体与环境交互的第t个回合，主体最优的行为方式是：

通用智能模型AIXI可以看做最大化期望累积效用的决策过程与Solomonoff序列预测的通用归纳模型的结合，或者可以看作以“算法概率”寻求期望累积效用最大化的决策。即使对于不确定的环境，只要它是有规律的，那么跟通用归纳时的情形一样，算法概率仍然可以很好的逼近真实的环境，上面定义的智能主体AIXI仍然可以很好的适应。而且可以证明，AIXI是帕累托最优的，即不存在某个主体，它在所有可能的环境中表现都不比AIXI差，并且能在某个环境中表现比AIXI严格的好。
AIXI依然有一些问题，例如它的复杂性过高，它的有效需要对环境做比较严格的假设，但目前为止它确实是通用模型中说服力最强的之一。现实世界是一个高复杂度的环境，虽然在不计计算资源的情况下，AIXI可以达到理论上的最优智能决策，但是要在可计算、可实现的范围中寻求AIXI的可计算的高效的逼近还是非常困难的。
这次更新下对AIXI的介绍，借鉴了朋友的一些东西，各位将就看看吧

顺着这几天的东风更一下~~分几次更吧，最近事比较多。
首先为李世石以及一众围棋选手默一下哀，我们都没想到这次的DQN改进型会这么强，居然碾压了围棋界的世界第三。目前DeepMind打算把之前的人类棋谱全部丢掉然后用玩Atari的方式去玩，希望能学出一些之前人类没有发现的局势，照这么个玩法以及之后的资源倾斜及技术发展，基本上一段时间后柯洁以及其他棋手再去挑战的胜率估计不大了......
先介绍一下相关的会议及期刊：
关于AGI，目前会议方面相关的当然首推Artificial General Intelligence，这个是最正宗的AGI会议！Hutter，Ben这些大牛都是这个会议的扛鼎人，里面讨论的基本都是通用AI的内容，不过也因此往往距离实用比较远。2013年的AGI会议是在北京召开的，虽然那一届据说是历届里面最烂的...2015AGI论文集：【链接已失效】
其次就是搞机器学习或者模式识别的同学比较熟悉的IJCAI和AAAI了，这两个上面也有一些AGI相关的内容。不过因为这是综合性的会议，所以只要和人工智能沾点边的都算在里面，比如知识库，NLP，图像识别，语音识别这些都有。这两类也是人工智能领域综合分量最高的两个会。
在往下就是人工智能各个领域的会议和期刊了，这两个介绍可以看看：
科学网—[转载]AI会议排名
CCF推荐排名
-----------------------------------------------------------------------------------------------------------------------------------------
继续更新，这次介绍下AIXI的相关研究
定义AIXI涉及的效用函数一般假定为外部给定的，Schmidhuber定义了一种有趣的内部效用，它完全由主体内在驱动，纯粹为了追求某种“好奇”。与此相关的，Orseau等人定义了“寻求知识”的效用函数，这种主体纯为探索“模式”而生，所以对它来说不存在传统的勘探/开发（exploration/exploitation）两难，勘探就是开发，这使得它是“弱渐进最优的”。其他的效用定义还有例如“生存优先”，“平等优先”，“效率优先”等诸多效用。通过定义这些内在效用，相当于定义了AI对世界的根本性价值观，因此，这是现在AIXI系统研究的主要方向之一，同时也是deepmind的主攻方向之一。
在AIXI的框架中，主体和环境可以看作两个完全独立的“主体”在交互，但这是一种为了易于处理问题进行的简化，现实世界往往复杂的多，主体并不具有游离环境之外的超越地位，主体也是环境的一部分，为了刻画这种情形，Orseau等人从环境能否读取/修改主体的源代码/内存等角度研究了AIXI的几个变种。比如，Ring和Orseau从环境能否读取主体的“源代码”、主体能否“修改自身源代码”、是否会“自我欺骗”等角度研究主体的表现，其中对于“寻求知识”的AIXI变种，即使环境可以修改它的代码、即使允许它可以修改“观测数据”，它也不会进行“自我欺骗”。Orseau和Ring定义的“内嵌于时空”中的AIXI变种则完全是环境的一部分，主体就在环境中，主体的计算资源受到环境的时空限制，环境可以修改主体的任何部分，环境执行主体的代码。下面提到的“哥德尔机（Gรถdel machine）”可以看作这种“内嵌于时空”的AIXI变种的一个例子。

而如果允许AIXI修改自己的框架，也可能会导致一些很好玩的效果，例如，AIXI可能会学会直接修改自己的效用定义从而实现自我欺骗，就如同人类的“逃避现实”或者“自我封闭”....

通用智能模型AIXI继承了通用归纳模型的不可计算性，所以它不能直接应用。因此各种可计算的逼近不断被提出并研究。不管最终的人工智能以何种方式呈现，抽象的看，一个智能体也无非是由某一个程序控制，所以不妨设计某种“元程序”负责搜索整个“程序空间”、自动寻找“聪明”的程序，然后通过经验学习寻找更“聪明”的程序。Hutter在定义这种“元程序”时借鉴了Levin的通用搜索思想，给出了AIXI的变种AIXItl，它在时间t、空间l界内理论上优于任何其它在时间t、空间l界内的智能主体。Schmidhuber把这种“元学习”的思想进一步推进，定义了“哥德尔机”，“哥德尔机”包含两个平行运行的部分——“Solver”和“Searcher”，初始的Solver负责与环境交互，而Searcher可以对“哥德尔机”自身各部分（包括Solver和Searcher）代码进行彻底的修改——只要它内嵌的形式系统能证明这种修改将带来更大的期望累积效用，这样Solver和Searcher都可以相对安全的不断自我进化升级、趋向全局最优。
但以上所有这些都仍然只是理论上的最优，不具有实用价值，需要另想办法进行容易实现的逼近。
其中一种方式就是通过限制可能的环境类通过蒙特卡洛方法和上下文树加权方法而作出的逼近近MC-AIXI-CTW，它可以在事先不知道游戏规则的情况下，通过试错法玩好Cheese Maze,TicTacToe, Pacman, Kuhn Poker 等各种稍微复杂的游戏。deepmind使用了deep learing+reinforce learing的方式来寻找AIXI的逼近，目前来看取得了很好的效果，这次的alphago可以说是这个方法的一个改进升级版。
AIXI的每一步决策都依赖于其整个的过去历史，现实世界虽然复杂但也没有那么复杂，其中存在很多相对独立的模式，只依赖它们就可以进行很好的预测，因此，Hutter提出了“特征加强学习”的逼近方法，通过一种类似“极小描述长度原则”的思想，可以将主体的“历史”自动映射到合适的“状态”上，然后将难处理的逼近问题划归到相对简单的马尔科夫决策过程上。如果处理的现实问题是简单的，那么通过这种方法就能自动找到一个简单的马尔科夫决策过程去刻画它。在一些游戏上这种方法可以取得不逊于MC-AIXI-CTW的实验效果。

日	一	二	三	四	五	六

转自知乎：通用人工智能模型AIXI

扫二维码下载贴吧客户端