今天新闻中关于OpenAI的Q*算法的介绍,现在看上去还是有点神秘的,之前接触过强化学习的相关内容,对Q-learning有所了解,也基本看通过一个简单的游戏的算法的实现细节(参考引文1)。深度强化学习和人脑的学习有较大的相似之处,机器学习的算法发明者还是从人类本身的学习中去总结经验和规律,将其进行数学形式化,确实了不起。发明了的AI算法从另一角度也会给更多的人们思考人类的生物智能提供了窗口,使得我们更好的对我们自己的智能进行反思。
Q-network learning解决了一些状态数量巨大的情况下的智能决策问题,满足我们很多场景中的状态不好进行枚举可数的情形,如很多的游戏场景,状态可以理解为当前或最近几帧的图像,不太好用Q-table进行描述,而神经网络如cnn对图像任务表现已经比较出色,自然会想到用cnn网络进行建模,输入为图像或组合,解决了不好显示定义状态(状态数太大)的问题。
强化学习中一个关键的方程为贝尔曼方程,也是一种递归定义,巧妙解决了价值函数的定义,具体细节可以参考引文3。
强化学习训练起来也不是很容易,有很多工程上技术问题需要解决,如大规模集群计算(高效的高速带宽大算力计算集群)以及大量的较为高质量的数据都很关键。不是一件容易的事情,需要专业人员摸索和积累经验。这方面经验不是很足。
强化学习中还有一个epsilon参数的定义,估计也是从人类的学习中去总结提炼出来的,是关于行为是采用经验保守还是进行探索冒险的这种比例机制问题。比如小孩子先验知识比较少,探索的时候更多些,年纪越大积累的更多的经验,认知也比较丰富了,这时需要的探索的事情就自然会少些。所以在强化学习算法的训练过程中,这个比例也是需要调整的。
OpenAI的大模型技术确实发展的挺快,在推理上可能有比较大的进展,人类对于AI的应用和使用确实要制定更加合理规范的规则。AI的未来还是有很多的可能性,期待给人来带来更多的福祉。
References
Leave a Reply