AI的发展在近十年来迎来了高速的发展,深度学习的兴起,在计算机视觉,自然语言理解,语音智能等方面都相比传统信号处理方法或以及早期的机器学习算法有了长足的进步。
智能驾驶在近五年内也是一个竞争激烈的领域,一般智能驾驶以计算机视觉(周视摄像头,如在车子四周布置8个)、激光(lidar)、雷达等传感器对周围的物理世界进行感知以及将多个感知通道进行融合,然后将类似路径规划,决策控制等模块进行集成,形成一个大的以车子形态体现的机器人系统。
智能驾驶从本质上来看是一种数理过程的解释如下:摄像头对周围的物理空间进行感光,将获取到的图像(image,镜像)经过深度学习神经网络计算得出感知结果,最后会影响到车子的最终运动走向。从这个过程看,获取镜像是将周围的物理空间进行简化了的数字化,然后智能驾驶系统通过智能计算(AI)转化为最终的控制信号后改变车子的运动状态。这个过程是通过数字化的物理世界然后通过智能计算(应用数学,高维空间的数学计算,神经网络参数量很大,是个复杂的函数,维度很高)最终影响当前车子的运动状态的一个过程。具体表现在:1、数字化的物理空间状态和计算系统的物理硬件是融合的,在计算系统中,这些感知信号都表现为0和1的状态编码,在数字电路中可以理解为高电平低电平的电压状态,同时计算的逻辑也是将数学的计算逻辑通过硬件芯片来实现。因此信息空间(数字空间)和物理空间是充分融合在一起的。2、最终的计算结果转化为车子的控制信号,如加速度,转向,刹车等,通过这些信号改变车子的物理运动,宏观上等价于从外界给车子施加了一个特殊的力,这个力的产生溯源是一个复杂的数理过程,而不是简单的直接施加一个单一的力来起作用的。
这些AI的模型算法(集合)是算法工程师发明的,发明的过程是通过人脑创造出来的,也是通过一些生物电计算将物理的能量转化为这些数学计算的算法,后续加载了这些算法的智能驾驶系统又通过算法将改变现实世界的物理运动。因此可以说信息空间和物理空间存在着相互的融合和改变,说的夸张一点,这和中国古人的阴阳观点有相似,阴阳之间彼此耦合协调形成一个整体。
从这个过程来进行拓展和联想到我们人类,也可以看出相似性,不过一般人类将自己的行为当作理所当然,没有去思考罢了,甚至我们人类的这种机制很有可能更复杂,因为我们的四肢和五脏六腑的构造更为精密复杂,运动也更为复杂。
人类的智能还是有很大的挖掘空间的,毕竟机器人是人类自己创造出来的。早就听说过人的大脑就是个小宇宙,期盼着某一天人类的大脑能有更加清晰的全宇宙图景,去一步步改造宇宙,或者说宇宙自身由于人类的存在越来越和谐。
现在的机器人不仅仅在运动上表现出了较强的性能,在决策上,甚至在generative ai的创造上都有很不俗的表现,以后机器人也将会越来越自主,也更像人类的社会行为。引文为张亚勤老师的世界互联网大会的报告文字版链接,大模型技术正在向下面6个大的方向发展的摘要如下:
- 跨模态,多模态,和多尺度大模型:新的大模型包括自然数据(语言文字、图像、视频),也包括从传感器获取的信息(比如无人车中的激光雷达点云、3D结构信息、4D时空信息,或者是蛋白质、细胞、基因、脑电、人体的信息);
- 新算法框架:我们需要新的算法来提升当前的大模型效率。当前的大模型稠密激活,计算效率远低于人脑,且商用成本高昂,甚至模型用的越多亏损越多。人脑是效率最高的智能体,它有860亿个神经元,每个神经元有几千个突触,却只有不到3斤重,耗能20瓦。从这个角度来看,人脑的储存量,计算量和能耗效率之高,是目前任何大模型都无法比拟的。我们需要新的算法体系,稀疏激活网络、效果更优的小网络等来提升模型使用效率;
- 自主智能:模型正在成为一个代理(Agent),自主规划任务、开发代码、调动工具、优化路径、实现目标,包括N+1版本的自我迭代、升级和优化;
- 边缘智能:大模型需要很多算力和资源,如何在边缘和设备终端实现高效率、低功耗、低成本、低延时地部署是一大关键问题;
- 具身智能:大模型正在被用到无人车、机器人、无人机和工厂,交通、 通讯、电网、电站和其他物理基础设施;
- 生物智能:大模型正在被用到人体、人脑、医疗机器人和生物体和生命体的连接和控制。
References
- https://mp.weixin.qq.com/s/q8MSr6H2kvEAF_hmdIAi9A
附:新版更新于2025/06/12 智能驾驶是一种数理过程及大模型发展方向趋势
Leave a Reply