关于多模态智能的一点思考和分析

关于多模态智能的一点思考和分析

大家好，本篇文章在当前多模态大模型较为流行的背景下，结合个人的理解，做一点扩展的思考，个人观点，仅供参考，欢迎讨论，提供新的视角和观点，谢谢。

多模态AI的背景和应用

关于多模态智能信息处理和生成，早期在实际中的应用是多模态人机交互。

比如通过语音，手写甚至摄像头的信息作为智能设备的输入，经过智能信息处理技术，结果以图像语音等多模态的形式进行输出。

当前人工智能技术发展迅速，多模态的信息处理和生成能力得到了很大的增强，多模态智能已经是现有大模型基本都支持的能力。

比如现在开放的问答大模型，都有根据多个通道的问答生成回答内容的能力。这里列举两个场景：

– 场景一：图片OCR识别翻译等综合功能，基于图片的内容进行OCR识别，可以识别出文字，表格，符号公式等等，并且可以保持排版，而且能够自动进行语言的翻译；

– 场景二：短视频的自动生成，以及世界模型等等，都是多个通道的融合。

下面就多模态智能从一些概念性总体性的原理性质做一点分析说明：

关于多模态智能的一点思考和分析

人类在多模态智能方面的进化

文明的发展也是历史进程中长时间的生物进化过程中出现的，从单细胞到多细胞，从植物到动物，特别是智人的出现，耳聪目明，心灵手巧，人类首先可能是通过眼睛观察世界，耳朵倾听世界（还有触觉嗅觉味觉感知通道）来不断加深对世界的了解。因此从进化论的视角来看，人类及其祖先首先是在长期的自然演化发展中进化出眼睛器官，具有了感知可见光的视觉能力，人眼的视觉能力较强，真彩色高时间和空间分辨力以及立体空间感知的能力都较为出色，且视觉是人类感知世界的重要的通道，据说人类有70-80%的信息来自视觉通道。随着人类生活的社会化形成，人们从沟通中进化出交流信息的媒介，通过结绳记事，甲骨文等，文字语言逐渐形成并不断走向成熟，竹木简，纸张的发明使得文明更加高效的传播和传承。因此地球上智能的出现，人类发展过程中出现的社会化，后续通过不断的分工，竞争，合作，使得科技，经济等等各方面的文明发展程度得到持续积累和进步。上述只对关键的视觉模态和文字符号模态进行了说明，人类还有好多个其他的模态感知能力，如触觉，嗅觉，味觉等，在地球上的其他生物的多模态感知、处理和生成的计算范式可能框架思想上有共同特性，但也存在着一些甚至很大的差异，比如视觉感知电磁波的频段，处理模态的智能化程度等。也许当前的文明已经有高级的模态而不在本人当前的熟悉认知的区域内（比如量子通信等信息承载的物理模态的原理和应用情况？），也许还存在的其他文明中还有其他的暂不可知的模态，比如可能存在着完全不同形式的符号语言，甚至也有可能存在着其他的物理模态方式还没有被发现。

各个模态通道的特性

各个通道的特性有别，相互之间形成有益补充，视觉通道通过看见内容，通道信息更加具体生动，语言通道虽通过视觉触觉甚至语音通道等呈现，但其元特性在于其符号化的表达各类信息语义，包括文史哲，数理科技等等，都可以通过文字符号语言来表达和描述。人文社科的文字描述思想性社会性的发展和问题，而自然科技等记录科学原理和技术流程等等。如文学的语言在于其表达语义的模糊性多义性，以及丰富想象力和各种语言特有的表述美感，甚至人文领域的书法绘画等艺术也都可以通过特殊的符号语言来个性化的描述; 科学技术的符号语言在于其表述的抽象性逻辑性以及对于自然科技原理的严谨描述，有一种在视觉语音等信息承载媒介之形而上的抽象描述问题事物的优势；不同学科文字的表达能力也不同，总体上说文字语言是对社会发展宇宙形成和演化以文字形式的镜像进行抽象描述，也是人类之间传递信息的重要媒介。

多模态信息相关性及融合

各个模态的信息表示的内容具有相关性，这也是多模态大模型中不同模态信息对齐需要解决的问题，比如文字和图像的语义对齐，文生图，文修图等应用，再比如当前的文字视频生成等最新大模型多模态生成能力，也都体现了不同模态对于信息的表示能力和优缺点，再次具体一点的来做一下说明：文字描述空间图像方面没有具体自然图像方便和具体，自然图像表达信息色彩丰富具体生动但描述抽象的逻辑计算以及丰富多义的语义方面也存在短板。其他模态的信息也有可以类比的优缺点。不同模态的信息也是互鉴和融合的，人类从观察自然世界中得以总结出科学规律，以文字或更多模态的形式加以记录和传承，促进了人类更好更深远的观察理解世界和宇宙。多模态信息的协同融合赋予人类和人工智能等异构庞大节点的众多智能体协同工作和进化，也希望通过这样的科技文明的发展迈向更高级的地球文明；

多模态信息处理和生成的智能体

不仅有多模态的信息表示，还有其处理和生成。因此可以将多模态的信息输入、处理和生成的载体称为智能体。智能的数字(抽象)空间载体是信息，信息可以是传统的各种语言文字（语言为符号描述和抽象的表达，如自然语言，数理公式等），也可以是数字图像、语音、图形等非结构化或结构化媒体形式，信息的编解码方式根据模态信息的特性采用不同的编解码方法后以二进制或其他的存储传输及计算范式进行传播和协同计算。多模态信息的物理（具象）空间载体是纸张，磁盘，电磁波以及人脑的生物记忆功能区等等，而智能体是其物理空间载体和信息空间载体的融合，并融合了不断迭代升级的智能算法，来加工处理以及生成这些多模态的信息。可以说智能体是个很宽泛宏大的范畴，智能本身也是深邃和没有止境的，就如浩瀚无边的宇宙一样。

小结

虽然从现有的人工智能大模型的性能表现来看，虽能做一些不错的工作，但还没有达到熟练专家的水平，大模型的商业应用模式也还在实践摸索中，李飞飞教授也好像说过，从类比来看，机器智能还处于前牛顿时代。虽然这句话是前几年所说，但个人认为智能的发展仍旧还有更多的探索实践空间，也期待人类和机器都能够不断的从智能技术的发展中相互学习借鉴，迭代进步，人类的技术发展可以给机器赋予理性和情感，相互适应和持续协同进化升级，成为彼此的朋友。

注：在原文的基础上做了进一步的扩展说明，原文链接见：https://www.kindlyrobot.cn/2023/12/01/智能的载体是自然语言吗？/

关于多模态智能的一点思考和分析

Comments

Leave a Reply Cancel reply