学问思辨行: 记录生活学习和工作中的实践和思考,以期实现终身成长.
-
关于多模态智能的一点思考和分析
关于多模态智能的一点思考和分析 大家好,本篇文章在当前多模态大模型较为流行的背景下,结合个人的理解,做一点扩展的思考,个人观点,仅供参考,欢迎讨论,提供新的视角和观点,谢谢。 多模态AI的背景和应用 关于多模态智能信息处理和生成,早期在实际中的应用是多模态人机交互。 比如通过语音,手写甚至摄像头的信息作为智能设备的输入,经过智能信息处理技术,结果以图像语音等多模态的形式进行输出。 当前人工智能技术发展迅速,多模态的信息处理和生成能力得到了很大的增强,多模态智能已经是现有大模型基本都支持的能力。 比如现在开放的问答大模型,都有根据多个通道的问答生成回答内容的能力。这里列举两个场景: – 场景一:图片OCR识别翻译等综合功能,基于图片的内容进行OCR识别,可以识别出文字,表格,符号公式等等,并且可以保持排版,而且能够自动进行语言的翻译; – 场景二:短视频的自动生成,以及世界模型等等,都是多个通道的融合。 下面就多模态智能从一些概念性总体性的原理性质做一点分析说明: 关于多模态智能的一点思考和分析 人类在多模态智能方面的进化 文明的发展也是历史进程中长时间的生物进化过程中出现的,从单细胞到多细胞,从植物到动物,特别是智人的出现,耳聪目明,心灵手巧,人类首先可能是通过眼睛观察世界,耳朵倾听世界(还有触觉嗅觉味觉感知通道)来不断加深对世界的了解。因此从进化论的视角来看,人类及其祖先首先是在长期的自然演化发展中进化出眼睛器官,具有了感知可见光的视觉能力,人眼的视觉能力较强,真彩色高时间和空间分辨力以及立体空间感知的能力都较为出色,且视觉是人类感知世界的重要的通道,据说人类有70-80%的信息来自视觉通道。随着人类生活的社会化形成,人们从沟通中进化出交流信息的媒介,通过结绳记事,甲骨文等,文字语言逐渐形成并不断走向成熟,竹木简,纸张的发明使得文明更加高效的传播和传承。因此地球上智能的出现,人类发展过程中出现的社会化,后续通过不断的分工,竞争,合作,使得科技,经济等等各方面的文明发展程度得到持续积累和进步。上述只对关键的视觉模态和文字符号模态进行了说明,人类还有好多个其他的模态感知能力,如触觉,嗅觉,味觉等,在地球上的其他生物的多模态感知、处理和生成的计算范式可能框架思想上有共同特性,但也存在着一些甚至很大的差异,比如视觉感知电磁波的频段,处理模态的智能化程度等。也许当前的文明已经有高级的模态而不在本人当前的熟悉认知的区域内(比如量子通信等信息承载的物理模态的原理和应用情况?),也许还存在的其他文明中还有其他的暂不可知的模态,比如可能存在着完全不同形式的符号语言,甚至也有可能存在着其他的物理模态方式还没有被发现。 各个模态通道的特性 各个通道的特性有别,相互之间形成有益补充,视觉通道通过看见内容,通道信息更加具体生动,语言通道虽通过视觉触觉甚至语音通道等呈现,但其元特性在于其符号化的表达各类信息语义,包括文史哲,数理科技等等,都可以通过文字符号语言来表达和描述。人文社科的文字描述思想性社会性的发展和问题,而自然科技等记录科学原理和技术流程等等。如文学的语言在于其表达语义的模糊性多义性,以及丰富想象力和各种语言特有的表述美感,甚至人文领域的书法绘画等艺术也都可以通过特殊的符号语言来个性化的描述; 科学技术的符号语言在于其表述的抽象性逻辑性以及对于自然科技原理的严谨描述,有一种在视觉语音等信息承载媒介之形而上的抽象描述问题事物的优势;不同学科文字的表达能力也不同,总体上说文字语言是对社会发展宇宙形成和演化以文字形式的镜像进行抽象描述,也是人类之间传递信息的重要媒介。 多模态信息相关性及融合 各个模态的信息表示的内容具有相关性,这也是多模态大模型中不同模态信息对齐需要解决的问题,比如文字和图像的语义对齐,文生图,文修图等应用,再比如当前的文字视频生成等最新大模型多模态生成能力,也都体现了不同模态对于信息的表示能力和优缺点,再次具体一点的来做一下说明:文字描述空间图像方面没有具体自然图像方便和具体,自然图像表达信息色彩丰富具体生动但描述抽象的逻辑计算以及丰富多义的语义方面也存在短板。其他模态的信息也有可以类比的优缺点。不同模态的信息也是互鉴和融合的,人类从观察自然世界中得以总结出科学规律,以文字或更多模态的形式加以记录和传承,促进了人类更好更深远的观察理解世界和宇宙。多模态信息的协同融合赋予人类和人工智能等异构庞大节点的众多智能体协同工作和进化,也希望通过这样的科技文明的发展迈向更高级的地球文明; 多模态信息处理和生成的智能体 不仅有多模态的信息表示,还有其处理和生成。因此可以将多模态的信息输入、处理和生成的载体称为智能体。智能的数字(抽象)空间载体是信息,信息可以是传统的各种语言文字(语言为符号描述和抽象的表达,如自然语言,数理公式等),也可以是数字图像、语音、图形等非结构化或结构化媒体形式,信息的编解码方式根据模态信息的特性采用不同的编解码方法后以二进制或其他的存储传输及计算范式进行传播和协同计算。多模态信息的物理(具象)空间载体是纸张,磁盘,电磁波以及人脑的生物记忆功能区等等,而智能体是其物理空间载体和信息空间载体的融合,并融合了不断迭代升级的智能算法,来加工处理以及生成这些多模态的信息。可以说智能体是个很宽泛宏大的范畴,智能本身也是深邃和没有止境的,就如浩瀚无边的宇宙一样。 小结 虽然从现有的人工智能大模型的性能表现来看,虽能做一些不错的工作,但还没有达到熟练专家的水平,大模型的商业应用模式也还在实践摸索中,李飞飞教授也好像说过,从类比来看,机器智能还处于前牛顿时代。虽然这句话是前几年所说,但个人认为智能的发展仍旧还有更多的探索实践空间,也期待人类和机器都能够不断的从智能技术的发展中相互学习借鉴,迭代进步,人类的技术发展可以给机器赋予理性和情感,相互适应和持续协同进化升级,成为彼此的朋友。 注:在原文的基础上做了进一步的扩展说明,原文链接见:https://www.kindlyrobot.cn/2023/12/01/智能的载体是自然语言吗?/
-
如何看待负面消息?
生活在当今快速发展的社会中,个人都有说话表达意见和观点的自由,而这些意见和观点也是每个人受成长经历过程所影响的认知外显。因此,如何看待这些不同的观点,也是需要有更加理性的视角加以较为全面的综合分析。以下内容为个人观点,仅供参考和讨论。 每个人的思维模式也各有特色,有的人的思维方式较为固化,长期的思维定式形成了看问题的固定视角,而批判式成长性思维则认为人们是可以不断通过思维训练,体育锻炼,专业技能持续积累等实现更加系统性的思维和能力,从而不断超越自己的能力状态边界。关于这方面的论述,也有相关的书籍,比如终身成长,思辨与立场(critical thinking),以及积极心理学等,之前看过相关的书籍和论述,也较为认同里面较好的观念和看法,纸上得来终觉浅,也还在不断地在实践摸索中总结更好经验,推荐感兴趣的读者去阅读。 发现现实状态中有一种现象,都喜欢听好听的,不喜欢听负面的,我想这也可能是人性的一个较为通用的弱点,而有的时候,也要去进行反面的思考,以一种包容宽容的心态看待负面消息和抵触情绪,也许别人还在情绪和认知的进步发展的过程中,也许这也说明做事的方式和技巧可能存在着问题需要去改进。 对待负面消息的另一种重要的能力也是更好的情绪管理的能力,坚持内心的秩序,做自己认为对的事情,尽可能的主动关心照顾身边的人,但也不能一味的让步纵容。 当然人与人之间的交往也是双方面和多方面的,改进和适应有时候也是双方和多方的同时妥协,有情操的妥协也是包容心,人世间柔软之心的体现。愿世界少一些想当然的主观观点强行的加持,多一些人们友善的沟通,愿世界和平繁荣。
-
机器学习课程文字版更新
大家好,最近本人正在整理机器学习文字版本的相关课程,力求内容完整,逻辑顺畅,降低相关内容的学习曲线,对初学者爱好者友好。内容在公众号(欢迎扫描如下二维码关注)里更新,欢迎大家关注,并期待大家的意见建议,以期向大家呈现更好的内容,谢谢。
-
关于扩散模型的一点总结和思考
人们很多时候都是从其他的学科的知识理论中得以启发,以在各自的领域进行融合创新,这篇短文将扩散模型算法的相关背景做一下介绍,疏漏和不正确的地方欢迎大家批评指正。 首先扩散模型算法从统计物理中的布朗运动和热力学熵中借鉴了相关的思想,在布朗运动过程中,系统中所有粒子的坐标和动量组成的6N维空间被称为相空间 (Phase Space)。相空间中的一个高维点唯一地代表了系统的一个微观状态(微观状态也称Microstate,即某一瞬间所有粒子的精确位置和动量,或者称为一个系统的瞬时状态快照)。系统的熵是对“我们不确定系统究竟处于哪一个具体微观状态”的度量。这个不确定性的大小,由所有可能微观状态的数量以及它们各自出现的概率共同决定。这样的定义和信息论中的对事件的不确定性度量的信息熵有很大的相似之处,或者说信息熵是在热力学熵的基础上对发生事件的不确定性在数学领域的推广。从布朗分子热运动的扩散过程情况来看,一开始不同局部的温度和系统宏观状态不同,但随着分子热运动的扩散过程发生,系统最终趋向于逐渐达到热平衡,最后系统各个部分都在做无序随机的热运动。 扩散模型DDPM在图像生成领域的应用,也可以和分子的布朗运动进行类比,DDPM中,一副图像组成的像素空间和颜色空间组成的张量H*W*C可以类比为分子布朗运动中相空间的一个高维点,因此一张图片就是相空间中的一个点状态(Microstate,或者说是系统在某个瞬时时间的快照),给图像添加噪声的过程好比分子的热运动的扩散过程,从加噪前的微状态到加噪后的微状态的转化逐渐走向了一个更加无须和混乱的结构,最后系统趋于完全随机的白噪声,和布朗运动的热平衡状态相对应。 而图像生成过程是上述扩散过程的逆过程,最终学习到的是特定数据集的数据流形的分布规律,从无序走向有序,也是系统处于熵减的过程,主要是通过神经网络能过学习到当前的噪声,并通过迭代逐渐消除噪声逐渐走向更有序的状态的过程,而这个过程需要有智能的干预或者属于智能系统的演化过程。 熵的概念有可能会在多个领域和方向得以关联甚至有较大的可能结合进行创新,比如说生命的过程,比如说其他系统甚至人文社会科学所研究对象的演化过程,也可能可以从系统的熵状态加以综合分析,但也要理解生命的过程和其他系统的演化过程均不是一个封闭的系统,如何考虑在开放环境下的熵减过程,达到更加有序的状态和结构,本身也是一个需要开放和需要不断总结和思考的问题,希望后续在这方面能有更多的一些思考和总结,也欢迎和期待读者朋友们对这个议题提供更多更精彩的观点和论断。
-
大语言模型基础及应用介绍
大家好,最近对大语言模型基础及应用做了一个系列相关主题的介绍,主要介绍了transformer架构,包括编码器架构及应用(BERT),解码器架构及应用(GPT),以及编码器解码器架构(seq2seq任务)等,同时对较新的大语言模型的架构(MoE)和算法(RLHF, GRPO)等做了介绍,希望能对相关同学们和从业人员有点帮助,谢谢。 References
-
扩散模型基础和应用新版本分享
大家好,最近准备了扩散模型系列知识分享,对扩散基础算法原理和及其在图像生成领域的诸多应用场景做了较为详细的介绍,希望能对相关的读者朋友们在相关方面提供一点有用的资源和信息,期待大家的反馈意见,谢谢。 References
-
强化学习系列算法新版本分享
大家好,最近准备了强化学习原理与实践的系列知识分享,对强化学习的基础算法原理和实践做了较为详细的介绍,希望能对相关的读者朋友们在相关方面提供一点有用的资源和信息,期待大家的反馈意见,以便向大家提供更好的知识内容输出,谢谢。 references
-
机器学习系列算法新版本分享计划
大家好,最近正在准备机器学习原理与实践系列课程,欢迎感兴趣或有意从事相关工作的朋友们一起将机器学习相关算法原理探索和代码实现进行更加具体详细的分析和理解,也希望在知识求学和实践的过程中给大家提供一点帮助,期待大家的反馈意见,以便向大家提供更好的知识内容材料,谢谢。 References
-
Latex文本输入编辑工具分享
最近有用到要较为频繁输入数学公式的地方,通过键盘输入Latex的不便性表现在Latex语法繁冗查阅记忆编排都比较需要精力。 这里向大家提供一个通过手写公式识别快速输入Latex公式的工具:Mathpix。该工具可以通过在工具窗口面板上手写(或鼠标输入)公式,然后通过扫描OCR识别的形式进行识别输出准确率较高的Latex文本公式,并进行数学公式的渲染。通过渲染来核实公式是否正确,不对的局部也可以通过更新对应的Latex文本进行校正。 该工具提供有限额度的free试用,1个月的付费服务价格也较为便宜(好像支持的公式识别的数量也挺高一般足够使用),建议大家短期频繁使用的可以按月购买相关的服务。该工具在个人使用过程中有不错的体验,友情帮忙做下推广,也欢迎读者提供更多更好用的相关工具推荐。 References
本博客主要包含一些工程技术方面的短文和日常生活的随想。感谢所有师长领导朋友和老同学们的关心支持,特别感谢上海交通大学、上海建设管理职业技术学院、上海闵行职业技术学院、中科院软件所、北京师范大学及中小学的老师同学们和上汽集团等工作过公司的领导同事们给与的关爱和支持,以及家人们的期望和默默付出,希望有些文章能对大家有所启发。由于作者水平有限,撰写较为仓促,文章中难免存在一些缺点和错误,殷切希望来自世界各地的读者批评指正。期待能够和大家一起学习,迎接挑战,共同进步。