Month: October 2025
-
关于扩散模型的一点总结和思考
人们很多时候都是从其他的学科的知识理论中得以启发,以在各自的领域进行融合创新,这篇短文将扩散模型算法的相关背景做一下介绍,疏漏和不正确的地方欢迎大家批评指正。 首先扩散模型算法从统计物理中的布朗运动和热力学熵中借鉴了相关的思想,在布朗运动过程中,系统中所有粒子的坐标和动量组成的6N维空间被称为相空间 (Phase Space)。相空间中的一个高维点唯一地代表了系统的一个微观状态(微观状态也称Microstate,即某一瞬间所有粒子的精确位置和动量,或者称为一个系统的瞬时状态快照)。系统的熵是对“我们不确定系统究竟处于哪一个具体微观状态”的度量。这个不确定性的大小,由所有可能微观状态的数量以及它们各自出现的概率共同决定。这样的定义和信息论中的对事件的不确定性度量的信息熵有很大的相似之处,或者说信息熵是在热力学熵的基础上对发生事件的不确定性在数学领域的推广。从布朗分子热运动的扩散过程情况来看,一开始不同局部的温度和系统宏观状态不同,但随着分子热运动的扩散过程发生,系统最终趋向于逐渐达到热平衡,最后系统各个部分都在做无序随机的热运动。 扩散模型DDPM在图像生成领域的应用,也可以和分子的布朗运动进行类比,DDPM中,一副图像组成的像素空间和颜色空间组成的张量H*W*C可以类比为分子布朗运动中相空间的一个高维点,因此一张图片就是相空间中的一个点状态(Microstate,或者说是系统在某个瞬时时间的快照),给图像添加噪声的过程好比分子的热运动的扩散过程,从加噪前的微状态到加噪后的微状态的转化逐渐走向了一个更加无须和混乱的结构,最后系统趋于完全随机的白噪声,和布朗运动的热平衡状态相对应。 而图像生成过程是上述扩散过程的逆过程,最终学习到的是特定数据集的数据流形的分布规律,从无序走向有序,也是系统处于熵减的过程,主要是通过神经网络能过学习到当前的噪声,并通过迭代逐渐消除噪声逐渐走向更有序的状态的过程,而这个过程需要有智能的干预或者属于智能系统的演化过程。 熵的概念有可能会在多个领域和方向得以关联甚至有较大的可能结合进行创新,比如说生命的过程,比如说其他系统甚至人文社会科学所研究对象的演化过程,也可能可以从系统的熵状态加以综合分析,但也要理解生命的过程和其他系统的演化过程均不是一个封闭的系统,如何考虑在开放环境下的熵减过程,达到更加有序的状态和结构,本身也是一个需要开放和需要不断总结和思考的问题,希望后续在这方面能有更多的一些思考和总结,也欢迎和期待读者朋友们对这个议题提供更多更精彩的观点和论断。