学问思辨行: 记录生活学习和工作中的实践和思考,以期实现终身成长.
-
基于CNN和LSTM的OCR文本识别/语音识别基本原理简介-CNN模型系列1
在深度学习流行以前,智能化的算法主要依赖传统的统计机器学习算法,这个时候特征工程(feature engineering)就显得特别重要,如何构造好的有区分度的特征成为了机器学习算法性能的关键因素之一。比如早期的基于Haar特征和Adaboost的人脸检测算法,基于HOG特征的人体检测等,都是利用了图像中区域的像素特性构造的人工特征提取算法。特征工程需要相关领域专家去人为设计和构造,针对不同的任务场景很可能要设计不同的特征提取算法,设计及验证过程周期长效率低下门槛比较高。深度学习逐渐流行后,基于CNN的深度网络自动化特征提取方法和深度学习目标任务(网络结构中的head输出)实现了端到端的训练,从而使得算法的设计和实现更加的高效,而且由于深度学习的网络表达能力强大的特性,几乎所有的视觉任务上的性能都超越了传统的基于人为设计的特征工程的传统机器学习算法。 今天向大家介绍的基于深度学习的OCR文本识别也和上面的情况相似,早期的OCR文本识别也是基于手写体或印刷体的文字特征进行人为设计的特征提取算法,整个识别过程流程复杂,不同的阶段需要设计不同的算法去解决相关问题,而基于CNN和LSTM的文本识别算法则在基于大样本的基础上实现了端到端的训练,而且在精度上也达到了更高的水平,也是当前文本识别的关键算法。在该算法过程中,一般是将文本先进行行提取(如基于目标检测的文本行检测算法实现行提取),在提取的文本行的基础上,将文本行对应的图像作为文本识别网路的输入。首先CNN对图像的特征进行提取和建模,然后将特征输入到LSTM网络,LSTM网络对基于文本行的特征进行空间序列建模(可以理解为将长条的文本行切分成一段一段的顺序拼接一起的特征,LSTM基于这个序列顺序进行建模,可以对文本行的当前位置和其前后的位置的关系进行序列建模,关于LSTM的计算实现细节可以参考引文3)。 在实际的数据集中,由于文字的特性不同(有的汉字或字母比较宽,而有的比较窄,甚至汉字或字母之间间隔的宽度在不同的数据集的样本中也不一样,还有空格的个数也不尽相同,以及空格开始或空格的位置也不尽相同。一条文本行的ground truth只有对应的汉字或字母的文本句子,并没有标记每个汉字或字母对应在图像上的位置(否则标记成本太高),因此这里有一个特别的Loss能够简化这种自动对齐的计算,这个Loss称为CTCLoss,其在语音样本和groundtruth以及文本行图像和groundtruth的自动对齐上展示了简易灵活且强大的自动对齐的作用。 CTCLoss计算每一个时刻t下经过s的所有可能的路径的后验概率(首先根据引文7中的Composing the graph部分的规则计算y(s,t), 然后基于y(s,t)采用动态规划的算法分别计算alpha(s,t),beta(s,t)等),最后的loss是所有时刻的的概率和(用log去计算),关于CTCLoss的详细算法原理的介绍可以参考引文7。 基于CNN和LSTM的语音识别的算法原理和上述的OCR文本识别的原理类似,语音样本有长短不同,有停顿时间不同等需要输入和标记(输出)进行动态对齐的功能,CTCLoss同样可以在此处得以较好应用。 References
-
图的宽度优先遍历又一示例-最小基因变化
今天向大家介绍另一个图的宽度优先遍历示例-最小基因变化,具体题目的内容请见引文1。这里描述一下问题的分析思路,并给出一个实现仅供参考,期待能看到更多更优秀的代码实现,从中学习以不断进步。 首先我们可以将每一个基因建模为一个图节点,如果两个节点之间只有一个基因变化,则可以认为两个节点相邻,距离为1。距离大于1的两个节点可以不考虑其距离特性(默认为-1,表示为不直接相连)。关于图的表示问题,这里可以用矩阵进行表示,而且由于对称性,我们可以只利用上矩阵来进行图的搜索。 关于起始节点,如果在gene bank里边,则以起始节点开始进行图的宽度优先搜索,如果不再gene bank里边,则需要从gene bank里边去寻找与该节点的距离为1的所有节点作为候选起始节点,然后对所有可能的起始节点,依次调用图的宽度优先遍历搜索找到最短路径。因为每次都只改变一个基因,而且从起始节点到目标节点的距离已经定下来了(按顺序计算不同字母的个数),因此如果找到,我们可以从目标节点逆序看过来,就知道这个最小路径数就是距离(当然要通过搜索才能找到这样的路径),比如起始点和终点的距离为2,有可能搜索的时候,第一个后继节点和第二个后继节点与起始节点的距离都为1,但是第一个后继节点可能与重点的距离为3(又加了一个不同的基因),因此在最短路径搜索的时候会选择基于第二个后继节点。基于此我们可以得出结论,要么没有路径(返回-1),要么就等于起始节点和目标节点的不同基因数(也可能有多个路径,只要有一个路径找到即可返回,基于这点可以对搜索进行优化)。 具体实现代码可以参看引文2,欢迎读者提出优化建议,由于撰写匆忙加以思考过程可能不够全面深入,以及针对上述的问题分析中有任何问题也欢迎提出意见建议。 References
-
图相关算法实例题分析-蛇梯棋
图(graph)相关的数据结构在解决实际问题时也会常用到,这里向读者介绍几个相关应用题目并给出解决思路分析和代码实现,欢迎读者朋友们针对相关问题提出意见和建议,用更好的思路和更加高效的方法去解决。 问题1:参考引文1的描述(这里就不再花文字描述问题本身),理解题目确实要花点时间,这里用图示辅以简单的文字重复描述一下,如下图所示,方格编号从左下角开始连续交错方向按数字递增进行编码,下图的示例对应着如下的输入数据:输入:board = [[-1,-1,-1,-1,-1,-1],[-1,-1,-1,-1,-1,-1],[-1,-1,-1,-1,-1,-1],[-1,35,-1,-1,13,-1],[-1,-1,-1,-1,-1,-1],[-1,15,-1,-1,-1,-1]]。可以看出从最后一行开始,第二个格子的数字为15,意思是从2到15(第四行第三列)安排了一个梯子或蛇,可以直接传送不算挪动的步骤,这样到达目标所在地分别是从1->2,15->17,13->14,35->36,四步即可到达。 首先,我们来分析一下题目的含义和根据场景用合适的数据结构建模相关问题,首先根据board去解析数据,构造合理的数据结构和算法解决问题。我们可以看到目标方格 next的编号符合范围是[curr + 1, min(curr + 6, n2)],可以理解为从curr(当前方格的位置索引)到这些范围内的任何一个值都存在着一条边(等值边,边长为1,没有长短优先级),比如1到2-7这些格子都可以直接到达,因此我们可以将这个问题构建为一颗动态的搜索图。从根节点位置1开始,如存在着节点有梯子和蛇,则同时添加一条curr到梯子或蛇的终点位置编号的边(不需要满足next节点的1-6step的约束,而且这里特别注意一下,规则中说明梯子或蛇不能连续跳,如不能梯子跳过一些格子再连续梯子跳过一些格子),按照上述逻辑该问题为一颗有向图(如13到17存在着边,17到13也存在着边,13到17存在边时board[13]=17,17到13存在边时,即可以从位置17直接跳到13位置时board[17]=13)。 因此上述的问题就转化为了用基于图的深度优先遍历或宽度优先遍历去查找最短路径问题,搜索最短路径用宽度搜索更加合适,因为宽度搜索的过程中第一个达到目标位置的即为路径长度,而深度优先遍历算法需要遍历整个图(也存在着一些剪枝优化的行为)才能找到最短路径问题。 参考引文2提供了两个代码实现,其中第一个提供了深度优先遍历算法的实现,而且可以将搜索可能的路径都列出来,其实现主要采用了回溯递归的方法,特别需要注意的是递归过程中由于子递归返回后状态恢复的问题,由于基于深度优先遍历性能不够够,在某些测试题目上达不到时间要求,因此这道题的更为合理的方法是宽度优先遍历,采用队列结构来实现,将同一宽度的节点先后依次入队列,然后依次pop并将下一个层级的依次入栈,保证每一个访问的节点都是访问的深度最浅的某一个节点。(Solution类为基于深度优先遍历的实现,Solution2为参考的宽度优先遍历的代码,其中深度优先遍历方法做了一定的扩充,可以支持将所有可能的路径都输出出来保存到文件中)。欢迎读者对代码实现提出问题意见和建议,以便更好的去进步。 References
-
Linux常用CLI命令使用方法介绍
linux作为服务器的常用的系统,其稳定性已经得到较为普遍的认可,在我们开发和系统运维的过程中,经常会用到相关的CLI命令程序(Command Line Interface,因为用linux系统作为服务器,如ubuntu系统,经常会裁剪掉其图形用户窗口的功能,工程师一般都使用过CLI去和系统进行交互)。 第一个向大家介绍的命令为“netstat -tulnp”,netstat是一个网络工具,用以显示当前网络相关的软件和系统网络相关硬件的信息,参数tulnp是个累积的量,t表示显示当前系统所有的tcp sockets(tcp连接),u表示udp连接,n表示显示数字形式的地址和端口,l表示当前监听的端口(一般服务程序启动后会在特定端口监听远程客户端前来访问的连接请求)p代表网络相关的进程。如安装(可以通过sudo apt install mysql-server命令进行安装)并启动(可以通过sudo systemctl start mysql命令进行启动)了mysql服务器后执行命令后会显示mysql进程相关的信息。有时提示需要系统用户才能显示相关信息时,可以在命令前面加上sudo。执行后如下: 如果只想看mysql服务相关的信息,只需执行sudo netstat -tulnp | grep mysql命令,在linux命令中 ‘|’ 可以理解为pipeline模式,前面的命令作为后面命令的输入。而grep在linux中是一个强大的文本搜索匹配工具,可以将满足条件的文本行输出到终端屏幕上。 第二个向大家介绍的命令示例在前面的基础上综合命令awk(过滤提取,和print结合着用,后面$符号后面跟着个数字表示第几列信息),grep以及xargs(将过滤提取的数据作为参数传递给命令行)的使用。比如在你的机器上,docker的本地镜像有点多,或者你想批处理一次性删除满足某些条件的镜像,可以用如下的命令示例来参考: 以上命令的含义为找到含有keyword相关字眼的docker镜像,并且过滤出第三个参数(即为docker镜像的ID),然后将满足这些条件的docker镜像一次批处理进行删除。 这篇文档后面将持续更新,将常用的命令行汇总一下,以备后需查阅。
-
前缀树应用相关题目思路分析
今天向大家介绍一种特殊的属性结构的应用,主要是介绍几个相关的题目的分析思路及相关实现。 题目1的描述见参考引文1,为了实现方便起见,Trie树中的单词都是小写英文中的26个字母。参考引文1的网页右边同时提供了一种基于递归的实现,同时求字符字串使用的是std::string类的substr函数(需要注意一下这个函数的参数的含义,第一个参数表示字串起始位置,第二个参数表示字串长度,而不是字串终止位置)。但是这个问题的推荐解法请参考引文2,相对第一种实现有两个地方的明显改进,第一个地方在于通过“for (char ch : word)”访问字符串的每一个单词,而且通过for方式避免了递归调用函数,节省了系统的执行资源。 题目2的要求是添加和搜索单词,具体描述参考引文3,这道题目在上述的基础上做了一定的扩展,支持通配符,需要注意一些边界条件,稍不注意就容易在某些情况出现bug。同时为了应对通配符的情况,代码中某些地方用到了递归调用。总体上也是一种扩展的前缀树应用,具体实现可以参考引文3网页的右边的代码。 题目3的详细描述请见参考引文4,这道题目的要求是已经有词汇表,根据矩形单词盘板的字母排列规则去核实词汇表中的哪些单词可以从矩形单词盘板中排列(字母之间只能和上下左右相连)得出。这里给出我的思路(欢迎读者给出更加高效的解决方案),首先通过按照题目1或2的方法根据词汇表去构建前缀树(一种特殊构造的词汇表),然后根据从矩形框中的每一个位置进行上下左右四个方向的搜索(需要考虑矩形的边界情况进行剪枝),可以理解为对一颗四叉树进行深度优先搜索,参考引文6提供了一个实现,这里也是一种回溯算法,在代码实现的过程中需要考虑回溯状态的复位。 引文5提供了上述三个问题的各一种解决方法,在前面的部分代码没有充分的从效率上进行优化,不过也可以从三个题目中去互相借鉴更优的写法。 References
-
LRU缓存设计实现思路说明
LRU缓存机制在操作系统和其他缓存系统中常会用到,这里的题目要求是:1、以整数key,value键值对的形式进行存取;2、以一定的容量进行初始化;3、实现get和put操作,如果get传入的key有对应的value值则返回value,否则返回-1,put如果已经有key对应的cache,则更新value值,如果put时容量超限,则逐出最久未使用的关键字。并要求这些实现在O(1)的复杂度里完成。有名的缓存系统redis就是基于LRU的缓存机制实现的。 这道题如果读者没有较为系统的学习和刷题数据结构和算法,也许想不到用哈希表和双向链表相结合去实现,这道题目是数据结构的一道综合题在实际场景下的应用,主要考察两个点,1、哈希函数的即时O(1)时间复杂度寻址能力及其实现(哈希函数功能可以直接用unordered_map数据结构来实现);2、双向链表的实现,双向链表支持从中间任何位置挪出节点并放置到表头,双向链表的表头和表尾的节点都可以作为哨兵节点(用变量存储head和tail),这样双向链表就方便实现O(1)时间内移动节点。这里补充下hash函数和双向链表的的相关知识细节供大家参考,欢迎读者关于这些内容提出问题和意见建议。 首先哈希函数可以将整数或字符串进行映射为特定范围内的整数值(取模运算,字符串作为输入的哈希函数有多种,如简单的将每个字符的ascii相加等),这样就可能存在着不同的输入值映射为相同结果的可能(如15%10和25%10都等于5)。这样不同的输入映射到同一个结果就需要解决冲突问题(hash collision),解决hash冲突的方法有链式地址法(chaining)和开放寻址法(open addressing)。链式地址法的思想是相同结果的输入(key)所对应的value(基础树类型外也支持任何可扩展的灵活自定义的类型)值存放到该hash函数结果对应的链表中(hash函数的结果值表示的含义是以链表的节点指针类型申请的数组对应的位置的下标索引,hash值所对应的数组位置存放链表的表头)。开放寻址法的思想是通过探查(probe)去按一定的规则继续寻找可能的空闲位置,常见的探查方法有一次探查(linear probing,即索引逐渐加1直至找到),二次探查(quadratic probing,逐渐加2的次方直至找到空闲位置)以及双重哈希(两个哈希函数,第一个用来计算初始映射位置,如出现冲突,则第二函数用来计算索引的搜索步长)。在标准模板库中提供了hash函数std:hash。unordered_map提供了灵活的使用哈希函数的方式,既可以用标准提供的,也可以用自定义的。 双向链表的实现也在这里做一下简要说明,双向链表的每一个节点都会保存两个临近节点的指针,即前驱节点和后继节点(头节点的前驱节点为空,尾节点的后续节点为空,如果是双向循环链表,则首尾相连,头节点的前驱节点为尾节点,尾节点的后继节点为头节点)。在本题中,双向链表的表尾节点为记录最久未访问的key(可以理解为双向链表从表头到表尾按时间先后顺序记录着这些key的访问记录),如果缓存已满,则需要将表尾节点更新为表头节点(key和value值用最近访问的值去更新),表尾的前置节点更新为表尾节点。这里为了直接能访问表尾节点,需要在程序中将表尾节点也作为哨兵节点。如果get的key为中间某个节点,则可以通过hash函数首先找到该节点,并将该节点挪动到表头更新为表头节点,同时也说明当前的key是最近访问的。实现了LRU的按时间排序访问节点的功能,并且由于hash函数的O(1)复杂度特性,也保证了LRU的O(1)访问效率要求。 References
-
算法实例思路分析-矩阵中严格递增的单元格数
动态规划的题目需求各异,想法也差别比较大,有时候找出状态转移方程并不是那么容易的事情,需要具体问题具体分析。今天这篇文章将要下大家介绍一种新的基于动态规划解决的题目,并辅以自己的分析思路的阐述过程,欢迎读者基于此提出问题意见和建议。 题目的内容如下:给你一个下标从 1 开始、大小为 m x n 的整数矩阵 mat,你可以选择任一单元格作为 起始单元格 。从起始单元格出发,你可以移动到 同一行或同一列 中的任何其他单元格,但前提是目标单元格的值 严格大于 当前单元格的值。你可以多次重复这一过程,从一个单元格移动到另一个单元格,直到无法再进行任何移动。请你找出从某个单元开始访问矩阵所能访问的 单元格的最大数量 。返回一个表示可访问单元格最大数量的整数。 下面简要阐述一下我的思路分析以及一个不错的参考答案: 可能的思路1:我们先只针对问题本身,而不是提示解决的具体方法去尝试分析问题,我们可以针对矩阵的每个位置(i,j)去找到它的该行和列的可能路径(row[i][j],为矩阵当前行中比当前单元格mat[i][j]值要大的元素的集合,同理可以找出col[i][j]),矩阵中每个元素找出之后,就可以通过树搜索的方式,找出mat[i][j]所有可能路径中最大的(搜索树中从根节点到叶子节点的最大路径数字,经过简单验证可以得出当前位置在同一行和同一列的candidate中,必然要经过同行或者同列中比它大的最小的值,因为其他大的值可以通过这个值去抵达,因此同行和同列中的大的元素可以增序进行排列,而且可以以一颗二叉树来进行构建搜索树,按行行走为左子树,按列行走为右子树)。但是问题是要针对每个元素去找这样的最大路径,所需要的时间复杂度肯定就比较高。当然也可以不用每个元素都要调用这样的搜索树,可以基于已经搜索出来的和相邻节点的大小关系算出附近节点所能访问的单元格的最大数量。还有基于当前节点去遍历的这颗最大路径和上的路径上的每一个节点的最大值也是确定的(不仅如此,每一个路径节点的值都是最大值)。这样也可以基于此去优化搜索过程。 可能的思路2(参考答案):基于思路1,可以进行进一步的优化,基于整个矩阵可以建立一颗有向无环图(不一定是树),同一行(列)中按节点顺序构造有向边(如果存在同一行或列有相同值的时候,可以加入一个dummy节点),然后基于有向无环图(不一定联通,可能有多个分量组成)去找到最长的路径,具体可以用动态规划的算法,后面有时间再介绍详细动态规划实现上的细节。 可能的思路3:基于初始值的多次迭代更新后收敛,比如每个元素位置的初始值可以设为其行和列中比它大的数字的个数的最大值。然后更新的规则是当前行和列中比它大的值的位置对应值里边的最大值加1,不断这个过程直至每个位置对应的结果值不再发生变化。 以上主要从解决思路上分别做了阐述,欢迎读者点评,如有逻辑问题欢迎读者批评指正,或者分享新的解题思路,谢谢。 References
-
树结构相关算法实例系列3-二叉树中的最大路径和
今天向大家介绍一道二叉树的题目,题目问题比较新颖,我自己在做题的过程中也碰到了些问题,花了些时间才通过测试题的。在这里向大家介绍一下思路。 题目如下:二叉树中的 路径 被定义为一条节点序列,序列中每对相邻节点之间都存在一条边。同一个节点在一条路径序列中 至多出现一次 。该路径 至少包含一个 节点,且不一定经过根节点。具体题目描述可以参考引文1。 这道题目的具有最大路径和的路径的特点为:1、是任意的二叉树,二叉树的节点的值没有规律;2、最大的路径除了根节点允许同时拥有左右子孩子外,其它节点只允许只有一个孩子(左孩子或右孩子,因为每对相邻节点之间都存在一条边,如果非根节点同时有左孩子和右孩子,则不满足相邻节点之间有边的情况)。3,最大路径有可能只有一个节点,也有可能这条路径的节点都属于树的非叶子节点。 总体思路采用类似于树的后序遍历算法,算法逻辑可以描述大体如下:1、如果为叶子节点,直接返回该节点的值;2、如果该节点只有左孩子,则递归调用左孩子返回最大的路径和max_left,这个路径和放入最大路径和的candidates里边,同时该节点值本身也放入candidates里边(是否冗余可能需要再确认一下),如果max_left大于0,则返回max_left + root->val;否则返回root->val。类似的情况是节点只有右孩子,不做过多阐述;3、节点同时具有左孩子和右孩子,则分别递归调用左孩子和右孩子的最大路径和函数返回值max_left,max_right。并将max_left,max_right中的大者max_left_right放入candidates,同时将max_left + root->val+max_right作为candidates,以及如果max_left_right大于0,则返回max_left_right+root->val的值作为root的调用函数以root节点作为参数的返回值。否则如果max_left_right小于0,则直接返回root->val的值作为以root的参数的调用函数的返回值。具体代码请参考引文2的实现 References
-
用manim库开发算法动画演示程序
数据结构和算法大都涉及程序的高效执行,算法过程通过良好的算法流程的设计,使得具有较好的时间和空间复杂度。但是这些流程通过文本的代码来表达理解起来比较抽象,如果能够通过动态的可视化过程来演示算法的执行的步骤,对于学习算法的同学,特别是初学者,将会能够对算法的思想的理解更加的具象,对于算法思想的理解的也会更加深入彻底。今天将向大家介绍通过用一些工具和开发库,通过编写动画演示程序来方便对算法的执行流程进行可视化的外在表达。以便于算法程序的教学和理解。 今天向大家介绍通过manim和pygame两个python开发库实现交互式动画展示,以便于教学中可以用算法动态可视化过程来辅以教学过程中讲解,使得算法的讲解过程更加具体生动,可理解性大大增强。很多时候知识的难度是一个方面,如果辅以更加可理解的解释方法和途径,知识的可理解的难度也会大大降低。这里先分享一个自己借助大模型的代码生成功能辅助实现的快速排序演示动画的原型版本(代码还在整理和更新中)。由于生成视频动画需要用到流媒体程序ffmpeg,在windows下需要下载ffmpeg程序包(见参考引文1)然后将其对应的bin目录放到环境变量Path中。执行程序生成动画视频的命令行为: 对应的脚本代码请参考引文2的链接。生成的视频的目录在相对代码为根目录的子目录\media\videos\quick_sort_manim\480p15下面,如果要控制动画的播放进度,可以通过pygame相关程序去播放视频,并且通过鼠标和键盘事件控制播放或暂停(参考引文3的链接)。最后生成的动画效果请参考引文4链接。后续有进一步的心得体会会将持续更新相关文字说明或代码。欢迎读者提供更多的更好的方法和途径来通过动画展示计算机执行算法或特殊功能函数的过程。 References
-
树状数组实现示例演示说明
今天介绍一种特殊的数据结构-树状数组(binary index tree),其巧妙利用了二进制的数学特性,对数组的索引下标的含义进行了特殊的定义,以方便对数组的任意区间内的元素进行求和。下面将简要向大家介绍一下其基本的原理。 为了求得一个数组中任意区间的元素的和,可以采用不同的方法,比较直接和朴素的方法是给出范围的区间,通过for循环去累加求和。但是这种方法求解的效率不高,如果数组的元素比较多,会影响程序的执行时间。树状数组通过巧妙的构造数组特定位置(下标)下的元素值的含义(通常为下标所映射的一定范围的元素的和),由于这种下标的巧妙映射,数组范围内任意区间的元素和都可以通过对应的较为少数的下标的元素的和去组成。而这种下标所对应数组元素范围的解析就是基于整数二进制编码的基本原理。下面将详细的通过示例进行介绍。 比如一个示例,求数组元素前15项的和。一般的数组每个索引下存放对应该位置的值,这样就需要做15次加法运算去求得所需的值。而这里我们的15的二进制表示为1111。如果不断的从右往左消除1,则可以分别由四个区间来组成,分别为(1110->1111],(1100->1110],(1000,1100],(0000,1000]。而这几个区间可以分别看成是(14,15],(12,14],(8,12],(0,8]这几个区间的和,每个区间没有重叠(注意开闭区间的区别),假设数组的名称为treeindexarray,则treeindexarray[15](1111)只表示15这个位置本身的值,treeindexarray[14](1110)表示13到14位置的和的值,treeindexarray[12](1100)表示9到12位置的和的值,treeindexarray[8]代表1到8位置的和的值,这个对应范围和上述的区间是一致的。因此treeindexarray[8]+treeindexarray[12]+treeindexarray[14]+treeindexarray[15]这四个值相加的结果即为该数组的前15个元素之和,只需求4次加法即可。 更新数组中某个位置,其逻辑为该索引值为基础不断加上当前值的lowbit迭代直到索引越界。如数组中某个位置加或减去某个值,根据树状数组的定义,该索引之前的位置的值并不受影响。我们以简单的一个示例来进行说明,比如想把数组的第10个位置的值加上5(假设数组长度为31,32个元素但第索引为0处没有用到),则第10(二进制为1010)个位置本身要加上5,下一个加上5的位置为12(二进制为1100,根据上面的示例,其包含了9到12位置的值,因为10在内,所以也要加上5),再下一个需要加上5的位置的值为16(1100+lowbit(1100),二进制为10000,该位置索引表示的是数组从1到16索引位置的和。由于16+lowbit(16)=32,查出了数组的边界,因此更新结束。比如求前面17(二进制为10001)个元素的和,则可以表示为(10000,10001],(00000,10000]两个区间的和。即为treeindexarray[17]+treeindexarray[16],由于更新的第10个元素的位置已经在treeindexarray[16]中体现,所以最终的编码更新满足树状数组的逻辑定义。 在此进一步对lowbit的计算方式做一下说明。二进制编码的基本原理的基础上,求二进制数字最后一个为1的编码的位置的值得函数lowbit(x),其计算方法利用到了计算机的二进制编码特性,在计算机中整数x的相反数-x的编码通常采用二进制补位方法(2’s Complement Representation,关于information encoding读者可以去了解更多的细节)。基于二进制补位表示法的机制,-x的二进制和x的二进制只在最右边编码为1的位置相同(其他位置均互补)。因此lowbit(x)= x&(-x)。 树状数组的应用场合可以参考引文中的开始的一个场景描述。后面有机会碰到更多的场景再在这里进行更新。 References
本博客主要包含一些工程技术方面的短文和日常生活的随想。感谢所有师长领导朋友和老同学们的关心支持,特别感谢上海交通大学、上海建设管理职业技术学院、上海闵行职业技术学院、中科院软件所、北京师范大学及中小学的老师同学们和上汽集团等工作过公司的领导同事们给与的关爱和支持,以及家人们的期望和默默付出,希望有些文章能对大家有所启发。由于作者水平有限,撰写较为仓促,文章中难免存在一些缺点和错误,殷切希望来自世界各地的读者批评指正。期待能够和大家一起学习,迎接挑战,共同进步。