Category: ICT-Information and Communication Technology

  • 浅说数据要素

    在人工智能和大数据时代,数据是很重要的资产,是模型赖以产生的源头。在各行各业,都需要开始积累相关的行业数据,为后续的模型不断的更新和快速的迭代做准备。 行业或领域内好的数据可以加快相关技术的迭代发展速度,就拿图像视觉领域来说,由于开源了ImageNet数据集,在上一个十年期间,图像识别竞赛具有显著影响力,催生了深度学习的快速发展,如卷积神经网络,深度网络VGG,深度残差网络ResNet等等关键的深度学习网络backbone,图像视觉成为了发展最快的人工智能应用领域。 其他垂直行业或相关领域的公开数据集也有很多,如目标检测和语义分割的coco,pascal voc,NLP,Speech里边也开源了很多数据集供竞赛打榜和科研论文的算法比较等,为相关行业建立基准的benchmark。 Nature子刊现在也有Scientific Data子刊,可以发布不同行业的标准的数据集,方便相关行业的科研人员能够较快从事相关领域的算法研发和验证。 随着行业发展的需要,数据的体量也在不断的增长,相关行业产业的公司和研究机构也在不断积累数据,将数据保存好不断积累保证安全和便捷检索和访问,可以保证在科技不断发展的同时,“粮草”是足够的,技术更新迭代不会受到数据欠缺导致的生产力滞后的问题。所以相关行业还是要充分重视数据的积累和标记检索。可以将数据作为企事业的“后勤粮草”战略储备。 国家现在也成立了数据局,以后的数据的管理和存储也将会更加的规范科学。云计算技术里边就有大容量存储的技术,随着云计算技术的不断普及和发展,大数据量的存储将不再是什么技术问题,甚至以后也许我们每个人从出生后所有积累的数据都可以访问,如区块链等相关技术的进一步成熟和推广,以后的数据存取访问的模式也会发生变化。随着工程技术的发展,云计算也许能够和区块链技术更好的结合起来,后面我们的云计算专业也可以考虑紧跟时代步伐,将最新的技术进行介绍和引入,期待更加成熟和安全便捷的数据存储和访问技术,为相关产业的数字化的快速发展提供良好的保障。 References

  • 再说人类智能的优越性

    和人工智能相比,基于人脑的生物智能的复杂度要高得多,现在的人工智能的技术在近一二十年取得了长足的发展和进步,但相对于人脑的智能程度来说,还有很长的技术发展空间。这里说说几点来分析一下。 1、人脑智能的多通道混合感知特性,从感知功能来说,人类的视觉,听觉等多通道同步感受能力相对于AI来说有遥遥领先的优越性,仅从视觉来看,人脑能够分割任何全景场景,人脑能够脑补遮挡部分,识别未见过的物体,实时tracking能力等都非常强,人脑的视觉时间分辨率,颜色分辨率,物理空间大小分辨率都挺高。这些AI的能力现在还距离比较远; 2、人脑的决策能力也非常独特,虽然在某些单项的游戏场景中,AI已经超过人脑,但是人脑的决策能力贯穿于生活工作社交的方方面面,如日常生活的衣食住行,工作中的设想,规划和执行以及社会交往中的沟通交流,活动组织,宣传外交等等的决策都由每个人的人脑去执行,而且人类是群体性社会性的生物,智能的决策很多时候不仅仅由一个人来执行,而且集思广益后做出的选择性的较优决策,而集这些能力于一体的AI的决策智能体的实现可能还有些路程要走; 3、人脑也有生成式AI的功能,而且是复合式生成的智能,如既可以说话(语音生成),也可以写撰写文章(如chatgpt),还可以唱歌(AI music),舞蹈,绘画等等,人类大脑最强大的生成能力在于人类的艺术创造力和科学创造力。而集成如此多项能力于一体的生成式AI的模型的研发也不是那么容易实现; 4、人脑也是一个GAN网络,GAN网络其实也是生成式AI的一种技术实现,不过GAN网络也可以用作判别。比如某人当前生成了一个想法观点,待实践验证发现和想法不太一致的时候,下次可能就会动态调整生成策略。这个时候实践验证就可以理解为物理世界帮我们生成了训练集,而观点想法则可以理解为生成式网络。我们的想法和判断不停的去动态的博弈,最终我们的想法会越来越和实际世界接近,这个时候我们可以说我们的大脑的GAN网络的生成网络训练就比较成功了;还有我们接受信息也是会加以自己的理解和判断的,怎么解读也是判别式网络,如果解读的和后面发现的物理世界的实际发生不一致时,也相当于为我们生成了训练集,我们也可以训练我们的判别式网络,解读的越合理我们的判断就越准确,以便后面的决策; 5、人脑也具备动作规划和执行功能,手脚的精细运动,现在的机器人的能力也差距比较远;斯坦福的aloha的机器人做家务的场景也是后面人为的精细操作的动作捕捉的复现; 6、人脑的自主性,人类可以自主的学习生活工作和与人交往,能自主感觉饥饿,自主看书学习和进化,这也是现在的AI所达不到的。 说几点主要的AI优势: 1、精确快速大算力的数值计算和表示;2、AI for science在分子材料设计药物设计和其他科学方面的效率比人类要强;3、AI在人类不太适合的工作场景下能够工作等等。 综合上述的分析,虽然AI在某些方面比人类的能力强,但综合来看达到人类的智能还比较遥远,AI在不断延申人类能力辅助人们更好生活工作的同时,也在不断的随着科学家和工程师的努力在进化和发展,期待AI给人类带来更多的便利和福祉。

  • 数字化教育产业发展的一点想法

    教育是利国利民的大事,是国家后续的现代化建设的关键因素,关乎人才的培养,关乎每一个人得到良好的发展。百年大计,教育为本。这是多年来在学校的墙壁上的宣传标语。其实教育的效益没有那么慢,20年的从家庭到学校到社会的的精心投入和培育,就基本可以成才,延续三代以上良好的教育,整个社会的发展风貌肯定会大不同。虽然教育也是一种延迟满足的行业投入,但是事关国家民族的更好可持续发展,应该引起相关管理决策部门的更大重视,这里主要从数字化教育作为一个产业来说说数字化教育发展的一点思考。 教育是一个人全面发展的培养过程,德智体美劳都很重要,之前可能强调的更多的是智育和筛选,但是其他的几个方面的重要性也特别重要,每个人的合理发展都很重要,这里从个人和教育机构两方面说说数字化教育的方方面面。 一、从个性化学习的角度。1、关于智育,可能主要是文化课的教育上面,好的教学资源如优秀的老师的课程可以大范围传播,自适应的学习系统可以记录每一个同学的学习过程中的动态学习过程,擅长的和显得不足的地方都有统计和分析并作出自适应的调整,如错题集的分析和继续基于此上面的学习就是一种自适应的学习过程。2、关于体育健康,也是可以做一些记录的,比如同学们参加跑步的次数,跑步的成绩都可以用数字化的方式记录下来,以及身体的体检记录和状况等,这些都是一个人成长过程中身体素质的信息记录,对后续个人的健康管理也很重要;3、关于德美劳,学生个人自己,家长和学校以及经营相关业务的公司都可以做出一定的设计和行动,如参加公益活动,参加组织的夏令营等以及记录其感想等等可以数字化记录下来;4、关于心里健康和发展,可以通过学习过程的学生的行为和心里状态的记录和跟踪,运用教育学心理学的相关理论进行分析和总结,给出每个同学的相关行为和心里发展的更好的建议和指导。5、关于推荐系统,可以建立相关个人全面成长的理论和分析方法,给出当前每个人在全面发展方面的行动和策略建议,如学习某项新技能,要多以一点体育运动等;6、特殊方面的技能才能教育,如计算机艺术机器人等的特长竞赛教育,也可以线上和线下相结合。 二、从教育机构的教学活动运营角度。1、作为教育机构如学校本身运营的数字化系统,如学校有数字化校园,各种办公和学习辅助系统如邮件校历教室管理校友信息等信息管理系统;2、学生的学习和相关身心健康等指标分析,既有整体性的了解和也有个体情况的细节把握,做到因材施教更好的个性化学习;3、校园安全,低碳校园等教学环境辅助系统;4、好的教学资源分发系统以及支持学生创新和发展的社团和相关资源的使用等的教学辅助系统等。 现代社会知识信息增长速度很快,根据科技经济社会发展的需要,每个人能力不是先天就固化下来的,而是需要养成成长性思维,不断进步以不断满足社会发展的需要。要建立终身学习型的社会,教育就不仅仅局限于学校和课堂,数字化教育系统可以陪伴每个人的一生,甚至可以考虑是一个人一生的成长辅助系统,不仅仅关乎知识技能的学习,可以从更广的视角来看,是个人全面发展的智能助手。 关于数字化教育的技术方面和具体的应用以及工程技术方面的设计开发和部署等,希望后面有机会和相关同仁去探讨和合作,形成产业的联合体也是挺有意义的一件事。

  • 再说虚拟现实和AI技术

    计算机图形学出现以后,虚拟现实作为一个应用发展方向得到了很好的发展,一些前言的数字化技术如智能眼镜,元宇宙等都用到了虚拟现实技术。如实时街景地图,云上citywalk,分子结构和运动,宇宙星体运行可视化,通过虚拟增强现实等实现更好的人机交互都是很好的应用场景。 虚拟和现实是我们的世界的两个相互耦合的时空,虚拟一般指在物理世界不存在的,比如头脑想象的场景,如做梦等现象。在文学中一般的情节也是虚拟和通过精心构造的,在现实世界不一定发生过,或是对现实世界发生事务的一种再演绎。而现实世界一般是指我们的物质世界。如实际发生的一系列事件,自然的山水田园等等。 在以往,虚拟和现实一般的边界是比较清晰的,我们很容易就能判别,但是由于人工智能技术的发展,虚拟和现实的边界就不再那么清晰。很多时候我们已经不能区分数字化的内容“真假”,举例就能很好的理解和说明。比如现在的生成式AI技术,图像,视频以及语音和知识问答,文档自动撰写等都可以通过AI技术进行生成,而生成的这些数字化的内容和通过现实世界进行采样数字化的内容已经不能判别出处。虚拟的生成和现实世界的数字化变得混淆不清,有利也有弊。有利的地方可以举例说明:1、通过虚拟生成可以构造近乎真实场景的数据来反哺其他AI应用场景,如智能驾驶;2、通过虚拟生成可以在生物制药和分子设计等方面有很多的应用,可以加快相关行业的科技发展速度;3、通过自动问答系统可以解决垂直行业的知识问答系统或一些较为程式化重复性的文案撰写等工作或一些知识型智力性的设计和实现工作,解放更多的人力去从事更有人类情怀和远大目标的事情。不利的地方也可以举例说明:1、生成的数字的音视频图像内容不少的人们不能辨别真假,如果被别有用心的人们加以利用,则会带来经济和社会的一定程度的紊乱,人们日常的行为和决策难度会变大;2、通过虚拟生成的文档或相关内容可能会使得人们对技术工具的依赖加深,有些人们可能会变得懒惰,不再进行合理的脑力劳作去收获成果,这些人群的整体发展可能会出现退化;3、通过AI生成的内容的正确性质量可能参差不齐,现在尚未实现自主AI,AI大脑的多样化没有人类大脑的多样化这样庞杂,同一个AI大脑生成的模型可能会存在同质性的问题,这些都可能会给数字空间带来一定的质量问题。 这些虚拟生成的利弊可能是AI伦理需要考虑的问题,虚拟和现实存在着相互的融合和改变,关于数字化产业方面的发展方向就是一个很重要的经济社会议题。与经济效益和社会治理都有关系,AI的发展的方向和重点应该是解决人类命运的重大问题,需要相关决策部门和技术管理部门认真考虑制订相关的政策以规范AI的发展和应用场景。

  • 关于人工智能产业学院的一点发展思考

    学校要发展人工智能产业学院,今年有幸申请下来了云计算专业,后续还会打算申请信息安全专业和人工智能专业。当然从想法设计到执行实现还有一段不短的路程要走,而且设计和现实也很难完全同步,需要动态的去调整步伐,以希最终有一个不错的结果。 从我个人来看,前面的领导们这样的设计是合理的(我后面才过来)。首先云计算和信息安全作为数字化产业的底层软硬件基座,作为基础设施来服务于人工智能的产业应用,现在的产业化发展也要紧跟时代步伐,做出一定的特色,为经济的转型和新时期的现代化这道开放的大考题做出我们自己的思路和解答。如教育安全农业环保等绿色产业可以作为优先发展方向。而且在这些方向上有我们的相关一些熟悉的老师朋友同学和同事们,希望能有深度合作和融合发展的机会。这样从整个数字化产业的层次架构来说,就形成了相对比较完整的体系。 可以这样考虑,云计算和信息安全作为基础,和教育教学同步即服务于社会也服务于我们自己的上层的人工智能应用产业,而人工智能应用产业我们可以考虑和上述的垂直绿色应用方向相结合,有机会和大家一起共同发展形成产业共同体去考虑怎么产业化,并将产业化的应用反哺后续的人工智能应用专业。形成产教融合相辅相成的强调产业经济和社会效益的人工智能产业学院。 是个很不错的设想,希望后面能有机会和相关老师朋友同学同事们一起找到融合发展的平衡点,深度合作互惠互利,一步步去好好实现。

  • VEX机器人技术教育

    今天有幸参加了在交大创新中心举办的机器人新赛事发布和vex机器人比赛和教育培训和研讨,会后进一步参观了创新中心的实习实训的实验室场地,又有新的发现和收获,感受交大创新中心的用心做教育的良苦用心。 vex原来是一个单词,我以前一直以为是什么缩写。vex的意思是使烦恼的,看来搞理工对有些人确实是一件比较烦恼的事情!不过每个人的优势不一样,不一定非得所有的人都得从事科学研究和工程技术研发,但是理工还是需要大部分有志青年来从事的方向,解决实业经济生产和高科技发展的问题,提高核心竞争力,拓宽国家的竞争保卫的护城河。 今天讲解的老师也说vex让机器人教育变得触手可及,vex起步的门槛相对比较低,入手相对容易,一个月可以动手搭建一个相对简单的机器人系统,但是往后做难度也会越来越大。 今天的全国比赛大学队伍20多支,中小学400多支,初高中学生更多,初高中学了vex到大学后继续还可以参加相关比赛,而且已经有了较好的基础,后面的比赛会显得更加游刃有余。 vex的机器人设计和制作也是一个团队来完成的,有操作手,熟悉精准通过遥控操作手柄来控制机器人的运动,有编程人员,可以通过python,c++,甚至图形化编程(看上去和scratch比较像)来实现机器人执行特定的动作以及机器人的设计和搭建等工作。因此也需要团队成员间精诚合作。 希望以后有机会参加相关的赛事,创新创业和相关专业教学结合起来。学以致用,用中促学。 References

  • 再说自主软硬件生态

    这些天了解了一些国产的软硬件生态,包括数据底座的软硬件部分。 如国产服务器芯片,包括arm和x86以及mips扩展的架构都有相关产品,可以用作云计算的硬件设备。如arm系列的鲲鹏芯片和因特尔的至强系列服务器可以去比较(在并行计算方面挺有优势),还有曙光的海光是基于x86架构的,以及龙芯是基于mips的扩展架构,在自主安全方面更好。异构AI芯片有升腾系列。 在国产的底层基础软件方面,可以分为服务器端和终端。服务器段有openEuler操作系统和openGuass数据库软件,支持在其上构建云平台(如openstack和docker,k8s等),深度学习框架引擎mindspore等。 在智能终端上,主要以openharmony为代表的智能终端操作系统,可以在嵌入式设备上高效运行,而且其基于分布式软总线的网络能力使得万物互联更加便捷高效,openharmony可以在各种智能终端,以后也将会扩展到PC端。 以上软硬件的国产方案,基本可以实现全栈的产业链自供给。实在是了不起的事情,相关企事业单位还是抓住了发展的机遇期,使得国际间的竞争合作更加有灵活自主的空间。 而且现在相关开源生态也在推广中,力度还不小,希望我们以后也能为开源生态贡献力量。 References

  • 笨功夫

    科研和工程研发是一个相对较为长期的过程,即使最聪明的头脑也一般不会一蹴而就,往往需要下笨功夫。 对于先天比较聪明的人来说,往往觉得聪明是自己的强项,就会有比较大的优越感,反而可能在功夫时间上下的不够,后面的成就也许就没有那么大。 对于资质一般的人来说,通过长久的坚持,不断的突破自己,也会变得越来越聪明,后面成果反而还比较大,这样的例子其实也有很多。 其实不管聪明不聪明,做科研和工程技术需要的是兴趣和长久的坚持。因为其实我们每个人的认识都存在局限,我们不了解的东西很多,接收的信息也不全面,甚至先天都带有一定的主观偏见,所以要不断的提醒自己,在做决策和技术研发时是要多思考一些,多走一些路看看。就拿软件研发来说,bug在所难免,测试就是很重要的一环,要做单元测试,模块测试,集成测试和压力测试等等,使得系统不断的变得越来越鲁棒。 行百里者半九十,况且我们的云计算专业还刚刚起步,我们既要有对待工作态度上的红色的热情,也要有数字化技术研发方面蓝色的冷静。兴趣+信心+坚持,既要有自信,也要下笨功夫,后面的路需要一步一个脚印去走好,行稳致远。

  • 万物互联延展了我们的生活空间

    openharmony为面向万物互联时代的新一代全领域的智能终端操作系统。我的理解,以后可以只要是某个人使用的设备,如手机、智能汽车、智能家电、智能大屏和电视、智能机器人以及智能手环等所有硬件设备都可以共享个人数据。 比如这样一个场景,一部在智能电视上没有看完的电视剧,由于上班比较紧急了,就在路上让车子自己开着智能驾驶然后继续从暂停的地方开始看,走的时候家里的灯忘了关,智能家居的感知系统发出了通知,你在车上顺便关掉了。同时想着晚上比较晚才回家但是想喝点热粥,于是你告诉机器人去给智能电饭锅配好食材预定好开始煮粥的时间。这一切都可以随时随地进行,跨越了传统的限制,给生活带来了便利。 openharmony应该可以达到个人设备间的充分互联,打造一个广阔延展区域的智能化个人及家庭空间。第四次工业革命下新的数字化技术浪潮将会给人类带来久远的福音,让我们一起行动并期待着! 今天参加了openharmony生态开发者大会,期待openharmony的openatom基金会不断成长和跨越,期待相关核心单位乘风破浪,勇毅前行,我们也会尽量紧跟步伐,继续努力。

  • Apollo CyberRT简介

    Apollo系统是影响力比较大的智能驾驶开源系统,仅不说其在模型和算法上的表现,其整个车载上部署的智能驾驶系统的代码是有很多借鉴和学习的地方的。其特色主要在于其在操作系统之上构建的中间件(middleware)CyberRT,是在apollo开发过程中不断迭代逐渐发展起来的。今天不说apollo中使用的智能算法,仅说一说其中间件的特性。 ROS(Robot Operating System)是一个开源的机器人操作系统,虽说是操作系统,其实是建立在底层操作系统上的一个开源机器人的应用的框架,其基于Node的结构实现了不同的逻辑节点之间的相对独立,不同的Node之间可以通过pub/sub机制进行通信。一般一个Node为单独的进程,通信采用socket网络模式进行,效率不高,而且进程太多也会影响系统的调度。在智能驾驶系统中,ROS的框架在性能上有很多可以提升的地方,所以CyberRT在其思想之上做了不少的优化和改进更新。 apollo里采用了component为单位对计算逻辑节点进行建模,每一个计算component一般对应为一个协程,协程是比线程更小粒度的计算实体,其载体为线程,一个线程可以运行多个协程,多个协程在线程里依次切换上下文执行,不能同时并行。同时apollo里采用了processor类来对线程进行了抽象,比如processor可以调度协程,可以设置cpu亲和性等,以便对很多个任务进行合理调度编排(如某个processor在固定的cpu上进行执行,这样可以根据任务的先后顺序关系和计算量大小进行合理的任务拓扑排序,以便能够高效执行,而且这样的编排可以通过配置文件进行编辑,给系统的扩展带来了很大的灵活性)。 采用component和processor的模式相比ros的好处是每个计算逻辑单元不必是独立的进程,一个进程内部的多线程或协程间的数据访问和通信要快捷很多。关于apollo的通信机制,以前在知乎写过一篇简要的介绍文章,可以参考引文。 从我个人的感受来看,apollo系统的中间件是比较优秀的,ros2系统也估计很不错,不过没有细看过,就不好去和apollo之间去做对比了,据说其通信机制也很优秀。 以后国内开源生态建立的更完善以后,期待这样的场景:open harmony os+apollo+芯片实现万物互联的的底层软硬件基础设施,虽严格来讲apollo算是中间层,但如果和这些组合一起进行软硬件打包,对于智能机器人系统(包括智能汽车)来说,可以将开发更专注在要求更加个性化的智能算法上,从而也从效率上带来很大的提升。 References