Month: May 2024
-
交大老校区听讲座
昨天去交大老校区去听了一下午的讲座,这是今年第一次去,恰巧很很高兴碰到了好多年未见得老同事们,感概大家还是老样子,感觉还是那么亲切,老校区的变化也不是很大,感觉也还是挺亲切,傍晚在食堂和听讲座新认识的律师朋友一起吃了碗面,短聊了会天,关于讲座的内容也在这里简要记录一下,仅供大家参考,也以备后需。 这次讲座主要的内容是医疗卫生行业的科技发展及产业转化的现状,学校有附属医院,有大规模的真实病例数据,以及医疗过程数据和相关治疗科技进展,也已经有相关的产业化的推进。这里记录两三个比较有印象的案例。 第一个关于精神类疾病的影像数据及人工智能辅助诊断系统,可以针对不同类别的病人的真实数据收集整理了大量的跨病类的数据集,并通过设计的人工智能算法达到对个体的影像数据进行自动诊断的目的,现有精确度尚可。当然最后的诊断还是以有经验的医生的判断为准; 第二个是基于脑电信号的情感智能以及疾病检测(如癫痫检测)方面的研究及在医疗方面的应用,对脑电信号的不断的精确的解码,专家们也相信以后机器人也将具有喜怒哀乐的情感。对于脑电信号的疾病检测以后也可能会应用到更多的疾病检测上,或者说以后的疾病检测的标记物不仅仅有影像数据,还有体液以及脑电等多模态数据,这样的诊断也会更加全面和精准; 第三个是基于脑机接口的视觉重建等方向,也许以后可以为失明失聪的人带来福音,期待对于这样的残疾人以后也能够有享受人类更多的天伦之乐的机会。 期待医疗行业随着数字化和智能技术的发展走上更加系统和全面科学化的道路,给全人类带来更多的福音,辅以图片以作纪念。感谢组织方的精心准备和可口的小点心。
-
AIGC体验7-Stable Diffusion使用技巧之ControlNet模型的使用2
上篇短文向大家部分的介绍了ControlNet的使用示例,在Stable Diffusion的使用过程中,基础模型对于图像生成的质量的影响是挺关键的。在上篇介绍的短文中,我们使用了v1-5-pruned-emaonly这个模型,而在本文的示例中,我们将选择AnythingV5V3_v5PrtRE这个模型,从使用体验来说,该模型在生成人物方面的性能要明显优于v1-5-pruned-emaonly模型。相关的模型链接可以参考引文。 ControlNet还有更多的用法,读者可以进一步自行去尝试和积累经验,关于提示词的写法等还有不少的trick去在实践中模型和进一步总结,后续有相关的心得再去继续在这里分享。
-
AIGC体验6-Stable Diffusion使用技巧之ControlNet模型的使用1
在文生图的应用中,用户经常会对生成的图形有特殊的要求,如局部重绘,满足边缘或深度条件,模糊变清晰,黑白变彩色,人体特定姿势(pose)等等。这篇短文将向大家介绍基于Stable Diffusion的ControlNet实现图像可控生成的几个示例,更加完整的介绍可以参考相关文献(这篇短文基于stable diffusion 1.5版本,具体可以使用引文3中给出的notebook)。 现有的stable diffusion的基础模型在人物生成上效果不是特别好,这篇短文暂时没有演示可控人物生成的效果,更多的场景会在后面的短文中进一步补充,欢迎大家关注,并提出意见建议。 References
-
AIGC体验5-Stable Diffusion使用技巧之LoRA模型的使用
Stable Diffusion(SD)是开源的文生图大模型,随着相关技术的发展,已经迭代了多个版本(关于版本间不同的特性可以搜索查询,这里以1.5版本为例进行介绍,如和其兼容的lora模型比较多),并且其支持多种可控图像生成技巧,这篇短文将要向大家介绍相关的Stable Diffusion的使用技巧,不足支持欢迎读者提出意见建议并予以补充。 首先我们采用webui的方式使用比较便捷,参考文献1即为我们的Stable Diffusion V2.1版本的webui的jupyter notebook代码链接。具体使用可以在本地或colab里边。这篇短文将介绍SD的一般用法和基于LoRA模型的风格化用法。 一、一般用法:这里没有特别要强调说明的地方,主要是要写好提示词。这里举一个示例,提示词为:Two yellow orioles sing amid the green willows. 效果图为: 二、LoRA模型,lora模型是一种小模型技术,其显著的优点表现在:1、LoRA 通过低秩适应方法在较少的参数增加下微调大模型,资源消耗较少。2、在特定任务或小数据集上快速适应大模型,提升生成质量或特定任务的表现。3、LoRA模型可以作为额外模块加载到现有大模型中,灵活性高。使用LoRA模型的方法如下,1、首先,下载LoRA模型,如参考文献1所示;2、将下载的模型拷贝到lora的模型目录,如/content/stable-diffusion-webui/models/Lora,然后更新webui加载最新加入的lora模型(设置扫描lora模型路径),提示词为:Two yellow orioles sing amid the green willows. SONG DYNASTY FLOWER AND BIRD PAINTING如下图所示。 其中该界面的操作流程为:settings–>additional networks–>Extra paths to scan for LoRA models(设置为/content/stable-diffusion-webui/models/Lora)–>apply settings–>Reload UI。在上面的图中,我们用到了一个LoRA模型,具体可以参考引文1。 下一篇相关文章将介绍ControlNet的相关用法,欢迎读者继续关注,提出问题和意见建议。 References
-
AIGC体验4-midjourney中人物一致性的实现
在一般的电影和短视频中,一般的都存在的多个镜头(storyboard),为了保证镜头切换的时候的人物的一致性,需要文生图模型对此有较好的支持,否则在文生图的自动生成的场景中就会存在着不满足分镜头设计的需求,大模型的可用性就会受到交大影响。 今天向大家介绍midjourney中怎么实现人物一致性,主要通过一个实例向大家做演示介绍。 首先,我们通过提示词生成一个人物的不同角度的4张图片,提示词如下: 根据上述提示词生成的图片效果为: 将图像保存到本地,然后通过工具裁剪成4个小的图片,然后点击下图中左下脚的“+”号按钮在弹出的菜单中选择“上传文件”,将上面裁剪的4个图片上传后,将其链接保存下来(通过点击放大每个图片然后鼠标右键图片上方获取图片链接,供四个链接)。 然后用/prefer option set命令来进行设置风格一致性,具体的指令形如下面截图: 然后,就可以指定以该”littleboy”的option来生成人物一致性的场景了。具体的示例指令为: 最终的效果为: 后面有机会将继续向大家介绍关于图像视频多媒体方面的大模型应用的一些技巧。欢迎感兴趣的读者关注并提出问题一起来商议探讨共同提高。
-
关于社交网络的一点再思考
现代社会人们之间的交往频繁,人们的交往不再局限于物理上的小范围空间,小学,中学,大学的学习往往跨越了很大的物理空间距离,甚至到国外读书,这样距离空间就更大了。但是互联网能够解除物理空间的隔离,使得大家能够即使相聚遥远也能够感觉近在咫尺。今天和大家一起探讨一下互联网社交中出现的一些现象和思考,欢迎大家批评指正。真理越辩越明,不对的地方有则改之,无则加勉。 首先互联网生活是日常生活中的一部分,大家一口一舌,家长里短,并没有什么严格的对错去评判,大都都是每个人的脑子里的一些观点,没有深入调查研究,有时候也是逞一时口快,因此我们可以不必大动干戈,没有必要去争个输赢。 再次也说明了一些我们的认知,性格和日常行为的一些问题,也是我们需要审慎思考的。好的教育和思想观念,同理心的思想行为,都是值得去推广和执行的。现代社会对经济财富和权力的过度追求和崇拜,可能导致一些行为的扭曲和偏离正确的轨道,所以要从根本上营造更加和谐的互联网环境,需要从整体上去实现更加均衡的发展,提升教育和国民思想,实现更接近大同的社会。 今天我将博客的title进行了更新,采用了《礼记·中庸》中博学之、审问之、慎思之、明辨之、笃行之的一句话中的动词的拼凑–学问思辨行。在生活中我们每一个人都需要不断的学习,身边的事情多问问自己为什么,要勤于思考,也要明辨是非,最后要落实到行动上,和更加年轻的读者们共勉。
-
AIGC体验3-用Fliki+大模型制作短视频
前面两篇短文向大家简要介绍了midjourney来进行绘图,今天向大家简要介绍一个支持在线的短视频制作的工具Fliki,不足之处欢迎大家批评指正并予以补充。 Fliki的官网为Fliki – Turn text into videos with AI voices, 其主要是根据故事分镜头来制作短视频,分镜头(storyboard)是影视制作中的术语,大概是一个连续的镜头来描述一个场景(如长镜头,宽镜头,远镜头等)。这方面经验也不是很足,以后有机会再补充相关细节。 首先我们用大模型(ChatGPT,通义千问,文心一言等)生成故事的分镜头脚本描述,也可以自己去描写。这里我们以登鹳雀楼为例,自己写的一个简单的分镜头场景描述来进行说明(暂时没有用到大模型来生成场景描述),用的是通义万象来生活场景图。 基于上述场景文字生成的图片后,我们就可以再Fliki中去生成这首小诗的短视频了,具体方法为下面的截图演示: 有必要对语音进行优化,可以考虑借助第三方语音合成平台生成整个的语音放到common sense的场景中去(最上方)。然后在每个分场景中去掉voiceover的layer。基本设置好后,就可以export然后就download了(注:为了去除水印,需要upgrade成会员) 更多的经验会在后续继续向大家介绍。 References
-
生态宜居至善和美-颛桥的新发展和新变化
大城市的精细化管理越来越见成效了,就拿我所居住的地区颛桥为例,说说最近几年的发展和进步。觉着这些模式和亮点可以推广,欢迎读者为城市和乡村的建设提出自己的意见和建议,华夏文明源远流长,生生不息,让我们一起期待更加美好的明天! 首先第一个在于生态环境改进了很多,附近的河流治理已见成效,清清河水边已有水鸟栖息,每天都有人在拿着钓竿耐心的垂钓。政府也很用心的新建了为群众运动锻炼的小公园,每天早上参加运动锻炼的人也不算少,期待更多的人重视运动健康,希望其成为新时代的时尚潮流。 旧小区改造也基本完成,新小区依河而建,也挺高大上。 附近的几个很有特色的菜市场的菜品也很好,有的每天都有新鲜的物品,而且从外地养殖基地直达,物美价廉。为了保证新鲜,也只卖当天菜。 这边还有光华创意园,里边的文创挺有意思,期待这边随着小区的人们入住进来,更多的人在附近生活工作,商业也将逐渐更加繁荣。 欢迎更多的读者有机会来上海游玩,来颛桥走走看看。期待能看到更多的小美好,颛桥的明天会更美好,乡村的明天(包括我的老家)会更美好,祖国和地球世界的明天会更美好,我自发为颛桥代言!
-
AIGC体验2-midjourney使用配置对生成的图片进行约束和限制
上篇短文主要向大家介绍了midjourney的基本使用,在文生图的时候,有时作者期望有更多的控制条件,比如生成图片的大小和横竖比,生成图片的风格等。 首先可以通过命令/settings进行相关版本,以及模式的设置,输出结果为如下图示,具体关于这些模式的含义可以参考引文,这里不做赘述。 下面主要介绍一个使用一些约束和控制的示例 输出的结果如下图所示 点击“U4”后显示结果为: 加上图片风格和长宽比之后的示例如下: 点击“U4”后显示结果为: 后面将继续介绍相关使用的一些技能点。欢迎读者反馈意见和建议。 Reference
-
AIGC体验1-midjourney的初步使用
midjourney在图片生成方向上有较高的质量,这篇博客简要记录一下其初步的使用方法。欢迎读者给出意见和建议,以及补充相关的说明。 注册后(注册过程忽略),可以建立自己的频道,方法如下几个图示。 然后就可以在对应的服务器里用相关命令生成图片了,这里举个示例,假设提示词为“Bright forest, little bunny Lily in front of home, sunlight shining on the grass”,则生成后的效果如下图所示: 具体后面更多的使用经验将在后续的体验过程中进一步加以记录。 References