大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。 InfoQ 研究中心 期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。
一、重点发现
来自英国EngineeredArts的Ameca、特斯拉的Optimus以及SanctuaryAI的 Phoenix等先进机器人产品不断取得突破,机器人正引领科技潮流。它们之所以如此火爆,最大的原因在于这些最新的机器人产品向人们展示了前所未有的技术特点。Ameca通过AI与AB技术的融合,实现了高响应性和交互性,与人类沟通更为自然;Optimus则展示了在机器人速度方面的显著进步,其步速已提升至每秒0.6 米,比去年提升了 30%以上,这显示了机器人在动态性能上的突破;而 Phoenix机器人则以其惊人的速度、精确性和力量展现了机器人在实际应用中的巨大潜力。这些新的技术特点不仅预示着机器人技术将深刻改变我们的生活方式,从提高生产效率到优化日常生活体验,还催生了新的产业机会,例如Optimus可在工厂中执行巡逻检查等任务、Phoenix可凭借其智能性与灵活性完成一些零售相关的任务(挑选、包装、标记、贴标签、折叠等)为社会带来经济增长。
二、具体内容
大模型持续更新
1、26日晚间,MistralAI正式发布了「旗舰级」大模型MistralLarge。这次MistralAI发布的版本性能更强,体量更大,直接对标OpenAI的GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。
多模态领域
1、阿里最新推出了一款基于音频驱动的 肖像视频生成框架 ,EMO(EmotePortraitAlive)。输入单张参考图像,以及一段音频(说话、唱歌、rap 均可),就能生成表情生动的 AI 视频。
2、字节跳动发布 文生图开放模型 ——SDXL-Lightning。其通过一种创新技术(渐进式对抗蒸馏)实现了前所未有的生成速度,该模型能够在短短2步或4步内生成极高质量和分辨率的图像,并将计算成本和时间降低十倍。
3、PlaygroundAI公司推出最新的 文本到图像生成模型 ——Playgroundv2.5。这一版本不仅在图像的美学质量上实现了飞跃,更在颜色和对比度的增强、多种比例图像生成能力以及人像细节处理方面做出了重大改进。
4、Ideogram 公司发布了他们最新、最先进的 文本到图像模型 ——Ideogram1.0,相比旧版本 Ideogram1.0提供了前所未有的文本渲染质量、超真实图像生成能力以及对复杂指令的高度遵从性。同时,Ideogram1.0还推出了一个名为MagicPrompt的新功能,协助用户创作详细的prompt,生成富有创意的图像。
科研领域
1、西班牙巴塞罗那自治大学(UniversitatAutònomadeBarcelona,UAB)的研究人员使用人工智能工具AlphaFold,预测并模拟了细菌中必需(essential) 蛋白质 之间的1402种相互作用。
2、剑桥大学的研究人员推出了一种深度学习工具——AbNatiV,用于评估抗体和纳米抗体的天然性,助力 抗体药 的研发。
应用探索
多语言对话助手
MistralAI推出名为LeChat的 聊天助手 ,这是一款先进的人工智能应用,旨在为用户提供自然、流畅的对话体验。作为MistralAI的一项重要产品,LeChat集成了公司先进的语言模型技术,如MistralLarge等,从而具备了强大的文本生成和推理能力。
多模态生成产品功能更新
1、Pika推出LipSync功能,以支持 视频人物嘴部动画和音频同步 。
2、DomoAI推出了全新的fusionstyle功能,让用户只需通过简单的提示词就能 改变视频的风格 。这项功能还可以给视频中的人物增加或替换小物品,甚至换上新衣服。
3、StabilityAI宣布与MorphAI达成合作,双方基于各自的模型优势,共同推出了一款 一体式AI视频创作 的制作工具——MorphStudio。
智能体
1、英伟达成立最壕AI实验室,由JimFan领衔,专攻 具身智能 领域。
2、一家来自英国机器人公司(EngeneeredArts)的机器人产品Ameca再进化。因其融合了AI与 AB(ArtificialBody)技术,这使得Ameca 成为一个响应性和交互性极强的机器人。
3、特斯拉的人形机器人 Optimus再次进化,步速已达每秒0.6米,虽然只是健康成年人步速的一半,但和去年12月的视频相比,速度已经提升了30%以上。
4、SanctuaryAI公司最近发布了一款全新的人形通用机器人——Phoenix,其发布的演示视频令人震惊。在视频中,Phoenix 机器人展示了其在速度、精确性和力量方面的卓越能力,而且这些展示并没有任何加速处理。
终端 AI
1、2月26日,在世界移动通信大会(MWC)上联想集团发布全新 ThinkPad 和 ThinkBook 商务 AIPC,展现了在全球领域的领导力
2、2月26日,在世界移动通信大会(MWC)上,荣耀发布了荣耀Magic6Pro,荣耀MagicBookPro16 等一系列智能设备
3、清华交叉信息研究院与理想提出了一种利用视觉语言模型(VLM)增强场景理解和规划能力的自动驾驶系统(DriveVLM)来提升汽车的 自动驾驶能力 。
基础设施/工具
1、为了解决大模型与人类在 价值观上的对齐 挑战,上海交通大学和上海人工智能实验室的科研团队提出了一个原创的自我对齐策略——社会场景模拟,并发表在《Self-AlignmentofLargeLanguageModelsviaMonopolylogue-basedSocialSceneSimulation》中。
2、为了增强 Transformer 的 复杂推理能力 ,MetaFAIR 的田渊栋团队提出了 Searchformer,这是一种Transformer模型,但面对迷宫导航和推箱子等多步规划任务时却能计算出最优规划。
3、微软和中国科学院大学提出一种名为BitNetb1.58方法将传统以 16 位浮点数形式的存储变为 三进制 。可让大模型在保持一定精度的同时,显著减少所需的存储空间和计算资源,而且当模型的规模越大时,速度上的提升和内存上的节省会更加显著。
4、最新发表于《IEEETransactionsonMobileComputing》的一篇论文提出了一种 超越主流架构 的新架构——FedCache(一种缓存驱动的联邦学习架构)。与主流的个性化联邦学习方法相比,FedCache的通信效率提高了两个数量级,同时在模型性能中也能达到相当的水平。
5、新加坡国立大学尤洋教授团队联合UCB、MetaAI实验室等机构最新开源的研究成果提出了一种用于生成神经网络参数的扩散模型p(arameter)-diff。用它来生成网络参数,速度比直接训练最多提高44倍,而且表现毫不逊色。
6、谷歌与Reddit达成 人工智能训练数据 协议,每年年支付6000万美元。
7、Tumblr与OpenAI和Midjourney就训练数据达成协议,以提供从用户帖子中抓取的 训练数据 。
除了每周的动态更新,InfoQ 研究中心也将以季度为周期,发布《大模型季度监测报告》,跟踪大模型行业的最新动态和相关产品测试。
第一期《大模型季度监测报告 23Q4》预计将于 2024 年 3 月底正式发布,届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望InfoQ对旗下产品进行测试,或想要参与报告内容共建,欢迎联系微信:Bettycbj1996(添加好友请注明来意)