10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源
衡宇 来源: 量子位系封神榜大模型核心成员创业
一家今年5月份成立在 深圳 的公司,团队至今不到10人。
他们要做的却不是小事: 挑战AGI 。
底气在哪?一看过往履历,二看现在赛道的成绩。
这几个人近一年中,累计在CVPR、ICML、ECCV等顶会上发表16篇大模型相关论文,其中一篇还拿下了顶会ACL 2023的最佳论文提名。
创业后的成绩如何?成立两个月后,所训模型杀入C-榜单前三, 中文 能力击败和Claude-v1.3。
这就是 共生矩阵 拿出的成绩。
并且旗下模型GS-LLM七月末首次上榜至今,在C-Eval榜单65个上榜选手中,一直处于第一梯队。
那么,共生矩阵是谁?
10个人挑战AGI
共生矩阵,目标立足自研AGI技术,打造行业数据 精炼 工厂。
团队所依托的主要是自研大模型GS-LLM。
模型参数规模 从7B-130B不等 ,能根据用户的实际需求量体裁衣。
在C-Eval上占据一席之地的有基于GS-LLM的两个版本,一个是百亿参数版本的GS-LLM-,另一个是不足百亿规模的mini版本GS-LLM-Beta-Mini。
推出mini版本的原因是发现不少使用者,原有的运作环境(甚至 云端 环境)不足以支撑大体量的本地部署。
测试结果发现,几十亿版本的GS-LLM-Beta就可以发挥不错的性能,在C-Eval上最好排名达到第6。
能够常驻C-Eval榜单前列的原因之一,是共生矩阵 搭建了一套完全独立的训练框架 ,对整个训练构成比较完备的技术支撑。
第二个点在 数据 ,这是这家公司格外重视的一点。
共生矩阵 CEO张林 举了个简单的例子:
去年团队在一个 实验 中发现, 当模型数据达到某一 数量级 时,数据 质量 的跃升反而能引起一些质变 。
“也就是说,有一个相对小体量(如百亿级别)的模型,喂给它高质量的数据,训练出来的结果和千亿级别的结果是很接近的。” 张林 说。
这个实验也让团队对数据质量、体系化获取高质量数据途径的重视再+1。
其实这点近期越来越引起各界注意, 微软 就有一项新研究《are all you need》,工作表示,做大不是唯一的出路,高质量的数据才是至关重要的。
于是乎,共生团队构建了一套清洗数据的工程化体系,24小时持续清洗数据。
团队目前清洗出的可以用于训练的文本数据,大约有20T,“这个量级能够支撑非常大体系的模型训练”。
不过 张林 也透露,短期 内共生 矩阵不会对外公开团队清洗出的数据。
那么,团队想打造的数据精炼工厂又是什么概念?
张林 解释,如果把大模型理解为“ 信息 的 压缩 ”,那么它本身就是一个体量很大的参数 数据库 。
数据精炼工厂要做的事,就是将模型训练好后的参数数据进行共享和交易。
要知道,大模型的功能是通过参数来承载的,交易参数其实就是切换功能,我们需要大模型功能的 多样性 ,“参数交易是最高效的路径”。
“原始数据直接进行交易,受到量级大、 隐私 问题等掣肘。” 张林 解释,数据交易的 概念 已经提了很多年了,但并没有完全被 市场 接受,团队认为想要数据真正流通起来,需要更合理、安全、有效,因此最终确定了参数层面的数据交易。
在团队设想中,数据精炼工厂跑通后,部分数据不用重复训练,效率提升, 成本 也可降低。
用更少的人和资源把大模型体系做好
大模型热潮中,如何评价大模型成为重要问题,这也是各类榜单雨后春笋出现的原因。
共生矩阵上榜C-Eval后,外界聚焦来的目光主要有2点:
除了成绩不错外,另一个惹人关注的点是,他们是榜上少见的 小型团队 。
团队表示,榜单并不是全世界唯一最权威,但成立一个月开始上榜,一度杀进前三,能够反映“我们用更少的人和资源把大模型体系做好”。
没错,共生矩阵团队只有不足10人。
人不多,但都挺能打——
CEO 张林 、王军杰等团队中的核心都出自 研究院 ,在国内 封神榜预训练模型 开源 体系工作 中有丰富实战经验(据悉,封神榜目前已有超过98个开源预训练模型)
张林 本人 博士 毕业于 美国纽约州立大学 ,在 计算机 国际顶会上发表过三十多篇 论文 ,此前是 粤港澳大湾区数字经济 研究院(IDEA)资深高级研究员。
王军杰 则是 早稻田大学 的计算机博士,此前是封神榜大模型团队的核心成员。
张林
纵观当下的市场,小团队搞好AI并不是没有先例,最负盛名的文生图模型 Midjourney 背后,只有11个成员,被称为新时代组织的标杆。AI 2.0时代,国内外也出现了诸多讲求“小而美”的大模型 创业 团队。
当然, 张林 表示更深层原因,是因为 大模型不是简单堆人力的项目 ,需要少数精英式团队以保证效率。
他表示训练模型时, 技术 层面如 算子优化 、混合 精度 等,以及背后几百张卡同时支持时通信层面的问题,都非常考验工程能力。小团队如果能将遇到的工程性问题解决,提高效率,不必靠大团队解决。
另外,技术核心小团队更有利于保持 思想 独立性,不墨守成规以探索更多可能性,堆人力反而容易降低整体效率。
据他预估,全国大模型领域顶尖的人才“加起来可能也就100人左右”,也没什么组建大团队的 空间 。
因此,团队将在一定 时间 内保持“不足十人”这个规模。
归根结底,这是对AI 2.0时代与AI 1.0时代背后 范式 和理念的理解不同。
交流过程中, 张林 还很直接地表达了团队在另一层面与主流声音的不同理解,它体现在 开闭源理念 上。
前段时间,免费可商用的-2一出,不少人都表示这对市面上的 创业公司 将是巨大打击,因为LLaMA-2可以满足大多数公司对更低成本和个性化的需求。
“LLaMA-2并没有改变市场格局。”共生团队眼中,真正领先的团队并不会开源核心技术。
张林 还补充道在 当前阶段,开源的意义更多在于教育市场,而非推动商业化 。
像这样带点“非主流”的观点和理解,共生矩阵还有不少。
比如不认为大模型就是通用AI的终点,也不认为ChatGPT代表终极方向
他们对 独角兽 式快速扩张也持谨慎态度,更重视团队凝聚和技术积淀。
对于未来的发展路线,共生矩阵选择短期内先 闭源 ,未来在合适的机遇下可能适当开源。
版权所有,未经授权不得以任何形式转载及使用,违者必究。