10人俩月搞出大模型!一年16篇顶会论文 市面上做得好的都没开源

10人俩月搞出大模型!一年16篇顶会论文 市面上做得好的都没开源

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

衡宇 来源: 量子位

系封神榜大模型核心成员创业

一家今年5月份成立在 深圳 的公司,团队至今不到10人。

他们要做的却不是小事: 挑战AGI

底气在哪?一看过往履历,二看现在赛道的成绩。

这几个人近一年中,累计在CVPR、ICML、ECCV等顶会上发表16篇大模型相关论文,其中一篇还拿下了顶会ACL 2023的最佳论文提名。

创业后的成绩如何?成立两个月后,所训模型杀入C-榜单前三, 中文 能力击败和Claude-v1.3。

这就是 共生矩阵 拿出的成绩。

并且旗下模型GS-LLM七月末首次上榜至今,在C-Eval榜单65个上榜选手中,一直处于第一梯队。

那么,共生矩阵是谁?

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

10个人挑战AGI

共生矩阵,目标立足自研AGI技术,打造行业数据 精炼 工厂。

团队所依托的主要是自研大模型GS-LLM。

模型参数规模 从7B-130B不等 ,能根据用户的实际需求量体裁衣。

在C-Eval上占据一席之地的有基于GS-LLM的两个版本,一个是百亿参数版本的GS-LLM-,另一个是不足百亿规模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是发现不少使用者,原有的运作环境(甚至 云端 环境)不足以支撑大体量的本地部署。

测试结果发现,几十亿版本的GS-LLM-Beta就可以发挥不错的性能,在C-Eval上最好排名达到第6。

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

能够常驻C-Eval榜单前列的原因之一,是共生矩阵 搭建了一套完全独立的训练框架 ,对整个训练构成比较完备的技术支撑。

第二个点在 数据 ,这是这家公司格外重视的一点。

共生矩阵 CEO张林 举了个简单的例子:

去年团队在一个 实验 中发现, 当模型数据达到某一 数量级 时,数据 质量 的跃升反而能引起一些质变

“也就是说,有一个相对小体量(如百亿级别)的模型,喂给它高质量的数据,训练出来的结果和千亿级别的结果是很接近的。” 张林 说。

这个实验也让团队对数据质量、体系化获取高质量数据途径的重视再+1。

其实这点近期越来越引起各界注意, 微软 就有一项新研究《are all you need》,工作表示,做大不是唯一的出路,高质量的数据才是至关重要的。

于是乎,共生团队构建了一套清洗数据的工程化体系,24小时持续清洗数据。

团队目前清洗出的可以用于训练的文本数据,大约有20T,“这个量级能够支撑非常大体系的模型训练”。

不过 张林 也透露,短期 内共生 矩阵不会对外公开团队清洗出的数据。

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

那么,团队想打造的数据精炼工厂又是什么概念?

张林 解释,如果把大模型理解为“ 信息 压缩 ”,那么它本身就是一个体量很大的参数 数据库

数据精炼工厂要做的事,就是将模型训练好后的参数数据进行共享和交易。

要知道,大模型的功能是通过参数来承载的,交易参数其实就是切换功能,我们需要大模型功能的 多样性 ,“参数交易是最高效的路径”。

“原始数据直接进行交易,受到量级大、 隐私 问题等掣肘。” 张林 解释,数据交易的 概念 已经提了很多年了,但并没有完全被 市场 接受,团队认为想要数据真正流通起来,需要更合理、安全、有效,因此最终确定了参数层面的数据交易。

在团队设想中,数据精炼工厂跑通后,部分数据不用重复训练,效率提升, 成本 也可降低。

用更少的人和资源把大模型体系做好

大模型热潮中,如何评价大模型成为重要问题,这也是各类榜单雨后春笋出现的原因。

共生矩阵上榜C-Eval后,外界聚焦来的目光主要有2点:

除了成绩不错外,另一个惹人关注的点是,他们是榜上少见的 小型团队

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

团队表示,榜单并不是全世界唯一最权威,但成立一个月开始上榜,一度杀进前三,能够反映“我们用更少的人和资源把大模型体系做好”。

没错,共生矩阵团队只有不足10人。

人不多,但都挺能打——

CEO 张林 、王军杰等团队中的核心都出自 研究院 ,在国内 封神榜预训练模型 开源 体系工作 中有丰富实战经验(据悉,封神榜目前已有超过98个开源预训练模型)

张林 本人 博士 毕业于 美国纽约州立大学 ,在 计算机 国际顶会上发表过三十多篇 论文 ,此前是 粤港澳大湾区数字经济 研究院(IDEA)资深高级研究员。

王军杰 则是 早稻田大学 的计算机博士,此前是封神榜大模型团队的核心成员。

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

张林

纵观当下的市场,小团队搞好AI并不是没有先例,最负盛名的文生图模型 Midjourney 背后,只有11个成员,被称为新时代组织的标杆。AI 2.0时代,国内外也出现了诸多讲求“小而美”的大模型 创业 团队。

当然, 张林 表示更深层原因,是因为 大模型不是简单堆人力的项目 ,需要少数精英式团队以保证效率。

他表示训练模型时, 技术 层面如 算子优化 、混合 精度 等,以及背后几百张卡同时支持时通信层面的问题,都非常考验工程能力。小团队如果能将遇到的工程性问题解决,提高效率,不必靠大团队解决。

另外,技术核心小团队更有利于保持 思想 独立性,不墨守成规以探索更多可能性,堆人力反而容易降低整体效率。

据他预估,全国大模型领域顶尖的人才“加起来可能也就100人左右”,也没什么组建大团队的 空间

因此,团队将在一定 时间 内保持“不足十人”这个规模。

归根结底,这是对AI 2.0时代与AI 1.0时代背后 范式 和理念的理解不同。

10人俩月搞出大模型!一年16篇顶会论文:市面上做得好的都没开源

交流过程中, 张林 还很直接地表达了团队在另一层面与主流声音的不同理解,它体现在 开闭源理念 上。

前段时间,免费可商用的-2一出,不少人都表示这对市面上的 创业公司 将是巨大打击,因为LLaMA-2可以满足大多数公司对更低成本和个性化的需求。

“LLaMA-2并没有改变市场格局。”共生团队眼中,真正领先的团队并不会开源核心技术。

张林 还补充道在 当前阶段,开源的意义更多在于教育市场,而非推动商业化

像这样带点“非主流”的观点和理解,共生矩阵还有不少。

比如不认为大模型就是通用AI的终点,也不认为ChatGPT代表终极方向

他们对 独角兽 式快速扩张也持谨慎态度,更重视团队凝聚和技术积淀。

对于未来的发展路线,共生矩阵选择短期内先 闭源 ,未来在合适的机遇下可能适当开源。

版权所有,未经授权不得以任何形式转载及使用,违者必究。
声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。