DeeCamp 2021冠军用“垃圾DNA”预测癌症,李开复:医疗是AI的下一个突破点
博雯 来源: 量子位5位在校生2个月完成
5位学生2个月做出来的AI项目,能走到哪一步?
不仅能通过目标基因查询对应药物,还能查询癌症相关药物的具体基因,包括靶向的基因和通路:
像这样的项目还不止一个:
寓教于乐的教育桌游、提取金融文档事件的系统、营销号短文生成器,甚至还有AI陪你一起拼乐高……
这就是今年画风及其丰富多变的AI训练营——DeeCamp。
两个月时间,这群海内外名校的学生们五六人一组,迅速做出了各种算法、软件、解决方案、有趣的玩法……
甚至连商业化路线都做出了规划。
也就难怪大赛评委,创新工场董事长兼CEO李开复博士在点评获奖作品时表示:
非编码区基因预测疾病
冠军团队的项目是基因检测及诊断。
具体来说,是通过 全基因组序列 分析,结合启动子,转录因子结合位点等基因调控元件对疾病进行预测。
“全基因组”是什么意思呢?
众所周知,基因是用来编码蛋白质的。
而在人类基因组中,98%的部分都是 非编码序列 ,并不直接参与蛋白质的合成。
因此,这98%的非编码区一度被认为是冗余或无用的。
不过随着全基因组测序等项目的开展,人们也逐渐意识到,这98%的非编码区同样对基因表达有着重要的 调控 作用。
GeneBERT就希望通过学习多种非编码调控区域之间的交互作用,更好地理解疾病的成因,也为新药研发提供更多潜在的靶点。
首先,团队成员采用了一种 多模态 预训练方案,利用各类模态相关信息来训练向量。
这里的多模态,一个是标记(token)序列,另一个则是多种调控元件在DNA上的结合位置。
训练则在包含了人类胚胎大脑的开放染色质数据的数据集上完成:
然后就可以扩展到各种下游任务上。
一个成功的案例就是对复杂的多基因影响遗传病:先天性巨结肠病的预测。
在使用了疾病相关的RET基因的非编码区片段的内部数据做预训练后,模型成功预测了该疾病的患病风险。
目前团队已经初步建成了基因检测到个性化诊疗方案设计的一体化服务平台,对于下一步的方向,他们还表示:
清华大学讲席教授、智能产业研究院院长张亚勤教授对GeneBERT则评价道:
医疗、教育、金融、还有拼乐高
除了冠军团队之外,其他几条赛道的获胜项目也非常显眼。
来自南京大学的Free Lunch团队获得了“人工智能驱动的商业场景”赛道冠军。
他们的 金融文档事件提取系统 能够从海量篇章级金融文本中抽取事件以及相关实体信息:
团队也用抽取得到的结构化金融信息搭建了一个项目平台,提供金融文档分析、金融日历、热点推荐等功能。
而由清华大学、澳科大、西农科大和美国哥伦比亚大学同学组成的Edutainment Club团队获得了“人工智能的创新与创意”赛道的冠军。
他们研发的“Click”是一款 结合推荐系统的教育桌游 :
这一游戏将矢量棋盘的图形化游戏设计与AI生成的STEM题库融合,枯燥的加减运算题也就变为了管道联通的游戏场景。
“语言与知识的智能创新”赛道的冠军则是来自同济大学和美国波士顿大学的团队。
他们研发了能够根据 产品关键词生成营销文案 的“AI荐”系统,根据用户上传的产品图片或特征,为不同风格的受众提供各有侧重的营销文案:
而同样走到了最终决赛的 ICU智能诊疗一体化 项目,能够在点击关键词时,自动生成影像报告及可视化解释:
还有可以进行 AR辅助积木拼装 的BrickPal,能够根据NLP技术自动生成积木拼装顺序,并通过AR达到一种沉浸式的积木拼装:
DeeCamp人工智能训练营
DeeCamp是一个由创新工场发起的AI训练营。
这是一项面向全球大学生,专注培养应用型AI人才的公益项目,自2017年发起开始,已经举办了五届。
而刚刚结束的DeeCamp 2021,则由创新工场和清华大学智能产业研究院(AIR)联合主办。
整场比赛共有来自全球200名顶尖高校的学生共组成了39支队伍,向语言、医疗、创新、商业4大赛道的13个赛题发起挑战,最终有6支队进入总决赛。
在8月17日的总冠军答辩&结营典礼上,6支队伍里的GeneBERT团队获得了总冠军和10万元大奖:
而四位分赛道冠军则分别获得了3万元奖金。
对于2021年的这一批学员,李开复博士表示:
最后,他也鼓励同学们去寻找好的商业落地的伙伴,用AI搭配行业专家的方式,用技术解决技术带来的挑战,给社会带来正能量,从而造福更多的人类。
DeeCamp官网:
参考链接:[1]
版权所有,未经授权不得以任何形式转载及使用,违者必究。