2020 年是一个不平凡的年份。尽管全球遭遇新冠疫情,但是人工智能技术发展和学术研究依旧稳步向前、技术与产业融合也进一步扩大和深入。最新数据显示,2020 年全球人工智能产业规模达 1565 亿美元,增长率 12%,中国人工智能产业规模大约 3100 亿元人民币,同比增长 15%。
11 月 13 日,国家工业信息安全发展研究中心、工信部电子知识产权中心共同发布了《2020 人工智能中国专利技术分析报告》。报告显示,截止 2020 年 10 月,中国人工智能专利申请仍共计达到 69.4 万件,同比增长 56.3 %。新冠疫情加速和促进了 AI 与实际应用的结合、落地以及商业化,特别是在医疗、城市治理、工业、非接触服务、自动驾驶等领域的快速响应。
疫情加速 AI 技术落地
疫情初期,病毒传播速度是十分惊人的,近距离飞沫传播、接触传播、气溶胶传播严重影响了人们日常生活,在出行和采买都受限的情况下,传统线下零售和运输行业压力倍增。面对这些人类无法解决的难题,人工智能、大数据、5G、无人机等技术在抗击新冠肺炎疫情中发挥了不可替代的作用,也让各地政府和企业界看到了人工智能技术的实用性和优越性。
2 月 4 日,工信部向人工智能相关学(协)会、联盟、企事业单位发出倡议,各主体应充分发挥人工智能赋能效用,协力抗击新型冠状病毒感染的肺炎疫情。计算机视觉、NLP、无人驾驶等技术大显身手,这些原本无人问津的人工智能技术,在这场疫情中担起了“主角”,各企业也纷纷加大了对 AI 技术的研发投入,据《2020 人工智能中国专利技术分析报告》中的数据显示,截至 2020 年 10 月,我国创新主体在疫情防控相关人工智能技术方面申请专利达 3036 件,分布于疫情监测、防控救治、资源调配等领域。
AI 技术不像汽车、制造业等实体可以独立存在,它要和某个行业或某些产品做结合。疫情爆发之前 AI 都是在积极主动地区拥抱传统行业,比如 AI+ 金融、AI+ 医疗、AI+ 教育等,而在疫情爆发后,有更多的传统行业主动地去寻求 AI 解决方案,希望通过先进的 AI 技术来弥人工能力的短板。
也正是因为此次疫情,才让人们发现自身其实很弱小,很多无能为力的事情可以靠机器人完成。同时这些 AI 技术在人们的高期待之下,也交出了一份令人满意的答卷,获得了难得的用户信任。这份信任就是 AI 产品和技术更加普及的基础。
认知 AI 还未实现,我们仍旧在路上
如今,随着相关理论和技术的不断革新,AI 在数据、算力和算法“三要素”的支撑下越来越多地走进我们的日常生活。
但是,这一系列惊喜的背后,却是大多数 AI 在语言理解、视觉场景理解、决策分析等方面的举步维艰:这些技术依然主要集中在感知层面,即用 AI 模拟人类的听觉、视觉等感知能力,却无法解决推理、规划、联想、创作等复杂的认知智能化任务。
当前的 AI 缺少信息进入“大脑”后的加工、理解和思考等,做的只是相对简单的比对和识别,仅仅停留在“感知”阶段,而非“认知”,以感知智能技术为主的 AI 还与人类智能相差甚远。
究其原因在于,AI 正面临着制约其向前发展的瓶颈问题:大规模常识知识库与基于认知的逻辑推理。而基于知识图谱、认知推理、逻辑表达的认知图谱,则被越来越多的国内外学者和产业领袖认为是“目前可以突破这一技术瓶颈的可行解决方案之一”。
清华大学计算机系教授、系副主任,智谱·AI 首席科学家唐杰教授表示,当前认知 AI 还没有实现,我们急需做的是一些基础性的东西(AI 的基础设施),比如知识图谱的构建、知识图谱的一些认知逻辑,包括认知的基础设施等。
从 1950 年开始创建人工智能系统,到 1970 年开始深入的让计算机去模仿人脑,再到 1990 年计算机学家意识到计算机是 “参考” 人脑而不是完全的 “模仿”。现在我们更是处于一个计算机的变革时代,我们应该用更多的计算机思维来做计算机的思考,而不是人的思考。现在人们需要思考的是:如何以计算机的方式做认知?唐杰教授谈到,可以结合两种方法去实现。
第一个从大数据的角度上做数据驱动,把所有的数据进行建模,并且学习数据之间的关联关系,学习数据的记忆模型;第二个是要用知识渠道,构建知识图谱。
不过,只这两个方面还是远远不够的。唐杰教授指出:真正的通用人工智能,我们希望它有持续学习的能力,能够从已有的事实、从反馈中学习到新的东西,能够完成一些更加复杂的任务。
唐杰教授从人的认知和意识中抽象出来了 9 个认知 AI 的准则:
1. 适应与学习能力
2. 定义与语境化能力
3. 自我系统的准入能力
4. 优先级与访问控制能力
5. 召集与控制能力
6. 决策与执行能力
7. 错误探测与编辑能力
8. 反思与自我监控能力
9. 条理与灵活性之间的能力
在这 9 个准则的基础上,提出了一个全新的认知图谱的概念,包括三个核心:
1. 常识图谱。 比如说高精度知识图谱的构建,领域制度的应用系统,超大规模城市知识图谱的构建,还有基于知识图谱的搜索和推荐等。
2. 逻辑生成。 与计算模型相关,需要超大规模的预训练模型,并且能够自动进行内容生成。
3. 认知推理。 即让计算机有逻辑推理和思维能力,像人一样思考。
唐杰教授表示,知识图谱+深度学习+认知心理,打造知识和认知推理双轮驱动的框架,将是接下来一个重要的研究方向。
项目关键技术通过成果转化孵化了北京智谱华章科技有限公司(简称智谱·AI),形成多个核心产品,在阿里巴巴、搜狗、华为、腾讯、点通、工程院等 30 余家企事业单位部署了超过 100 余套智能型云服务系统,应用前景极其广阔。智谱·AI 作为知识图谱产业链的参与者,助力人工智能赋能实体产业,促进我国新基建发展。
我国 AI 技术发展迅速,但与欧美国家差距显著
放眼国际,同样受到疫情影响,企业正在将 AI 作为创造价值的工具。据麦肯锡(McKinsey)今年发布的人工智能全球调查结果表明,AI 为企业带来比以往更多的收入。来自不同行业的一小部分受访者将其组织的息税前利润(EBIT)的 20%甚至更多归功于 AI。这些公司计划在人工智能领域投入更多资金,以应对新冠疫情,并加速其数字化进程。
人工智能是重塑传统行业模式、引领未来的前沿性和战略性技术,全球主要经济体都对人工智能的发展非常重视,并从顶层上进行了战略布局。美国、欧盟、英国、德国、日本、法国等密集在 2017-2019 年发布人工智能战略计划,成立专门机构统筹推进人工智能战略实施,实施重大科技研发项目,鼓励成立相关基金,引导私营企业资金资源投入。
尽管 2020 这一年间我国在人工智能领域取得了卓越的成就,但就当前人工智能的全球发展格局而言,目前是处于一超多强的格局,美国主导领域最前沿进展,各国也都有各自的优势领域。
从全球人工智能国家战略规划发布态势来看,北美、东亚、西欧地区是人工智能最为活跃、最有竞争力的地区。美国等发达国家具备人工智能基础理论、技术积累、人才储备、产业基础方面先发优势,同时美国的战略目标也是维持其在全球人工智能领导者地位与全球领先优势。
美国的优势领域是:机器人、脑科学、自动驾驶、通用人工智能理论和技术等前沿领域;德国、英国、法国等发达国家在自动驾驶、机器人等领域有竞争力;日本、韩国等国在机器人、汽车、半导体等领域具有产业优势。欧盟、英国等还重视智能能源技术领域的研究。日本在脑信息通信技术领域也较为优先。
中国和欧洲处于一个相似的地位,有着并不输美国的青年研究者基数,但是由于计算资源不足无法展开高质量的研究。日韩等前几年有所落后,目前正迅速跟进。印度、巴西等一些其他国家只是偶尔可以见到不错的研究。
值得注意的是,在深度学习刚刚在计算机视觉兴起的阶段(2015 前后), 中国曾一度居于微弱领先位置 。 然而随着我国公司计算资源不足、顶尖人才(如何恺明)迅速被美国挖走、各公司白热化的市场竞争无力再大力投入研究等原因,未能在现在保持优势,且中美差距在进一步扩大。
目前我国人工智能与欧美国家仍然存在突出的技术差距,图灵奖得主深度学习三巨头均就职于美国、加拿大,这是一个值得引起重视起来的问题 。近些年一些突破性的创新成果(例如 BERT,GCN,GAN,GPT-1/2/3)等也大多出自国外科研机构。在资源密集的前沿方向有着明显的差距,对于最近兴起的大规模预训练,中国几乎没有任何机构有着复现的能力(主要是计算资源制约,包括资金和显卡),更谈不上创新。在落地应用上,中国基本已经达到世界前沿,略微领先其余国家,但是应用方面本身技术壁垒不明显。 在纯理论领域,一直以来就跟欧美有所差距,国内开展较少 。
从基础研究来看,美国在处理器/芯片、机器学习应用、自然语言处理、智能无人机四大热点领域强势压制中国。在科研产出方面也具有明显的优势,在几乎所有子领域的论文产出量均居于全球首位。中国的 AI 科研产出水平在自然语言处理、芯片技术、机器学习、信息检索与挖掘等 10 多个子领域虽然都紧随美国之后,但是落后差距明显;而在人机交互、知识工程、机器人等领域,中国还未能进入全球前三名,还需努力追赶。 不过,近年来中国在人工智能领域的论文和专利数量保持高速增长,已进入第一梯队 。在新基建政策的激励下,2020 年我国人工智能技术专利申请数量不断刷新。截至 2019 年底,中国人工智能技术专利申请总量首次超过美国,成为全球申请数量最多的国家。
AI 产业的竞争,本质上是人才和技术的竞争。除了政策支持,AI 发展是需要大数据、算法和算力三大要素的共同驱动。中国凭借庞大的人口规模和监控基础设施,在数据方面优势明显,为中国人工智能产业的发展提供了巨大的源动力。这是美国等西方国家无法比拟的。
我国 AI 发展的优势在于技术层和应用层 ,尤其是终端产品多且丰富,优势领域包括:计算机视觉、语言识别、计算机图形、多媒体等,例如人脸识别方面的领先企业有旷视科技、商汤科技和云从科技等; 中国的短板在基础层 ,中国 AI 发展的底层技术和基础理论缺乏突破性、标志性的研究成果,在高层次人才储备、高质量专利申请上也存在明显的短板。但是,中国在论文产出和影响力、研发投入、资本投入方面有发展潜力。
据 AI 2000 数据显示,入榜的美国 AI 高层次学者的数量最多,有 1244 人次,占比 62.2%,超过总人数的一半以上,且是第二位国家中国数量(196 人次)的 6 倍以上。另据 AMiner《智慧人才发展报告 2020》数据还显示,在 AI 领域论文发表量 TOP10 的国家之中,美国、中国和德国的论文产出量分别位前三名。 虽然中国仅次于美国,但是美国的高水平论文发表量(69764)是中国(25418)的 2.74 倍, 两国差距明显。
从 AI 人才分布看,美国 AI 人才全面开花,而中国 AI 人才主要集中在应用层,基础层和技术层人才不足。据 AMiner《智慧人才发展报告 2020》对全球人工智能人才分布的统计,显示至 2019 年底,全球人工智能人才库(领域顶会顶刊的论文作者)有 155408 位, 其中,美国(49116)高水平论文作者数量是中国(17368)的 2.83 倍。
“校企联合”可推动 AI 产业现状升级
目前,我国人工智能领域的人才培养规模应该来说远超世界其他国家地区,但是质量较低,甚至出现了由于竞争激烈,庞大的规模影响了高质量人才得到的培养资源的情况 。应该意识到,大部分情况下“人才”越多越好,但是也需要有足够的资源将人培养成“人才”,另外过于激烈的竞争环境会逼所有研究者(主要是研究生和青年教师)走“捷径”,注重短平快的应用领域的小问题而放弃需要下苦功夫的好研究。
此外,也需要谨慎思考的是,由于国内外高校 AI 学科建设都处于初步阶段,仅有三年左右时间,AI 专业招生工作都处于初级阶段,学位授予基本都涵盖本科、硕士和博士。 因此,唐杰教授建议,国内高校多注重高层次科研人才培养,增加储备数量。
对于高校而言,对于前沿知识的深度讲解确实匮乏,主要原因是对前沿熟悉的老师本来就不多,通常也忙于研究和其他重要的事情,教学上实在精力有限。跨学科背景的学生还是很多的,但是大部分实验室都缺乏相关项目和背景,缺乏相关的带头人。课程设置上,清华覆盖地还算全面,从人工智能基础到深度学习到研究生的高级机器学习和统计机器学习已经更确切领域的自然语言处理和计算机视觉等,都有相关方向的老师教学。而其他高校在 AI 领域人才培养方面能做的还有很多。
我国高校的人工智能领域人才培养主要挑战及迫切需要创新的方面,如招生、培养、评价等方面。 招生应注重区分应用(硕士)还是研究(博士),鼓励博士从事高风险研究性质的工作,放低硬性毕业标准,破除唯论文论。但同时只有增加博士学位本身的含金量和稀有度,才能鼓励博士生从事可能失败的高风险研究,但目前看来这个无法做到。另外,企业通常缺乏对于论文内容的辨别能力,通常依靠论文数量和发表刊物招聘,也加剧了“水文”的浪潮。对于人才应该主要评价其“代表作”的内容和意义,弱化数量、引用、发表期刊等简单的指标。
中国 AI 领域高层次人才培养从 2018 年起开始重点发展,主要由高校通过成立 AI 学院研究院、设立 AI 专业的方式进行培养。
根据 2020 年 2 月教育部颁布《关于公布 2019 年度普通高等学校本科专业备案和审批结果的通知》数据结果显示,人工智能方面,全国范围内 2019 年获得人工智能专业首批建设资格的共有 180 所,比 2018 年增加 414%。截至目前,国内共有 215 所高校成立“人工智能”本科专业。这些高校之中,有 60 所双一流大学(占比 28%),其他 155 所为普通本科院校。
目前人工智能专业人才培养模式主要有两种形式:一是“人工智能+X”培养模式,结合学科交叉发展特点,侧重培养复合型人才。相比国外丰富的 AI 学习课程涵盖数学、统计、计算机科学、人工智能、道德、AI 细分方向、人类学和艺术等理学、工程、社会科学、艺术等多个门类,国内的 AI 课程较多地沿用了现有工科课程,并且多数还没形成完整的课程体系。
二是“校企合作协同育人”培养模式,产学研协同培养已成为当前 AI 人才培养的重要途径。一些行业龙头企业与高校共建人工智能学院,代表企业有科大讯飞、腾讯科技、百度、旷视科技等。例如,科大讯飞先后在西南政法大学、重庆邮电大学、南宁学院、安徽信息工程学院、江西应用科技学院、重庆科创职业技术学院创建人工智能学院。此外,有的企业还参与到院校人才培养的整个过程中。例如,百度与东软教育科技集团合作,与大连东软信息学院、成都东软学院、广东东软学院等应用型本科高校和高职院校合作共建“东软百度人工智能学院”。
未来,随着 AI 技术不断渗透到生活的各个方面,该领域对人才的需求也会面临着巨大的“缺口”,而人才的短缺反过来又会阻碍 AI 的进步。想要解决这一难题,唐杰教授认为,“校企联合”可以有效改善我国 AI 产业的现状,推动 AI 技术更好、更快的发展。
嘉宾介绍:
唐杰,清华大学计算机系教授、系副主任,获杰青、IEEE Fellow。研究人工智能、认知图谱、数据挖掘、社交网络和机器学习。发表论文 300 余篇,引用 16000 余次,获 ACM SIGKDD Test-of-Time Award(十年最佳论文)。主持研发了研究者社会网络挖掘系统 AMiner,吸引全球 220 个国家/地区 2000 多万用户。担任 IEEE T. on Big>
参考链接: