“随着应用场景的复杂化以及需求越来越要求落地,所有的技术,包括大数据、人工智能、数字孪生等等,最终都需要深度融合,才能更好的满足应用场景的实际需求。而与此同时,数据从生产、治理到形成知识的转换过程及应用中也在发生多重‘智变’”,百分点科技 CTO 刘译璟表示,业界已经感受到,大数据与人工智能技术已经有了非常强烈的融合需求。
近日,在由百分点科技举办的数据智能技术实践论坛上,百度视觉技术部主任架构师刘经拓、百分点科技数据开发部负责人马伟凯、复旦大学教授肖仰华和百分点科技首席算法科学家苏海波等专家就这一趋势展开了探讨,他们分别从感知、数据治理、认知各个层面详细解读了数据到知识是如何一步步地发生变化并支持智能应用的。
从数据“治理”到数据“智理”
要从单点算法创新转向全流程、全栈式创新
近年来,伴随数字政府的快速落地,无论是数据的生产环节还是治理环节,都对数据智能技术应用提出了越来越高的需求。
计算机视觉作为在感知层的核心技术,在结合城市感知、工业能源、人机交互、视频生产等业务场景中得到了不断发展。
同时,数字政府项目中还存在众多的文本、语音等形式复杂的非结构化数据,如何基于视觉技术及政府已经有的业务数据进行多模态数据的融合,以及运用智能化技术的实现高效的“智”理,对支撑数字政府智能应用、提升治理水平起着至关重要的作用。
百度视觉技术部主任架构师刘经拓表示,随着行业应用的逐步深入,通过某个单点算法创新就能大大提升应用效果的方式已不复存在,需要用全流程、全栈的方式。
因此,为了实现更好的技术发展和落地效果,百度在技术和产业两个维度上进行了融合创新,提出了计算机视觉领域从预训练、定制化到小型化,以及平台化的一体化的研发方案。
具体来说,首先通过用超大规模非结构性的数据做预训练,能够在同样少量数据的情况下取得更好的效果;定制化是指结合特定场景进行自适应迁移学习,根据场景数据进行有监督定制化调优;小型化主要是基于模型剪枝、蒸馏、量化等技术,对模型进行裁剪。
他表示,大规模有监督数据的技术红利逐渐减弱,AI 新基建需要更低的研发与部署成本,通过预训练与自训练平台,最终还要沉淀成标准化、低成本复制的模型,并与产业进行更深度的融合,挖掘出更多降低人工成本的新应用点。
数据治理的“PAI”实施方法论
百分点科技数据开发部负责人马伟凯在分享中表示,数据治理中的技术挑战除了数据孤岛、数据质量等问题,还存在多模态下如何解决数据不可用、不能用及不好用等挑战。
他介绍,基于多源异构数据源的复杂场景下数字政府数据治理项目,百分点科技提出了一套数据治理“PAI”实施方法论,即流程化(process-oriented)、自动化(automation)、智能化(intelligence)。通过引入机器学习算法、NLP 等数据智能技术,可以更好地开展数据治理工作,建立全域数据标准、提升数据质量、盘活数据资产,从而支撑数据融通,最终释放数据价值指导业务创新。
马伟凯认为,未来数据治理领域会有四大应用趋势:
一是智能化建模和数据加工优化,需要不断地提升建模的能力沉淀到知识库;
二是智能化完善数据安全管理,包括智能化控制数据权限分配、智能化数据审计并制定数据加密脱敏策略;
三是智能化设计并维护数据生命周期管理,由于数据量大有时候不一定是好事,对于很多单位来说可能是负担,因此智能化识别数据、智能化制定数据保留策略非常重要;
四是与 top="2379.6875"> 数据到知识的“知”变与“智”变
复旦大学肖仰华:认知智能将是知识图谱等知识工程技术发展的必然归宿
在实践中,行业客户对知识图谱的应用诉求愈发强烈,核心需求是将行业数据知识化,并通过搜索、推荐、问答,以及用知识辅助进行更加智能的决策。
因此,将结构化和非结构化的数据有效的“智”理起来后,能够进行数据和知识挖掘,提取当中有价值的信息,并以可视化的分析,为政府和企业决策提供支持成为当今亟待解决的问题。
复旦大学肖仰华教授在主题分享中表示,作为大数据知识工程的典型代表,知识图谱技术近年来取得了长足进步,并在一系列实际应用中取得了显著效果。知识图谱之所以备受关注是因为业界普遍认为知识图谱是实现机器认知智能的基础。
但随着应用的深化,知识图谱的落地过程单靠其所代表的知识智能本身这套技术体系和范式已经难以解决很多问题:一是数据获取和治理困难;二是在知识层面,小样本、低资源情况下知识的表示和获取代价仍然非常大;此外,获取知识之后,在应用、服务能力方面也存在很多挑战。
因此,未来破题的关键在于要突破以知识图谱为代表的知识智能的边界,向认知智能这样的智能新形态发展。他认为,认知智能作为数据智能、知识智能融合创新产物,将是知识图谱等知识工程技术发展的必然归宿。
百分点首席算法科学家苏海波: 未来知识图谱一定会深入到各行各业
百分点科技首席算法科学家苏海波认为,近些年,人工智能逐渐从感知智能向认知智能发展,知识图谱则是实现认知智能的关键技术方法,在构建出知识图谱后,可以实现各种智能场景应用。
苏海波以此为背景介绍了百分点科技知识图谱抽取、知识图谱问答等技术的算法原理和实践,以及在多个行业场景中的具体应用。
他强调, 未来知识图谱一定会深入到各行各业,只有掌握通用的人工智能技术,并将技术和业务需求对应起来,才能真正发挥出知识图谱的价值,解决行业问题。
目前,半自动化结合人工是业内构建知识图谱所采用的主流方式。苏海波对 InfoQ 表示,从长远来看,完全靠机器自动化,一点都不投入人工,目前不现实,也不可能存在。“现在有很多知识图谱构建工程化的工具,在解决如何高效地抽取实体关系,如何做出映射、如何融合,以及如何通过预训练模型减少需要标注数据的数量等问题方面,只能说随着技术的发展和工具的发展,人工的工作量会逐渐降低,人工的效率会越来越高。但到什么时候,采用机器构建的比例比人工构建更多,我觉得现在还不好衡量,这是一个逐渐发展的过程”。
刘译璟认为,“人在闭环”是认知智能行业落地的必由之路,即在知识图谱构建和应用的过程中,人必须参与。必须要有人在,这是一个责任问题。机器适合做数据密集型和经验密集型的工作。而人适合做价值判断型或情感密集型的工作。“我们任何一个在现实中有意义的业务,它的价值一定来自于人。如果没有人的话,这个东西是没有价值的,所以不可能离开人”。
苏海波表示,当前,已经进入到一个从数据到知识的“智变”时代,随着大数据、知识图谱、NLP 等数据智能技术的进一步成熟,数据中的价值将不断被挖掘利用,帮助人们做出合理决策。
认知智能落地的新范式
人工智能从感知智能向认知智能发展的趋势日益明显。从感知智能到认知智能怎么跨越,认知智能如何应用,怎样更好的落地....都是需要解决的问题。
刘译璟表示,早在 2016 年,百分点科技就开始打造从感知、认知、决策到行动的端到端的智能决策闭环,如今经过了 5 年的探索和实践,在一些行业,整个闭环已经运行起来了。
例如在应急管理行业,百分点科技已经验证了一种认知智能行业落地的新范式。
刘译璟将这种范式称之为“符号主义引导下的多方法融合技术”。它不是纯粹的用深度学习,采集大量的数据训练模型,而是先构建出某一领域里业务的本体框架,而后再结合深度学习算法和样例数据细化知识图谱的本体和事实数据,并根据知识图谱应用中的反馈信息不断调整和优化。
“AI 如何在行业中落地,目前业界还没有探索出一条特别靠谱的路径,我们觉得自己找到了这条路径:基于符号主义引导,先定义一个行业框架;再融合连接主义和行为主义,在应用中不断完善行业知识”,刘译璟进一步解释说,由于“AI 的三大流派 —符号主义、连接主义、行为主义,用这三种方法去实现通用 AI,能组合出 25 种方法。而百分点团队发现,基于符号主义做引导,再结合连接主义和行为主义的方法,是比较好的能在行业里落地,且能够真正产生应用价值的方案。”
目前,这一新范式正在推广过程中,百分点科技希望复制到更多行业,实现规模化应用。
AI 行业发展应该克服浮躁心态
在接受 InfoQ 等少数媒体采访时,刘译璟对 AI 这几年的发展,尤其针对一些乱象发表了自己的看法。
“我总体觉得 AI 产业略显浮躁,大家似乎总想着去造新概念、捧新概念,而很少关注这些概念(技术)已经用到什么程度了,应该如何把物质生产力提高上来。很多新概念被过分炒作后,最后就变成了泡沫”。
“正儿八经地把它用起来才是第一位的”,刘译璟认为,凭空炒概念没有意义,如何把这些技术真正应用到实际的场景里,真正产生价值,才是最重要的事。
从另一个角度看,这种现象也说明,这几年,AI 技术在理论上少有大的突破。深度学习理论早在 80 年代就有了,发展至今并没有本质的改变,不过是数据多了,算力强了,更容易为人们所应用了。
刘译璟觉得,通用人工智能的突破,需要在理论、技术和数据三方面展开。理论方面,脑科学、可解释 AI、大模型小数据方法、量子机器学习等研究内容,会是未来的探索重点;技术方面,三大流派的技术融合和应用会是 5 年内的热点。长期来看,AI 能力的提升需要量子计算的应用,量子机器学习算法和量子搜索算法将是算力的新增长点;数据方面,ImageNet 数据集曾加速了整个 CV 的发展速度,未来类似的数据集会越来越多,尤其是常识类的知识会越来越标准和易得,这一定能推动通用人工智能的发展。