夸克是阿里巴巴旗下智能搜索 APP。聚焦智能化信息服务,夸克以智能、高效的搜索体验和创新的功能场景,打造智能化内容+服务的分发平台,目前已服务千万级用户。技术研发层面,夸克算法技术团队持续升级智能问答体系,面向未来探索下一代智能搜索。
欢迎有志于智能搜索的算法同学加盟夸克,可联系:erchao.zec@alibaba-inc.com
背景
问答系统(Question Answer System, QA)是信息检索的一种高级形式,对用户提出的问题,能直接返回准确、精炼、完整的答案满足用户需求。近年来,随着人工智能技术的飞速发展,问答系统已经成为倍受关注的研究方向。夸克智能问答结合了近两年前沿的预训练模型和深度语义匹配技术,为用户提供专业、精准的通用问答服务,本文重点介绍构建该系统时的一些实践经验,希望对问答系统建设者有一定的借鉴意义。
整体架构
夸克智能问答系统利用知识库、专家问答数据、UGC 问答数据、自然网页等多种不同来源、不同质量的数据,使用机器阅读理解技术、问题重述等自然语言生成技术、基础相关性特征等多种基础技术能力,建立了问题意图识别、语义检索、答案抽取、答案校验融合等算法模块,最终通过知识问答、精选问答、智能摘要等多种形式为用户提供更专业、精准的通用问答服务。
问答模块
针对不同的数据源特点和用户多样的检索需求,夸克智能问答系统设计了知识问答、精选问答、智能摘要等多个问答模块,结合信息抽取、深度语义匹配、答案抽取等诸多算法,将优质的答案以更好的形式直达给用户。
知识问答
知识问答是基于结构化知识的问答模块。理解用户的需求、实现真正的语义理解需要知识,从下图例子可以看到,如果没有知识库的数据支撑,很容易误抽取出错误的答案“张牧之”或者“张麻子”,相反如果结合知识库数据,不难得到正确答案“姜文”。
知识的获取是构建知识问答模块不可或缺的环节,夸克探索了一种半自动化、自底向上的大规模知识库构建方式,大大降低了知识库的构建成本,整体知识库构建流程如下图所示:
有了通用领域的大规模知识库,知识问答系统通过 Query 结构化、知识查询、知识推理等技术从海量知识数据中获取专业的知识作为答案,精准满足用户需求。例如用户在搜索框里搜索“朱棣皇位传给谁”、“词人李清照南宋还是北宋的”,返回如下图所示的结果:
精选问答
精选问答是基于专家问答数据库的模块。为了给用户提供更多权威、专业的优质的内容,结合用户兴趣点分析,我们和行业专家、优质自媒体等内容生产方定向生产、建设了大批优质、权威的专家问答数据库,包含文字、图片、视频、音频等多源富媒体形式,覆盖医疗、健康、法律、美食、生活指南等多个行业。基于以上大规模的高质量<Question, Answer> Pair,线上通过 Query&Question 的深度语义匹配技术从候选问答 Pair 中获取优质的内容作为答案直接返回给用户,为用户提供精选答案体验。
智能摘要
智能摘要是从自然结果中在线获取用户所需答案的模块。知识问答、精选问答只能覆盖中高频的查询,无法应对大量长尾问答需求,而全网搜索结果中存在大量适合作为答案的优质网页数据,智能摘要模块结合了意图分析、网页质量判别、深度语义匹配、机器阅读理解等多种技术,在线、实时地从检索的 Top 网页中抽取出适合作为答案的文本内容返回给用户。结合开放域、多粒度的答案抽取能力,系统拥有了短答案前置、观点判断、智能飘红等丰富展现样式,进一步提升用户体验。
总结及展望
夸克智能问答系统目前已经在为夸克搜索、UC 浏览器、天猫精灵等海量用户提供专业、精准的通用问答服务。展望未来,我们期待技术驱动业务,为用户提供更大的价值,并持续在以下技术方向发力:
招募令
夸克广招算法技术大咖,主要负责自然语言理解方向前沿技术的研究探索,为阿里巴巴集团旗下夸克、阿里健康、移动搜索、天猫精灵等多个业务提供文本语义理解相关的核心技术支持,主要方向包含:
欢迎投递简历至:erchao.zec@alibaba-inc.com