数据量决定了特定领域自然语言处理最终效果 明略技术合伙人徐安华 (数据量越大,其中包含的信息量就越多)

数据量决定了特定领域自然语言处理最终效果 明略技术合伙人徐安华 (数据量越大,其中包含的信息量就越多)

自然语言处理及文本挖掘技术的应用正变得更加广泛,尤其是在一些公共服务以及企业级应用方面的作用更加突出,比如执法机构需要用到的犯罪嫌疑分析,或者是企业决策用到的商业智能分析,以及普通人日常都需要用到的智能搜索功能等等,这些看似简单的应用背后,实际所需要的技术是比较复杂而专业的,因此为了更加深入地了解关于自然语言处理及文本挖掘技术发展情况相关的话题,InfoQ 专门采访了明略数据技术合伙人、SCOPA 产品搜索及自然语言处理组技术经理徐安华。

:在进行自然语言处理的过程当中,会用到哪些工具?而这些工具又各自有什么样的特点?

:能否谈谈自然语言处理及文本挖掘在技术层面上的难点有哪些吗?而对于企业级用户来说,又该怎样做才能克服这些困难?

:国内目前在自然语言处理以及文本挖掘技术方面的发展情况怎么样?目前是否面临着一些普遍存在但是又应该去解决的问题呢?

:对于明略数据目前的业务来说,哪些领域或行业的用户在自然语言处理以及文本挖掘方面的需求比较大,他们的业务有什么样的特点?

:那么比较成功的案例是否也是在公安部门的应用当中?是否可以介绍一个比较成功的自然语言处理技术应用案例?

:今年在自然语言处理以及文本挖掘技术方面可能会出现哪些新趋势?


关于受访者

徐安华 现为明略数据技术合伙人、SCOPA 产品搜索及自然语言处理组技术经理。2004 级北大计算机本科,2008 级北大计算机系统结构方向硕士,曾经在 Intel、爱奇艺工作 4 年时间,Linux kernel 代码贡献者,显卡虚拟化项目 XenGT 早期主要开发人员,拥有多篇专利。2014 年底加入明略数据,致力于在 Hive、Impala、SparkSQL 上实现行列级别权限,目前专注于自然语言处理与文本挖掘。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。