流利说硅谷AI 语言学习产品如何在技术上保持优势 Lab负责人刘扬 (流利说digital intelligence)

流利说硅谷AI 语言学习产品如何在技术上保持优势 Lab负责人刘扬 (流利说digital intelligence)

大家好,我是 Alex,是 BoomingStar Ventures 的管理合伙人,也是 Robin.ly 的创始人。Robin.ly 是一个视频内容平台,主要目的是为了提高工程师和研究人员对于 AI,创业以及 leadership 方面的理解。我们邀请了很多 AI 方面的科学家,知名创业者,投资人,以及一些业内 leader,来分享他们在这些领域的心得。今天的嘉宾是流利说硅谷 AI Lab 的负责人,刘扬教授,她将分享在自然语言处理以及 conversational AI 方面的体会。 刘教授在 AI 和自然语言处理领域有超过 20 年的经验,获清华大学本科和硕士学位,后又就读于普渡大学并取得博士学位,并在 2011 年获得了 UT Dallas 的终身教授职位。她曾获得 NSF Career Award 以及 Air Force Young Investigator Award 等荣誉,并任 Google Visiting Scientist 及 Facebook Research Scientist 等职位。2017 年,刘教授加入了流利说,担任 AI Lab 负责人——流利说在 2018 年 9 月底成功在纽交所上市。刘教授在普渡读 PhD 时候的论文是关于语音识别, speech recognition,后在 ICSI 以及 UT Dallas 都选择了自然语言处理方向,考虑到当时深度学习和 AI 并非热门领域,能否介绍下您选择这个方向的初衷?

刘扬: 其实我对这个领域的关注,不是从读博士时候开始而是在清华读本科的时候就开始了。1996 年在做本科毕业论文时的主题就是中文的自动分词。中文是一个一个的字,并没有词的这个概念。但是无论做语音识别还是自然语言理解,都需要以词作单位,所以当时本科毕业论文做的就是中文自动分词。当时用的最简单的方法就是从左到右,找一个在字典中可以匹配出来的最长的词,或者再加一些统计模型,用一些 HMM/隐藏马尔可夫模型,或其他的一些办法来完成。当时主要是为了语音识别,因为语音识别需要 language model。从 1996 年开始,到现在我已经做了 20 年了。当时在中国从本科一直读到研究生,选择的余地有限。比如,考上清华,在电子系,我们班就是做信息这方面的科学研究,跟模式识别和 AI 的关系很紧密。当时我所在的组的实验室主要也是做语音识别。所以从本科毕业论文开始,做分词也好,做语音识别也好,以后就很自然的继续做下去。那时候不像现在的本科生,exposed 的东西特别多,想想自己对什么东西有兴趣。我们那时候往往是被老师带上了这么一个项目,后来也确实觉得是挺有兴趣,就坚持下来了。

坚持下来的原因是觉得课题本身有意思?

刘扬: 是的。因为人的语言每天都在用,有很多有趣的现象。举两个例子,比如像我们现在常常用的叫 code switching,就是中文和英文夹在一块儿,现在很多双语者都有这个问题,无论做语音识别还是做自然语言理解时都需要处理的一个问题。 平常因为在语言中有挺多类似的有趣现象,做这个研究课题就觉得有很多事情可以做。再举个例子,我的博士论文是做 conversational speech,spontaneous speech,人们常常说了一个词,又回去再改一个词,或者再重复一个词,这是一种挺常见的现象,或者有不连贯的这种语句,在语音识别中也是一个挺大的问题,我的 博士论文就研究这个问题。后来也做过处理小孩子的语言现象,或者是有各种语言问题的语言现象,非常有趣。虽然当时这并不是一个热门方向,但无心插柳,这么多年坚持下来,这个领域在过去几年成为了很流行的话题,应该说我的选择不是特别错误:至少见到自己做的东西,或者落地,或者研究领域,都有一个很大的成就。

您是什么时候开始接触深度学习并且把深度学习应用到 NLP 上面的?

刘扬: 我对深度学习的接触历程跟整个领域发展阶段大致重合。从 2010,2011 年开始,Microsoft 或者 Geoffrey Hinton 这些人开始涉猎这一领域。在语音识别中,MSR 的语音识别是一个方向。另外还有 computer vision 那边也见到了很大的一个成就,那时候我还在学校,有点跟着潮流,看到在其他领域都有挺大的发展,就慢慢地把很多原来用传统 machine learning 做的事情换成用深度学习,神经网络来做。当时学校里有一个有趣的现象,学生们因为顺着这个研究的潮流,把原来的东西拿过来用深度学习再做一遍。毕业论文答辩的时候,其他的答辩组成员最常问的问题就是:用这个方法做,在科学方面有什么样的贡献,有什么样的发现,仅仅是因为神经网络流行所以跟风,还是确实解决了一个实实在在的问题?所以当时很多学生都面临这样一个问题,既想从研究方面确实对这个问题有深入的理解,但又想跟上整个大的学术界或者工业界所有人的脚步,想赶上这班车。

深度学习很多是 drawbox 的方法,很难去追究它的成本?

刘扬: 对,或者说对这个问题的理解。大家现在都强调这个模型的 interpretability,你到底有什么样的解释。即使是 Google,比如说 search 这个问题,要不要用深度学习最后去做这个 ranking?系统有时候需要解释,一个 query 处理得好或者处理得不好,要如何去修改。

Alex:2015 年,您从学校去 Google 做了 visiting scientist,当时是出于什么样的考虑?想去看一下工业界在发生什么吗?后来您又去了 Facebook,以及现在的流利说,您的心路历程是什么?工业界和学术界有什么区别?

刘扬: 现在回头看,好像从学术界到工业界挺自然,很多教授可能也都是走这么一条路。但当时对我来说主要是一个个人的原因。好多认识我的人都知道,我先生早先在硅谷工作,当时思考这个问题怎么解决。 最后决定利用 sabbatical leave 的机会,到硅谷这边的工业界试试水,所以去 Google 是挺自然的一个选择。选择 Google 的原因是,他们对学校 sabbatical leave 有一个非常成熟的 process 的系统,所以可以正常申请,到 Google 找一个 researcher 一块儿合作一个 project。像 Apple,Facebook 之类的公司,这方面和 Google 比起来的话,sabbatical leave 流程还不是特别成熟 。

您当时主要研究的课题是什么?

刘扬: 当时做的还是 NLP。最开始是想做跟 information extraction 比较像的方向,怎么检测文章中发生的事情,有哪些重要的人。去了之后有一些变化,也做了一些跟别的方面的理解相关的内容,但大部分依然用深度学习解决 NLP 的问题。工业界的 research,一方面跟学术界有些像,确实要找一些 research 的问题,用先进一点的方法去尝试,即使他们在基础框架上比学校有很多好处,但另一个大的差别是在对研究问题的评估上要考虑产品的影响力。 因为毕竟是在产业界,不像在学校在实验室中就可以找一个研究的问题,有可能会解决世界上一些先进的研究上的问题,当然也有可能没有任何实际用处。在工业界进行的研究往往是由实际问题引起的研究,或者他们希望现在做的这些东西将来对公司,对产品,或者对其他现实问题起到很大的影响。

Alex:您在 Facebook 主要负责什么方面的工作?

刘扬: 当时去 Facebook 也考虑了一下究竟应该加入哪个组。 FacebooK 研究方面比较红火的就是 FAIR,FacebookAI Research。另一方面是 Applied Machine Learning,还有就是 Facebook 其他的产品组,包括 Facebook 的 ads,NewsFeed,search 等。因为在 Google 做研究的经历,感觉去 Facebook 的 FAIR 听起来像是挺自然的一个选择。但当时我认为自己已经在学术界呆了很久,在 Google 也见过科研,去 Facebook 继续做这种纯的基础科研没有什么改变,但如果直接进入一个全产品的组变化也有点剧烈。后来找了折中的点就是 Applied Machine Learning,把一些大家可以用的深度学习 或者是泛泛的机器学习用到 Facebook 的产品中。当时看到了很多把各种各样的 machine learning 应用到在 Facebook 的 ads ranking,feed ranking 等产品中,以这样的方式实现了 AI 落地的应用。

您进一步加入流利说的时候,是因为本身的教育背景所以选择了流利说的英语教学这个方向么?出于哪些考虑?

刘扬: 有好几点原因。一方面,我相当于是做教育出身,虽然教育跟我们现在做的教育不太一样,但是从情怀讲起来这个还是相关的。另外一方面,是因为跟现在这个公司的创始人原本认识,对这个公司和这个行业比较关注。最后就是因为跟自己这么多年做的语音识别和自然语言理解相关,语言学习是这些研究的一个自然的落地方向。很多业内人士都是在考虑如何将 AI 和机器学习进行具体应用,第一个能想到的就是教语言,学语言,所以这是特别自然的一个应用。

有一个产品叫“雅思流利说”,应该也是你们的一个主打的收费产品。像这种国际型的人语标准化水平测试,最大的问题就是如何保证打分的准确性,您觉得你们在这方面有什么技术优势?

刘扬: 这其实是一个挺复杂的技术问题。 如果大家参加过托福或者雅思考试就知道,口语考试是给一道题,要求应试者讲半分钟或者一分钟来回答,比如说对动物园有什么看法,对现在的一些政治问题有什么样的看法,一般是有一些 agree 或者 disagree 这样明显的性质。或者托福的考官要对这个人说的话进行打分。这个过程是用语言/speech 回答了问题,如果要对他/她打分,首先要求这个系统能够做语音识别,我先要知道都讲了什么,所以语言识别是第一步。然后有了语言识别的结果之后,要对学生说的内容进行打分,进行理解。这个里边要考虑的就是他/她的词汇怎么样,语法怎么样,句与句之间的连贯性怎么样,整个篇章/段落的观点表达得合理不合理。所以整个系统看,从语音识别一直到自然语言处理里面包括的点就非常多–从词汇到特别 highlevel 的段落–篇章都要考虑。就连第一个问题语言识别,也不简单。不仅有中国人的口音还因为这是一个即兴的演讲过程。 会涉及到讲话时候的改正,比如一个词说到一半又把这个句子从头开始说了一遍,这对于语言识别来说都是特别特别难的问题。另外中国人讲英语,有各种语法问题,用词不合适的问题。对于声学模型,语言模型来说都特别困难。所以第一步语言识别就已经不容易了,识别出来的这些话可能有很多错误已经包括在里面了。第二步再做自然语音处理的时候要看语法错误,用词错误,连贯性等,依然是很难的问题。当然,这些所有的问题现在都用机器学习做过,其中一些 component 是用的深度学习,有一些就是传统的 machine learning。

最后回到系统打分,雅思考试得了 5 分,6 分还是 7 分,能跟考官打的分之间的 correlation 应特别高。这需要通过机器学习的一些方法实现——如果机器已经见过若干人的雅思或者托福口语考试分数,我又见过一些考官打的分,就可以学习什么样的分能跟人打的分相似。所以也相当于是 machine learning。我们现在这个系统欧洲或者雅思的官方很认可,打分确实跟考官基本一致,所以现在“雅思流利说”的产品,有很多人用它去练习,希望花一两个月的时间把自己的考试成绩从 5 分提到 6 分,从 6 分提到 7 分。

Alex: 目前市场上语言学习的产品较多,很多公司声称自己有 AI 技术,你们在技术上希望怎么保持优势?

刘扬: 希望把 AI 应用到公司产品的各个 components 上,我们要保持在语音识别技术上最领先的地位, 在 NLP 各个方面同时要保持领先技术,这只是从纯技术这看。要保证公司整个产品都处于领先,除了技术还包括其他,可能比技术占的比例更大的,比如公司产品内容,整个 UI design,要使学生能够更喜欢这个产品的要素。刚才提到了一个技术优势,像我刚才说的,识别中国人的语音不是那么容易,中国人的发音,标准音 “I”,可能被不同的人讲出来,有南方口音有北方口音,但都不是英语中所谓的标准音。原来在做传统的语音识别的时候,有声学模型,有语言模型,还有一个叫词典/字典。这个东西要告诉我们这里有一个词,它的发音是什么,这个 Robin 是要念成 r-o-bin 这个音吗?但是对中国人来讲,这个音可能念得不是那么准,我如果想用一个字典来把中国人可能读的音都表示出来,不是那么容易的一件事。

在深度学习中无论做语音识别还是做 NLP,都有一个端到端的学习,End-to-end 的体系。这个系统里 没有我们刚才说的声学模型,语言模型,和词典,基本就是一个系统把所有需要包括的东西都包括其中。我们现在也在做这方面的研究,中国人可能读这个音会有 3 种,5 种,10 种不同的读音。如果一个 End-to-end system 能够自动学习中国人发英语这个词的发音,它的这个声学模型依次去建模,就是比较理想的一个状态。我们前几天刚刚提交了 iCAST 的一个论文,同时放在了 Arxiv 上,表明这个方面的尝试很成功。现在初步的结果跟传统的结果差不多。但是因为系统简化很多,在 public 的一个 English 的>

您认为教育希望实现全面的因材施教,那这里边最大的技术难题是什么?您刚才提到了语音识别,除此之外是不是还有一些数据采集,产品定位,UI/UX,或者说另外一些非技术困难?你们现在最关心的问题或者说最大的难题有哪些?

刘扬: 做 “AI+教育” 这个领域,进行 personalization 是特别重要的一个课题。就像因材施教,这个是在传统的教室中无法实现的,因为一个老师要教 30 个人,100 个人。现在因为每个人都有一个 app,希望每个人都可以针对自己的情况去学习。这中间的难点不是 AI 的难点,是想怎么把用户各个方面的行为给 model 出来,才能够真正去因材施教。并非只是语音语法这些知识的掌握,更多是行为层面。比如有些人需要老师天天督促学习,另一些人需要老师去鼓励,还有些人是需要老师批评,所以我说的是这方面针对用户的 model,或者建模,使得确实能做到 personalization。比如,做题容易放弃,或者是需要什么激励才能继续学习下去。我要做强化学习,就要把这个人的所有>

数据采集本来就是个难题了——

刘扬: 对,要考虑究竟哪些>

用类似测评的方法吗?

刘扬: 对,测评是一方面。但是很多东西不是通过一个简单的测评就知道做错题目背后的原因 。究竟只是有一个语法没掌握,一个单词发音不正确,还是有其他各方面的原因,那些东西可能是我所说的技术上面的难度——但不是 AI 这方面的技术。另一个非技术方面的难题是教育本身,如果这是一个做游戏的公司,客户黏性会很高,今天用了这个产品,明天还继续用; 但是教育不是。不是人人都能留在 app 上,天天都去学习。像刚才提到的雅思考试,也许下个月要考雅思或者再过两个月或一年出国,在这个特别明确的目标下,可能就会去用产品。但只是为了提高自身水平,想学点英语,没有明确目标,就很难让每个人都特别有 engagement 留在 app 上,使得他/她每天去学习。公司现在做的一些事情,就是企图做一些 social 方面的东西使得产品与用户的粘合性更好,或者做一些其他方面的尝试——我们有督学,促学性质的老师天天提醒你,或者建一个群,使得大家能够更 motivated 的去学习。但究竟怎么是最有效的方式,还需要摸索。

记得微软亚院的副院长周明讲过,在认知和语言处理方面,一个很大的因素是不像感知——它还需要一些 UI/UX 的配合。一个产品 UI/UX 做得好,用户更愿意 engage,才能搜集到更多数据,做更好的模型。您从技术到产品过渡的过程中遇到过类似的问题,怎么能够让您的好技术跟产品很好的嫁接在一起?

刘扬: 这属于很多不是做纯技术的人可以解决得比较好的一个问题。比如说 AI core 的技术在里面,但是需要把它给包装成用户都喜欢用的产品,里面就需要很多像 UI/UX 或者内容的东西。即使能够识别语言,能够知道语法错误,但怎么把它变成一个每个人都特别适合用的产品——就需要结合合适的内容,还有产品各方面的这几。我们这边有两个人是做内容,每天在考虑怎么去教用户,即使是同样的语法点或者说一个词,要用什么样方式教给用户。这里面有一些动画的设计,有一些内容/topic 方面的设计,整体属于大的产品设计。

有人把自然语言处理的问题分成了五类,比如 classification,matching,translation,structure prediction,以及 sequential decision process。深度学习现在用在这些领域都取得了很大的进展对,但是还不完美的地方。您认为深度学习在这五个领域都进行到了什么地步了?还有什么问题是比较难的问题?

刘扬: 五个问题中最难的是最后一个问题 。classification 是人们比较容易理解的问题。比如一段文字,像做 classification 的这个 class 可以根据不同的场景去做。有的人是关心,这个人对这篇 review(的评价)是正面还是负面,就是评价归类;也可能是做主题归类,一个新闻,识别出是政治,鱼类还是金融或者其他,就是主题归类。这是 standard machine learning 的问题,传统上有各种各样的 machine learning 的分类器,从以前特别流行的 SVM 到最大熵模型,在 NLP 上面都比较有效。现在用深度学习跟原来的方法没有实质性的变化,但是因为现在的方法简化了很多,原来传统的分类器往往是需要有人去设计 feature——

Alex:Feature Engineering

刘扬: 对,这方面的工作特别多。如果要做 positive/negative sentiment analysis,就要设计个词是正面或负面,要找一些 feature。如果做 topic,要去做跟这个相关的 feature engineering。现在的深度学习就是 embedding 进去,模型自然就学到了,神经网络里面每一层都展示了不同的东西,最重要的就是系统简化了。NLP 不像 speech recognization 或者 computer vision 的改进特别大。深度学习在 NLP 上面没有翻天覆地的变化。

Alex:最早的深度学习是用在语言/speech 上面的?

刘扬: 对,用在 speech 上面,我指的 NLP 是传统的 textbased 的 NLP。当然也可能问题是,text 本来就是一个个符号化这个 token,但演讲或者视觉本身有连续性的特征,深度学习 也许更适合。除了 classification,还有一个是 sequential。一句话,要把这里面我想要找出的东西找出来,一个问题就 information extraction,或者 named-entity recognition。一句话我要找出来,这里面有一个实体是表示姓名,可能是人名,还有一个表示餐厅,地点的名字,可以把它算成是 sequence labeling 。一串的 sequence 其中有几个是想找的有趣或者关注的 。传统上的模型叫 HMM,或者 CNF,现在都用深度学习取代了,就是 RNN,LSTM 这些性质的模型,表现很好。对刚才说的 classification 的问题,也是省了很多 feature engineering 的问题。翻译是第三类问题,现在基本上已经代替了传统翻译用的 phrase-based translation 的系统,基本上现在 Facebook, Google,Microsoft 等所有的公司都在用不同的深度学习,大家在框架上是稍微有一点点差别,但都是基于深度学习的翻译体系。这是业界公认有效的一个体系。最后的一个问题就是 sequential decision process,不管是深度学习还是传统的 machine learning 都还没有解决这个问题。每天跟 Siri 或者 Alexa 讲话都是 multi-term conversation,我们往往说几句话就意识到,这个系统完全不行。一句话,有时候它还能回答。一句话如果让它做 classification,它知道问的是哪一个问题——要找一个人还是问一个地点,这是简单的可以回到份内的问题,或者回到 matching 的问题——在一个很大的数据库中可以找到类似的答案,但是如果需要建模个人的对话,从第一句话到第二句话,到第三句话,还有你我分别说了什么,这个整体的谈话历史的构建,暂时还没有特别好的解决方法。

您未来三五年的工作方向是什么?

刘扬: 像我刚才说的,公司还是想做 AI 在教育方面的应用。短期来看还是语言学习,将来这个教育能够扩展到哪些领域,现在还不是特别确定。但即使从语言学习这个方面已经很多事情需要做,把 AI 做好,从语言识别到自然语言理解。自然语言理解包括方方面面,从词到语法,到语义,再加上对整个世界各种 common sense 的 knowledge 都要 model,使老师能够有效的去教学生。加上刚才提及的,要对学生各种各样的行为建模,使他们能更好的 personalized learning。在未来一到三年,要做中国人的语言,也可能包括其他语言,对不同年龄层——成人,儿童的英语——进行建模,不是件特别容易的事情。

今天听了刘教授对自然语言处理技术的一些分析,以及她对于流利说如何把技术利用在教育领域的感想,受益匪浅 。同时也了解到刘教授从一个顶尖科研人员到涉足产品技术,帮助 AI 应用,以及成为工程师的职业转变。希望对大家有所启发。谢谢刘教授!

刘扬: 谢谢!

查看原文链接

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。