你竟然是这样的端智能? (你竟然是这样的师尊)

你竟然是这样的端智能? (你竟然是这样的师尊)

本文将谈谈端智能以及端智能在西瓜视频的发展。你可能已经听说过端智能,这犹抱琵琶半遮面的样子真是令人心痒,今天咱就扯下它的面纱看看。

从云智能到端智能

可能有很多人纳闷不是要聊端智能么?怎么还牵扯到边缘计算了,莫不是为了凑字数?实际上从云智能到端智能的延伸实际上也是云计算到边缘计算的扩展。我们知道云计算自身有着许多的优点,比如庞大的计算能力,海量的数据存储能力等等。现在很多对外提供服务的 APP 本质上都是依赖各种各样的云计算,比如直播平台、电商等等。但新型用户体验追求更加及时,稳定性的服务,这就促使我们想要将服务尽可能的部署在物理设备所在位置,最终推动了边缘计算的发展。

从云智能到端智能,本质也是如此。以无人驾驶为例,总不能在驾驶过程由于网络波动导致汽车停止对路况的计算吧,或者说在万分之一秒内还不确定是要刹车还是加速吧?

那究竟什么是边缘计算呢?边缘计算与所谓的端智能又有什么联系?继续往下看~

边缘计算

边缘计算是一种致力于使计算尽可能靠近数据源,以减少延迟和带宽使用的网络概念。通常来说边缘计算意味着在云端运行更少的进程,将更多的进程移动到本地设备,比如用户的手机,IOT 设备或者一些边缘服务器等。这样做的好处就是,将计算放到网络边缘可以最大程度减少客户端和服务器之间的通信量及保持服务稳定性。

不难发现,边缘计算本质是一种服务,类似于我们现在的云计算服务,但这种服务非常靠近用户,能够给用户提供更快速的响应,简单点说就是干啥啥快。

需要注意的是,边缘计算并非用来取代云计算的,如果说云计算更注重把控全局,那边缘计算则聚焦于局部,本质上边缘计算是对云计算的一种补充和优化,可以帮我们从数据源头近乎实时地解决问题,凡是在需要减少时延或追求实时目标的业务场景下,都有它的用武之地,比如:计算密集型工作,人工智能等场景。这里的人工智能的场景就涉及到我们下面要说的端智能了。

端智能的本质

对于人工智能,想必我们已经见怪不怪了,尤其是以头条/抖音/快手为代表的应用,都是将机器学习用到极致的产品,此外像扫地机器,无人车等硬件设备也是人工智能落地的最佳示例。那我们要说的端智能又是什么角色呢?

和从云计算到边缘计算的发展类似,人工智能的发展也经历从云到端的过程,我们常说的端智能实际上就是把机器学习放在端侧去做。这里的端侧是想相对于云端而言的,除了我们常见的智能手机外,端侧设备也包括各种 IOT 设备,嵌入式设备等,如语言翻译器、监控摄像头等,当然无人车也属于该领域。

从 2006 年开始,人工智能进入第三次发展阶段,并以 AlphaGo 先后战胜李世石和柯洁宣告新时代的到来,这背后得益于:

与此同时,端侧设备同样在算力,算法及框架有了突飞猛进的发展:

当然,我们都知道最终驱动云智能和端智能发展的根本动力是实实在在的产品需求。从端智能的角度来看,由需求驱动的 AI 场景应用已经在软硬件多方面成为产品的主要卖点,比如手机摄像能力的提升,除了摄像头等硬件的发展外,各种图片处理算法的发展也功不可没;再像抖音、快手等应用的各种模型特效,在简化创作的同时也极大改善了产品的形态。

为什么要做端智能?

要知道为什么做端智能本质就是需要搞清楚当前云智能面临什么样的问题。正如之前所说,云智能的发展建立在现代需求之上,它主要的优势是:

但这种依赖云端的架构方式也有着相应的缺陷:

而端智能的优势恰好能作为云智能劣势的补充:

除此之外,由于数据和生产和消费都是在端侧完成,对于敏感数据可以保证隐私性,规避法律风险;另外我们可以进行更精细化策略,有可能实现真正的实现千人千面。

端智能的局限

前文我们说了端侧智能能够补充云智能的几个缺点,但它也有着自己的问题:

在这两个条件的制约下,端智能往往意味着是只做推理,即云端训练模型下发到本地后做推理。

5G 与端智能

之前有同学提到过既然 5G 又快又好,那完全没必要搞端智能啊。这里简单谈谈我自己的理解。(如有不对之处,请找隔壁小哥)

5G 的高速连接和超低时延,目的在于帮助规模化实现分布式智能,也就是 云-端 智能一体化。来具体解释下:5G 给端和云之间的连接提供了更稳定,更无缝的的支撑,此时网络就不再是端云互通的瓶颈了,但伴随万物互联时代的到来,数据规模将会进一步暴增,进入超大数据规模的时代,此时服务端的算力就会成为瓶颈,那么此时在端侧对于数据的预处理和理解也就更加重要,这就需要端智能的介入。

举个安防领域的例子,现在很多家庭摄像头都支持云存储,如果我们希望只在有人活动的时候才会将视频保存到云端,该怎么做呢?最好的方式是先在端侧借助 AI 进行图像识别,然后将包含人的视频片段上传到云端,而不是先将所有视频上传到云端再进行图像处理(裁剪掉无用的视频片段),前者既可以节省流量带宽,又可以节省云侧算力,这里端侧对视频的处理也就是我们刚才说的对数据的预处理和理解。

对于 AR 来说,端智能为 AR 提供交互能力,5G 则能满足 AR 需要的网络传输能力,在这两者的加持下,具备互动性,高品质的 AR 技术会促进真实世界与虚拟环境的融合。

西瓜为什么做端智能?

上述内容纯粹就是简单介绍下端智能的前世今生,口水内容,简单看一分钟也就行。光说不练假把式,下面就简单介绍下西瓜在端智能上的探索及落地,很多同学知道我们在搞,但不知道搞了个啥,今天咱就揭开这道神秘的面纱。首先来看我们西瓜为啥要做端智能。

在后文展开之前必须得先回答一个问题:西瓜为什么要做端智能?或者说,西瓜对于端智能的定位是如何的?

介于上述几个因素,我们在用传统客户端技术解决问题的同时也对端侧 AI 能力有了兴趣,并于 20 年 8 月份开始调研,最终我们确立下两大目标:策略精细化和开源节流。

在这两个目标的指导下,进一步结合西瓜的需求,我们主要聚焦在下述两个领域:

西瓜端智能

关于西瓜为什么下手端智能,大概是说明白了。但总体该怎么下手落地呢?从表面上看无非就是将原有服务端的体系搬到客户端来做,变化的只是前后端而已,但实际上从云到端的迁移,不但涉及端云技术链路的变化,而且更加强调不同领域工程师的合作:从客户端角度出发,我们关注工程架构及交互,但从算法角度来看,更加关注的数据和模型,这两者关注点的不同就决定了在端智能落地过程会存在比较大的困难。

基本流程

首先来简单了解下端智能从云到端的几个阶段:从云到端,主要涉及算法、模型训练、模型优化、模型部署以及端侧推理预测。按照参与方来看主要涉及算法工程师和客户端工程师,按照环境则可以分为云端工程和客户端工程,如下所示:

简单概括一下流程就是:首先算法工程师针对特定场景设计算法并训练模型,然后对该模型进行优化,在降低模型体积的同时提高算法 &模型执行效率,接下来在模型部署阶段将优化过的模型转换为端侧推理引擎支持的格式并部署到移动设备上,客户端工程师针对该场景做算法移植及业务改造,并在合适的时机通过推理引擎加载模型并执行推理预测。

三座大山

上述我们用一句话概括了端智能落地的流程,但实际过程中要远比上图提到的更复杂:

如上图所示,不难发现端智能落地链路总体比较长,任何一个节点出现问题都会涉及比较长的排查路线;需要算法工程师和客户端工程师的高度协作,但由于算法和客户端两侧的技术栈差异比较大,知识领域也存在比较大的差异,因此协作成本其实蛮大:

除此之外,端侧推理引擎如何兼容复杂的端侧设备,保证高可用性,实现一体化监控和模型部署等等也是端智能在落地过程要重点解决的问题。

端云一体部署

前文我们提到端智能在落地过程中的三个问题:链路长,协作成本高,推理部署复杂。来具体分析看下问题及相应的解决策略:

阻碍在面前的三座大山已然明了,要做的事情也很清晰。对于端智能,我们和平台 Client Ai 团队的想法不谋而合,开始共同推动端智能在字节业务策略上的探索及落地。

借助 Pitaya 方案,我们可以将更多的精力放在算法设计和业务场景挖掘中。Pitaya 是啥呢?简单来说,它是将云上 MLX 环境和端侧环境打通,将算法和模型统一以算法包的形式部署到端上,并对端侧特征工程予以支持;同时端侧内部集成运行容器,并驱动推理引擎(ByteDT、ByteNN)工作的一整套方案,其基本架构大概如下:

现在整体链路简化了不少,我们可以更聚焦于业务场景的算法设计了,同时借助于高效的运行容器,可以实现算法包的快速部署,提高整体的迭代效率,端云之间的联动性更强:

西瓜视频智能预加载

西瓜视频横屏内流在交互上可以理解为是一个横屏版的抖音,是西瓜的核心消费场景,如下图所示:

作为西瓜视频的核心场景,其播放体验至关重要。为了实现较好的视频起播效果,该场景上了视频预加载策略:在当前视频起播后,预加载当前视频后的 3 个视频,每个 800K。

方便起见,我们通过一个图来展示 3*800 的流程:

不难发现,只有在首个视频的情况下才会一次性预加载三个视频,再往后就变成了增量预加载 1 个视频的操作,端上始终保留 3 个视频的预加载。

为什么是端智能的方案?

上述方案足够粗暴简单,但也存在不少局限,即带宽和播放体验平衡不够:

此外上线预加载方案的时候,我们的数据分析师也提到: 减少预加载大小虽然可以降低成本,但是卡顿劣化严重,短期采用 3*800K 的固定方案,长期推动动态调整预加载大小方案上线

除了传统对预加载任务管理机制的优化外,我们开始重新思考如何衡量预加载的有效任务率?

最理想的情况是预加载的大小和播放大小一致,这样视频预加载的效率就是 100%。如果我们预加载了 1000K,但用户只看了 500K,那预加载的效率就是 50%,这浪费的 500K 可都是金灿灿的

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。