博士在淘宝“扫垃圾”
十三 来源: 量子位因“网络牛皮癣”泛滥成灾
相信在座各位网上冲浪时,总会遇到一些“葬爱家族”式的文字:
这些词语的出现,不单单是追求个性这么简单,更多的是为了 规避系统排查 ,以便发送成千上万条“垃圾信息”。
这样的情况在淘宝、旺旺等平台上泛滥成灾,堪称互联网时代的“牛皮癣”。
而有这么一位叫 刘翔宇 的博士,他和团队在阿里巴巴每天的工作,便是 扫除诸如此类的垃圾 。
这位博士用AI“扫垃圾”
“垃圾清理人”面对的不是散兵游勇,而是黑灰产的团伙作战。
刘翔宇这样介绍道:
尤其是“双11”大促期间,黑灰产非常疯狂,发出的垃圾信息量比平时多几十倍。刘翔宇说:
不仅如此,这种行径还会像病毒一样,发生 “变异” 。
也就是刚才提到的那种情况,用音近、形近或语义相近的字词代替,让系统无法快速识别。
面对这种情况,“垃圾清理人”也需要升级装备,更好的清除网络垃圾。
于是,在这些算法专家们的努力下,平台利用 神经机器翻译 和 多模态词嵌入 技术,不断增强垃圾文本内容风险识别系统的性能。
刘翔宇介绍:
现在,他们打造的算法已能够自行理解某个字和与它音形义近似的字的关联,识别准确率高于,可有效新增识别变异违规文本内容以上。
此外,算法专家还开发了“变异垃圾语言”翻译功能,系统可以将“变异信息”翻译回正常语句。
值得一提的是,刘翔宇和团队成员的技术成果,还获得了国际顶尖AI会议的承认,被USENIX Security、ACL、WWW、SIGIR、IJCAI等收录。
关于刘翔宇
2016年,香港中文大学博士刘翔宇毕业后来到了阿里工作。同一年,《网络安全法》和《国家网络空间安全战略》正式通过,社会对于网络环境治理和网络安全的关注度迅速飙升。
刘翔宇随着这股浪潮加入了阿里安全。起初,他做着基础安全的研究。
后来,慢慢聚焦在淘宝交互内容、旺旺、直播弹幕等的内容安全治理。
如果说阿里巴巴是座城,刘翔宇和他的同事们就是专门为这座城“扫垃圾”的人。
对于清扫垃圾内容的“刘翔宇”们而言,城太大,人力不可能覆盖每一个角落。
如何对这些垃圾信息做到秒级处理,同时误判率必须在万分之五以下,刘翔宇和一众算法专家与不断变异的黑灰产斗智斗勇。
现在,刘翔宇和阿里安全的小二研发的阿里新一代安全架构核心算法,每日已能清理百万级的垃圾信息。
版权所有,未经授权不得以任何形式转载及使用,违者必究。