打开算法“黑盒子” 是向全社会释放红利

2018-01-17 14:50 人民网

打印 放大 缩小

“算法”已成热词。

《未来简史》作者赫拉利,就有个大胆的论断:生物就是算法,生命就是进行算法处理;人类将环境参数作为输入数据,经过认知能力的处理,输出感受和决策等数据,从而决定了我们的喜怒哀乐以及行动。这只是基于数据主义的概念转译。

但毋庸讳言,作为智能技术的算法,确实已深度嵌入人们的生活。

当下,算法分发已是搜索引擎、浏览器、资讯客户端等互联网产品的标配。

那,“算法”究竟是什么?

近日,今日头条以分享交流会的形式,首度对外公开了自己的算法原理。这是国内互联网企业公布算法原理的首例。

今日头条资深架构工程师曹欢欢博士,在现场详细介绍了算法模型设计维度与策略,包括如何在线训练大规模推荐模型,典型召回策略的设计方法,多目标如何融合等核心问题。以及今日头条的内容安全机制及相关举措,并公开了风险内容识别技术以及泛低质内容识别技术。

作为“第一个吃螃蟹的”,此举聚拢了无数眼球。而这背后,则是一个行业“独角兽”对肩上责任的主动认领,这份责任指向对整个行业发展层次的拉升,对技术红利增量的供给。

将“独门绝技”拆解给外界看,挺需要魄力

首例意味着没有先例。为什么公开算法原理方面没有先例?究其原因,是算法历来属于企业机密。对很多以算法立身的企业来说,这属于“核心技术”,也是竞争力之源。

正因如此,基于数据挖掘的推荐引擎型产品,在“算法信息分发”应用上堪称一骑绝尘的今日头条,能将算法原理对行业、社会公开,难能可贵。

正如有些人说的,算法原理之于今日头条,就相当于七十二绝技之于少林、太极拳之于武当,是“独门绝技”。

将“本门绝技”亮给外界看,犹如把独家“秘方”公布给其他“厨师”,没点魄力不行——要知道,台下很多都是一线互联网公司算法工程师、技术大拿。郭德纲同志老说:同行间才是赤裸裸的仇恨。将算法原理“一招一式”都拆解给他们看,“心够大”。

例如在现场,京东的工程师提问:“做算法推荐,如何在符合用户兴趣之外给用户创造惊喜?”曹欢欢回应称,这是今日头条做了两年的事情:“干预模型非常难。你先画一个兴趣图谱,根据用户的兴趣图谱的覆盖度去探索从来没有探索过的东西。我们甚至曾经做过指标体系的图象,实际发现不够好,这块的帮助确实没有那么大。”

可以说,今日头条开行业风气之先地公开算法原理,着眼的本就是大格局,而非一己一时之得失:这次公开,既是释疑,旨在消除不少人对算法的误解与歧见;也是问诊,冀望更多人给现有的算法模型挑刺、建言,以裨补阙漏、改善算法。

公开算法原理,是释疑,是问诊,更是赋能

如今,虽然很多人都在跟算法驱动的技术打交道,但对算法并不了解。不了解所以也就有了误解。有些人觉得,算法就是“机器说了算”,是机器引导人而非人引导机器;有些人认为,算法就没有价值取向,只围绕流量转;还有人直言,算法开启的是潘多拉的魔盒,而不是阿里巴巴的宝库。

这些误解可以理解,作为企业也有责任去矫正那些偏颇认知。事实上,算法完全可以优化设计,来克服推荐的“准”和信息茧房的矛盾;算法也有价值观,可以将“有意思”和“有意义”结合。

正如今日头条副总编辑徐一龙在现场说的,算法也是一种“法”,都是通过一定的规则和方法,达成预期的一种效果;算法和法律法规一样,如果施行得好,都很高效,也都要求透明。此次交流会中也讲到,今日头条会不断纠偏,设计、监督并管理算法模型,并建立了内容安全机制及相关举措,有着风险内容识别技术以及泛低质内容识别技术。也就是说,其“算法分发”模式也有价值介入,而非一切交给机器。

就此看,将算法原理公开,也是一种技术释疑。让公众增进对算法本身的了解,消除许多疑虑。

将算法原理公开,还是一次开门听诊。人无完人,技术也是。算法技术培育至今,离彻底成熟仍有距离。通过技术公开诊断问题、征询意见,也能通过外部力量推动内部变革,更有力地改进算法。

算法也是“法”,法者必须与时俱进,算法也要适时改进。“算法分发”变以往的“大海捞针”式信息获取方式为“私人定制”模式,让信息供需匹配来得更及时,接下来,如何将满足个性化细分需求和实现有价值的信息引导,进而更高效地为用户服务,为社会创造更大价值,值得探讨。

将算法原理公开,更是一种技术赋能。今日头条是国内极具代表性的信息流平台和技术公司,其模式也被很多后来者借鉴,而身为领跑者的它,则成了这类企业中名副其实的“独角兽”。

就像班级里的“学霸”帮助同学,是比独善其身更高的境界,独角兽做大了赋能同行及其他领域的“小伙伴”,在帮助别人中成就自己,也是更好的路径选择。

所谓赋能,就是说从行业领跑者变成“高速公路”搭建者,通过技术和其他资源的开放,去帮助其他企业等成长、发展和获益,实现“你好我好大家好”。

国外有学者将企业分为两种:一种是线型公司(Pipeline),就是自己冲上赛道;另一种是平台型公司(Platform),主要链接核心价值的创造者和用户两端,它们通常是网络技术公司,轻资产经营,对海量讯息资源串连。这类平台型企业,要做的就是对平台上企业的“赋能”,而不是跟它们赛跑。

今日头条生来就是平台型公司,以往也利用算法和收益分成机制,对那些原创内容生产者们进行了赋能。而今,把算法原理开放给业内,则是面向整个社会的技术赋能:通过告诉外界自己是如何给用户画像的,算法模型应有怎样的设计维度与策略等,供同行参考,改善自身的技术或模式。

这次对算法原理颇具标志性意义的公开,公开力度不小。头条使用的五种推荐算法(传统的协同过滤模型,监督学习算法Logistic Regression模型,基于深度学习的Factorization Machine,以及DNN和GBDT),输入给算法的四类最重要的用户特征(相关性特征,环境特征,热度特征,协同特征),都被大幅公开。这些技术开放了,必然能提升互联网企业在算法上的整体水平,进而最大化地裨益社会。

打开了“黑盒子”,释放了技术开放的红利

向社会公开算法原理,也跟“更开放”的节拍呼应。

“开放”,和“自由、协作、共享”是互联网精神的核心要素。互联网诞生之前,IP协议将各式终端互联,写下了互联网“开放”的序曲。也正是顺承着“开放”精神,很多互联网产品设计之初就内嵌了“开源基因”。

眼下随着PC时代的远去和移动时代的红利式微,中国互联网正在开启由人工智能主导的下一幕。有人预判:人工智能技术的未来必定是开放透明的。IBM CEO弗吉尼亚·罗曼提就呼吁,人工智能的发展要更加透明,“(对于人工智能带来的许多新问题)要解答也需要时间、研究和开放的讨论态度”。

而算法正是人工智能成长的重要动力,当下算法分发也在很多引擎类互联网产品中得到广泛应用,且其应用面会越来越广。在此情景下,作为行业先行者的今日头条,主动将算法原则公开,也体现了这种开放态度,这展示了一个商业公司反哺互联网行业的“正确姿势”,也展现了一家技术平台的责任感。

今日头条方面表示,人工智能发展带来的挑战,是人类此前没有遭遇过的;当企业发展壮大时,有责任也有义务,与行业一道积极思考与研究新技术可能带来的机遇和风险。

将算法透明化,对今日头条是“有责任也有义务”,对社会来说,则既会给无法跳脱算法的人工智能研究提供更多数据凭依,也会对算法应用乃至整个互联网行业起到积极推动作用,进而在促进行业协同发展、共荣共赢的同时,也改善其产品和服务,进而更好地对接人们服务体验升级等诉求,满足人们对美好生活的向往。

所以,公开算法原理,打开的是算法的“黑盒子”,释放的是技术开放的社会红利。

这样的主动公开,无疑多多益善。可以预见,当更多企业都能在“成全社会,成就自己”的价值担当中,做技术开放的增进者,那必然会攒下更大的社会能量,带来更可观的技术红利。

责任编辑:闫冬(QT0005)