数据服务:AI领域的“菊与刀”

2018-11-12 09:41 人民网

打印 放大 缩小

——企业破解数据服务行业“约拿情结”的探索  

“菊与刀”这个词在诞生之初是指日本民族性格的双重性及矛盾性,“菊”是日本皇室家徽,象征高尚与优雅;“刀”是武士道文化的象征,代表暴力。在文化发展的过程中,人们常用“菊与刀”来指代同一件事物上表现出来的截然相反的两种现象。这类情境在全球范围内广泛存在,AI产业和服务于它的数据行业,正鲜明体现出高技术与高密度劳动力的两重性特征。

从1956年人工智能学科被正式提出开始,到 2016年3月,谷歌AlphaGo 4:1 战胜围棋世界冠军李世石,开启人工智能的新纪元,AI产业在经历了60多年酝酿后终于顺势而起,达到了目前的爆发期,成为一门广泛的交叉和前沿科学。2017年人工智能领域投资金额仅中国便超过580亿人民币,同比增长50%,预计到2020年,中国人工智能核心产业规模将超过1600亿元,年复合增长率将达43.6%。

与强劲的发展势头和旺盛的行业需求相对应的,是巨大的数据缺口。一些业内专家认为,当前AI的发展现状仅相当于“互联网在上世纪90年代初期的阶段”,主要方法论仍是基于大数据、大计算模式,需要海量数据去“喂养”。也就是说,人工智能并不会像人类那样推断出结论,它要进行不断地试验和错误学习,这就需要大量的数据来教授和培训。人工智能应用的数据越多,获得的结果就越准确。毫无疑问,没有大数据就没有人工智能。

李开复称得上是中国AI产业的引航员,在与搜狗CTO杨洪涛、今日头条技术战略研究院院长张宏江的对谈中他曾表示——最好的数据就是最多的数据。他在富士康实体经济与数字经济融合发展高峰论坛上曾经说道:“今天,听到专家谈到大数据对AI的重要性,大数据会让中国成为AI大国。什么算法、什么专家都不重要。只要数据大,最后一定胜出。因为,现在AI已经足够普及,不是一定要看世界三巨头来做AI顾问才可以,现在AI已经接近平台化。”“过去,以专家为王。现在,以数据为王。”

相对技术要求、人才素质要求都非常高的AI算法、程序与产品,数据服务业却呈现出了另一种场面。据业内人士估计,中国全职的“数据标注者”已达到10万人,兼职人群的规模则接近100万。标注工作本身是一个劳动密集型工种,收入不高,与所服务的AI行业形成了鲜明对比。一边是炫酷的科技、神奇的智能应用;一边是大量人工每天重复地生产机器学习的“食物”——标注好的数据,AI产业和服务于它的数据行业正是“菊与刀”的翻版——在矛盾中成长,也在矛盾中变革。

龙猫科技、数据堂、星尘数据……目前的数据采集标注行业里除了专业玩家,更有百度众测、京东众智、阿里众包、科大讯飞、旷视科技等巨头入局,除了满足自身发展所需的数据需求,也在对外产出数据,据不完全统计,像玛达科技、魔门塔、爱数智慧、海天瑞声、思必驰、泛函科技、标贝科技等提供数据服务的公司或大型团队已超百家,而他们的采集标注项目,则大多采用了目前数据采集标注行业的主流模式——“外包”。

贵阳梦动科技经营了一个500人的“数据工场”;BasicFinder与二十多家“数据工厂”有长期业务合作,少则几十人,多则两三百人。而在规范的机构之外,还游离着三五人到十几人规模不等的“小作坊”。大公司集中精力研发或保持团队的高学历占比,很少完全自建数据标注团队,这也为数据外包提供了丰沃的土壤。

AI数据采集标注的外包市场2011年开启,2015年真正开始,2016年下半年出现收缩,2017年开始新一轮的爆发。外包盛行,是因为人工智能的发展需要大量人力提供不同基础数据,对非结构的数据进行加工,以用于机器学习。很多公司采用互联网思维,使用网站和app采集众多数据,但面对巨量的数据需求、超短的任务工期和激烈的行业竞争,短时间内很难保证完成任务,于是,采集标注的外包团队应运而生,并在短短两年多的时间里呈现井喷式增长。

外包行业的急速扩张,从侧面发映出AI产业的欣欣向荣,更反映出对数据采集标注从业人员技能素质的低门槛低要求,数据采集和标注除了专业技术公司提供平台和技术支持、质量把控,绝大部分工作还是由提供基础数据和重复大量劳动的普通劳动者提供。

人工智能公司的总支出中,目前有20%-30%用于数据,按此比例,现阶段大陆市场数据采集及标注的规模保守估计有五十亿,行业内新三板上市公司数据堂2016年的营收便达到9680万元人民币。而目前现状是,能被建模量化的数据只占真实世界中的极少一部分,随着AI深入更多垂直行业,新需求不断出现,完成需求需要的不仅是更多的数据,也是是更高素质、更快速度的采集、标注团队。可以说,随着人工智能行业本身的发展,数据采集标注工作对从业者的要求只会越来越高。

但这一切都是基于“有监督学习”这个大前提。行业的一个变量是,如果算法从“有监督学习”升级为“无监督学习”、强化学习或迁移学习,数据采集标注需求将大大减少,虽然目前无监督学习等新算法仍然只是学界的探索,尚不能用在大规模的商业落地中,但随着对抗学习训练等算法的升级发展,以极少的数据满足人工智能的需求也并不是不可能实现。

这便是数据服务行业的“约拿情结”——最大的恐惧来源于对自身成长的恐惧。

互联网巨头涉足AI数据服务行业没有太多后顾之忧,但是以数据服务为主营业务的公司却不得不考虑发展的局限与危机。面对未来潜在的风险,谁能在风险来临之前合理谋划,妥善布局,谁就能在风险到来时站稳脚跟,迎风起飞。

李开复曾说,建立数据共享平台,把AI人才的池子做大,对AI行业来说是一件水涨船高的事情。而基于目前的商业模式,想要突破发展的桎梏,无疑需要突破模式,找准方向,做行业发展的引领者。

比如提供数据交易平台的找标注网,基于现在B2B行业模式弊端,他们创建了供需拟合平台,允许数据服务提供方和需求方在网站发布任务,寻找机会,从而带动合作,实现共赢。本质上讲,其所提供的是类似于淘宝一样的服务平台,优点是可以实现资源展示,快速匹配供需,缺点是缺乏认证,无法保证产出质量。

而标榜大数据第一股的数据堂,则采用了建立数据商城的方式进行深度发展。数据需求方可以在网站上很清楚看到所需要的数据内容和价格,甚至不需要提出需求便可以买到所需的数据。但实现了便利性的同时,也带来一系列问题。一是不同需求方对数据需求很难完全相同,即使同样是做人脸识别,标注的点位数都很难统一,所以数据商城提供的数据价值也就大打折扣。其次,很少有数据企业愿意把自己的数据分享出来,所以数据的来源只能是少数不愿意支付数据买断费的公司,发展规模受限较大。本质上讲,其采取的方式只是对现有服务的简化,没有本质上的发展与变革。

再有就是龙猫数据所采取的方式。龙猫数据隶属于北京安捷智合科技有限公司,其核心业务是为 AI 及大数据领域公司提供数据采集、标注等定制化数据解决方案,服务领域涵盖图像、语音、文本、视频方面。龙猫数据的产品包括移动端APP、PC端标注网站,用户量达到五百万,可承担千万人以上样本量,合作方包括百度、小米、京东、旷视等二百多家企业。

龙猫数据借助其巨量的数据基础和丰富的服务经验,采取了建立龙猫数据平台的方案,通过为合作伙伴提供算力和数据,让他们只通过提供算法便可以得到想要的结果。利用自身数据采取数据+平台的方式,允许企业自己建立模块,其本质是对服务线的延伸,优势在于打通AI上下游,给客户最大便利的同时降低客户投入,提升产出效率。这种向上下游延展的做法在传统行业屡见不鲜,但在数据服务行业尚属首次。在日新月异的AI行业究竟能不能行得通,还要靠时间来检验。

AI产业的发展离不开数据行业的支持,我们也期待数据行业能够越来越完善,赋能AI,铸梦未来。

责任编辑:陈群(QT0001)  作者:李韦华