人工智能火热之后 又燃起了数据之战

2017-07-21 09:46 中华网

打印 放大 缩小

几天前,谷歌发布了最新的人工智能研究报告。令人大跌眼镜的是,报告中指出人工智能领域的创业,也许已不存在小公司能够通过技术创新和产品迭代,逐步侵蚀大公司市场份额的情况。因为当科技竞争转变为机器竞争的时候,最关键的是谁能够掌握可以用来训练人工智能的海量数据,而坐拥海量数据的行业巨头理所当然地占据了绝对优势。

不过大公司的优势,随着人工智能竞争的白热化迎来了新的局面。大公司即使有足够庞大的财力,但也没有足够多的时间和人力去整理自身拥有的海量数据,尤其是可供训练人工智能的优质数据。谁掌握了最优质的数据,谁就能在第一时间赢得用户。所以,全球的人工智能企业都在大量采购相关优质数据,包括文字语料库、语言对语料库、语音语料库等等。这进而引发了新的关注:谁在向人工智能公司售卖数据?

于2012年在英国伦敦成立的Flitto翻易通(下称Flitto),就是典型的人工智能数据公司的代表。

Flitto通过网页与App服务,组建了一个全球化的众包互助翻译平台:“发翻译请求需要花钱,帮助别人做翻译能赚到钱”。在用户实际使用的过程中,每个翻译请求将能收到至少1条,多则10条的翻译结果。经过用户对翻译结果的选择,Flitto将实时收集所有数据,并交由遍布于英国、美国、中国、日本、韩国、印度尼西亚等各国语言专家团队的整理后,最终形成为人工智能企业与自然语言处理的产品可以应用的“高质量语料库”。截至目前,Flitto在中国地区已与百度等企业建立合作,共同在人工智能的自然语言处理领域开展多元合作。在国际范围更是拥有微软、SYSTRAN、NAVER、NTT docomo等各科技巨头客户。

图为Flitto语料库客户

在多年的发展中,Flitto的网页与App服务深受国际用户喜爱,在各国应用商店均名列前茅;而基于网页与App服务收集到的数据,由于均为用户日常类型的语言问题,进一步凸显了Flitto语料库的核心竞争力。即一般语料库企业从未关注过的:罕见或未定义词汇(out of vocabulary),而诸如旅游、购物、交通、生活、学习等日常沟通内容,恰恰就属于罕见或未定义词汇。Flitto之所以能够获得众多国际巨头的青睐,正式基于这种独特优势。

图为Flitto App在全球各国排名

Flitto中国区总裁兼联合创始人黄海表示:“我们从2012年在英国伦敦起步之初,就定位为通过面向为普通用户提供优质的翻译服务,继而收集优质语料库,将其销售至人工智能企业、自然语言处理产品,并最终达成企业盈利的目标。全球范围内目前尚无一家语料库企业,采取了与我们相同的语料生产方式。我们现有的语料库,主要专注于亚洲语言,并且涵盖日常生活各个领域。这恰恰是全球人工智能产品最需要的语料数据,从更新速度、唯一性、质量上来看,我们是最佳选择”。

互联网正在变得越来越开放,可互联网巨头们对于用户产生的数据却采取愈发封闭的态度,毕竟任何的人工智能产品离开了数据等同于空壳,对于分毫必争的互联网企业更是如此。所以人工智能数据公司的存在就变得尤为重要了,其数据不仅可以被大公司利用,初创型人工智能公司也有机会去专注做底层技术研发,所谓小公司颠覆大公司的机会也被重新发掘了出来。

业内人士称人工智能领域的创业机会已经很少了,不过事实并非如此。一是要看企业的技术实力是否具有独特优势;二是需要创业者敏锐的视角和长远的布局。我们有理由相信,在人工智能创业大热的今天,专注于人工智能数据的企业,必将潜力无限。

责任编辑:陈群(QT0001)