云聚数据的得与失,影射AI数据服务行业痛点
大嘉购官网整理编辑:
文章经授权转自公众号: 于见,作者:于见,编辑:于斌
在产品具体表现上,伴随着智能音箱、智能驾驶、无人机等人工智能的落地,AI无形中改变了各行各业的生态,加快了企业的数字化进程,同时也改变了产业链结构,极大地提高了信息利用率。
但这一切的发展都离不开数据和算法的支持。数据作为人工智能的三大要素之一,已经成为人工智能产业的重要支撑者。如何构建以数据为中心的服务和壁垒已成为人工智能企业面临的问题。
云聚数据作为专门从事人工智能数据采集和标注的服务公司,前不久通过了中国人工智能学会(CAAI)遴选成为学会会员单位。但在得到学会会员名额地位后,云聚数据也面临着数据采集定制化困难、精密度低,质量改进缓慢等难点,这也折射出当前人工智能数据服务的诸多痛点。
科技颠覆加速,探索过程艰辛
作为人工智能数据服务品牌,云聚数据能够为智能驾驶、智能家居、智能安防、智能城市、智能金融等领域提供定制的数据采集和标注服务,支持文本、语音、图像、视频等各类数据的处理。截至目前,云聚数据已在华东、华北、华南等地建立了数据交付中心和数据采集基地,并成功为数百家企业提供了人工智能数据服务。
从大背景下来看,市场上对基础数据服务有三种不同的需求。一是研发需求,指前期采用标准数据集产品培训,中后期采用专业数据定制服务;二是培训需求,一般打磨算法的准确性和纵深程度,是市场的主要需求。一般面向定制化服务,这对数据的准确性要求很高;第三是落地业务需求,这一般面向更成熟的核心场景,对服务感知有更高的要求。
在云聚数据看来,人工智能最终是为了商用,为了被使用,所以对人工智能的数据质量要求会越来越高、越来越准确,在场景中会出现更多的定制数据需求,除了提高数据安全性和隐私保护外,要保证数据的唯一性、场景性,才能真正帮助企业建立数据核心屏障。
由于云测量的企业服务基因,云聚数据结合项目管理流程能力,也保证了数据的准确性和机密性。但在某种程度上来说,云聚数据还需提供更准确、更有价值的数据,只有重头探索“人工智能数据服务”,不在过去的成就里故步自封,才能推动人工智能的进一步落地,帮助人工智能企业获取更多高质量的特定场景数据,构建自己的核心数据屏障。
云聚数据曾在全国多个地方自建数据场景实验室和数据标签基地,配备各种采集软硬件设备,建立了专业的定制采集和标注团队。
事实上,场景实验室是人工智能数据服务的重要组成部分,具有高度定制的数据布局,可以使云聚数据的交付能力与客户的需求平行。在自建的数据标签库中,可以将云数据的技术和项目管理能力迅速转化为特定数据标签业务生产力,完成数据质量的飞跃。
但是,云聚数据面临着一个不可忽视的难题——细分领域深耕难,因为这需要更深层次的知识积累、更精确和更安全的数据。有了这三种能力,云数据可以准确地抓住数据服务轨道变化的机会。
在AI行业,科技颠覆传统的速度总是比人们想象的要快。作为人工智能数据服务行业的一份子,数据采集之旅是星海,是撬动万亿级市场的艰难任务。
定制化、精准化困难
云聚数据总经理贾宇航说,对于需要使用人工智能数据的企业来说,“成功关键就是数据,失败的原因也不外乎数据”。这是一个既定的事实。这里的数据不仅是指数量,而且也指向精确度。人工智能数据用户实现精细数据采集和多维数据标注是非常重要的。
随着交互式人工智能的普及,深入研究和开发人工智能已成为企业发展战略的重要组成部分。通常,提高算法的精度是人工智能进化的重要途径,因此对数据的精度也提出了更高的要求。
提高数据的准确性方面,云聚数据还有待进一步提升。云聚数据必须根据客户的定制需求设置采集场景,为客户提供多场景、多形式的高精度数据,以满足不同企业对不同数据的需求。例如,在疲劳驾驶监测系统的研发初期,很难收集到驾驶员的危险行为数据。为解决这一问题,可以通过建立相应的场景实验室,利用专业人士在驾驶舱内模拟驾驶员的疲劳驾驶相关行为,如打瞌睡、玩手机等,模拟驾驶员的疲劳驾驶等相关行为。利用这组数据对人工智能进行训练,以建立减少交通事故的预警系统。
然而,在数据服务过程中,最重要的是数据采集后的高精度数据标注。如果没有准确的数据标签,收集的数据将处于无意义状态,不会被激活,其价值也不会被反映出来。在这一点上,我们不得不提到“数据注释”这个职业。
过去,“数据标签”常被贴上“劳动密集型”和“非技术性内容”的标签,但在贾宇航看来,情况并非如此。他认为,“数据标签”现在已经成为一个“技能密集型”行业。随着人工智能技术的飞速发展,数据标注行业正经历着快速的变革。“人工智能教师”是他们的新名字。以甄别标签为己任,为人工智能的真正智能而努力。通过不断掌握丰富的行业知识、专业技能和专业工具的使用,做好每一项复杂的数据标注工作,使数据标注的准确率从95%提高到99%甚至更高,确保人工智能更加智能化。
例如,在对车辆信息进行标注时,传统的数据标注只能保证人工智能能够准确识别95%的车辆类型、车身颜色等信息。有些企业需要研究道路设置问题,所以只需要道路基础设施的数据。而有些企业则需要所有的数据来针对车辆上路情况做汽车行业性研究。数据标注决定了数据的准确性,特别是容易被人忽略的那5%,这就需要专业的数据注释员来完成。实现更高质量的数据标注,确保每一个数据都能帮助人工智能产品快速落地,这也是云聚数据亟待解决的焦点。
人工智能的发展离不开数据的支持。没有数据作为“燃料”,人工智能就“难以前进”。过去人工智能数据服务是一种并行模型,现在逐渐形成金字塔模型。作为金字塔之上的数据服务提供商,云聚数据要有自己的发展战略。贾宇航认为,人工智能数据服务是一个资金、人员、软硬件设施投入相对较高的行业,但也是人工智能产品落地的重要因素。
云聚数据只有专注于高还原、高精度、高质量的数据,致力于帮助企业探索开发边界,才能通过提供健康的数据,真正帮助人工智能产业平稳快速发展。
AI数据服务诸多痛点亟待解决
随着科学技术的不断更新和迭代,企业变革的方向已经从信息化转向智能化。在这个过程中,如何获取数据成为最重要的痛点。
事实上,这一问题在产业转型中早已是普遍现象。回到智能化时代初期,企业正竞相加入信息化变革的行列。此时,互联网已经积累了大量的数据信息,可以用于企业的人工智能培训。但后来人们意识到,互联网上的数据过于简单,无法满足人工智能的发展速度,于是企业开始主动获取数据。
2005年以来,以亚马逊Mturk为代表的众包模式这一新的数据采集大行其道。这种众包模式当时被硅谷的许多公司采用。它最初用于训练人工智能算法、检测虚假新闻、删除社交媒体上的暴力内容等,也用于定量研究、市场研究等领域。由于其门槛低、效率高、使用方便,一度受到广大人工智能从业者和研究人员的喜爱,也在中国掀起了一股模仿浪潮。
然而,随着人们对人工智能的依赖程度越来越高,对人工智能的需求也越来越大,数据的质量和准确性自然也越来越高,这给众包数据服务商以及人工智能数据服务行业带来了巨大的挑战和机遇。
云测数据就在此遇到了较大的困难。不得不凭借多年来在互联网行业积累的经验,不断磨砺技术能力,来重新塑造品牌形象,以期在云数据采集领域获得成长。
数据服务未来在何方
人学习的过程是触类旁通的,但人工智能的学习是靠海量数据堆积和覆盖的,这就意味着人工智能的学习和进步需要全面准确的数据。2019年被称为5G元年,5G技术高速、低延迟、低功耗,将给数据业务带来新的变化。
5G将数量和速度跟上了,数据的“质”也得到日益提升,助推数据服务行业实现巨大飞跃,从而进一步提升了人工智能的智能化水平,催生出更多的AI产品。让5G技术推动整个AI数据服务行业发展,使整个行业更加繁荣。
不过,也存在一个不可忽视的质疑,随着科技的逐步进步,对人工智能数据的需求是否会逐渐下降?答案是否定的,因为当人们享受到人工智能带来的红利时,他们的期望会增加,数据需求也不会有上限。
比如,智能手机刚问世时给人们带来了一丝新意,但人们没想到的是,几年后,智能手机、人工智能的应用场景会给我们带来如此巨大的便利,人工智能的力量从当前视野域值是看不出来的。但随着其越来越强大的过程中,其数据缺口也将越来越大。
目前,云聚数据在人工智能数据服务中遇到的各种难题,其实是行业发展的难题,透过这一小的综合体也可以影射整个数据服务行业的发展。
如何实现人工智能数据服务质量的飞跃,云聚数据还需克服过去数据服务行业的困难,使数据服务场景化、细化、质量化。通过提供定制化的数据采集、高精度的数据标注等服务模式,逐一解决遇到的种种困难。
特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)