工欲善其事,必先利其器。
在人工智能技术与产业深度融合的时代背景下,基础数据服务行业的重要性愈发凸显。如何为AI行业提供优质、场景化的数据服务,是摆在一众数据服务企业面前的首要难题。
行业竞争愈发“内卷化”,这对数据服务企业的产品迭代速度与产品质量均提出了更高的要求。
截止目前,曼孚科技数据标注工具经历了两代更迭。第一代数据标注工具主要解决了标注工具有无以及是否好用的问题。
然而,即便我们将数据处理效率提升至行业平均水平的几倍以上,但我们认为,这仍然没有突破传统数据处理工具的条框——我们的工具与诸多竞品工具相似,功能都仅限于将非结构化数据转化为结构化数据,这并没有技术壁垒,也没有产生质变。
于是我们想做一些其他人还没有做的事情,用平台来更好地实现对AI数据全生命周期的管理,于是SEED平台应运而生。
SEED平台全称为“SEED数据服务平台”,我们将SEED定义为“平台”而不是“工具”,是因为我们认为数据从诞生到被算法模型调用的全生命周期内,需要历经的过程通常包括采集、清洗、标注、质检审核、交付等流程,中间还会穿插数据集的管理、人员的管理、项目的管理、供应链的管理等众多内容。
以往传统的数据标注工具解决的仅仅是标注这一流程,项目管理、团队人员管理等依靠的仍然是传统口耳相传模式,在沟通效率、执行成本以及流程透明度等方面表现不尽如人意。只有流程化、规范化、标准化的平台,才能有效满足大规模AI基础设施建设带来的迫切需求。
所以,为了更好地满足AI基础数据多样化的需求,突破数据与应用场景之间存在的边界,解决以往使用单一工具在执行效率上的欠缺,曼孚科技自研了一套贯通数据处理、项目管理和数据安全管控等各环节于一体,并且能对图像、文本、语音、视频以及3D点云数据做到一站式处理的SEED数据服务平台。
在未来的一段时间内,我们将推出系列文章,从“数据标注”以及“项目管理”两个角度详细介绍SEED平台各个功能模块,详尽展示SEED平台在数据生命周期管理方面的独到之处。
本篇内容为系列文章的第一篇,详解SEED平台的多场景数据处理能力:
根据数据类型的不同,标注类型可大致分为计算机视觉、语音交互以及自然语言处理三大类。其中计算机视觉又可以进一步划分为计算机视觉-2D以及计算机视觉-3D两种类型。
SEED数据服务平台具备三大标注模式以及四维标注工具,全面覆盖计算机视觉、自然语言处理以及语音交互等具体应用场景,满足不同应用场景下的各类数据标注业务需求。
计算机视觉-2D
计算机视觉-2D处理数据类型以2D图像类数据为主,常见的标注类型包括2D框、多边形、3D立方体、关键点、多段线、全景语义分割、贝塞尔曲线、椭圆等。
计算机视觉-3D
计算机视觉-3D处理数据类型以3D点云类数据为主,常见的标注类型包括单帧物体检测、连续帧、2D3D融合标注,点云语义分割等。
语音交互
语音交互处理数据类型以语音类数据为主,常见的标注类型包括ASR语音转写以及TTS语音合成等。
自然语言处理