更新时间:06-11
我刚从朋友的公司回来,他正对着电脑屏幕发愁——刚拿到一份标注数据,说是花了二十万外包做的,结果一检查,错误率超过百分之二十。标注公司这些年火了,从无人驾驶到人脸识别,从语音助手到医疗影像,哪家AI公司都离不开这帮“数据民工”。奇怪的是,这个行业明明干着最脏最累的活,却始终没几个能上台面的大公司。我翻了翻行业报告,全国做标注的企业少说上千家,但年营收过亿的,真的两只手数得过来。

这个行业的门槛低得吓人。我认识一个老板,三年前在二线城市租了两层民房,拉了三十台电脑,招了一群中专生,就这么开张了。客户是某家做安防的AI公司,要求标注视频里的人物行为——谁在走路、谁在跑、谁在打架。活不难,就是耗眼睛。员工一天对着屏幕八、九个小时,框框点点,一个月挣四千块。老板呢?每单抽成大概百分之三十,一年下来净赚两百万左右。但这种模式能撑多久?员工干半年就跑,眼睛受不了,颈椎也受不了。流动性大,质量难保证,客户投诉多了,单子自然就跑了。
大公司也在想办法破局。百度、阿里、腾讯这些巨头,早几年就开始自建标注团队,却很快发现养不起。一个标注员月薪五千,百个人就要五十万,加上管理成本、场地、设备,一年烧掉七八百万。关键是一旦技术升级,比如从2D标注变成3D标注,原来的团队就得重新培训,成本又会往上翻。所以现在巨头们搞了个折中方案——核心数据自己标,海量数据外包给第三方,但要求标注公司必须在他们平台上操作,用他们开发的工具,数据实时上传,等于把标注公司变成了“数据车间”,自己牢牢控制着流水线。
真正拉开差距的是标注的质量管理。我见过一家做医疗影像标注的公司,他们是这么做的:每个病灶区域至少三个人标,有分歧就交给专家仲裁。一个肺结节,从标注到最终确认,可能要过五、六道关。这样下来,错误率能控制在百分之一以下。但代价呢?成本是普通标注的三倍。另一家做无人驾驶的公司更狠,他们把标注员分成两组,一组标,一组查,查出来的错误直接扣钱,扣到标注员自己都怕。这种管理方式确实能保证质量,却让员工怨声载道,离职率高得吓人。
行业里还有个隐性门槛——数据安全。去年有个案例,某标注公司的员工把客户的人脸数据打包卖了,在暗网上标价两万。事闹大后,甲方纷纷要求标注公司通过等保认证、装监控系统、签保密协议。一套下来,小公司直接被门槛绊倒。我朋友的公司去年想接一个金融客户的单子,对方要求标注员的电脑不能插U盘,不能连外网,每台机器都有摄像头对着屏幕,数据加密传输。他们算了一下,改造机房、买设备、搞认证,至少要投五十万。这笔钱对于年营收两三百万的小公司来说,是一道天堑。
自动化标注工具这几年进步很快。我试用过一家创业公司的产品,上传一批图片,算法能自动识别出百分之七十的目标,剩下的才需要人工修正。这意味着同样一百张图,原来要花一小时,现在二十分钟就能搞定。但问题来了——工具买不买?一套专业标注软件年费五万,买十套就是五十万。小公司觉得肉疼,大公司觉得效率提升值这个钱。于是行业开始分化:有钱的公司靠工具降本增效,没钱的还在拼人海战术。这种分化会越来越明显,三年后可能就看不到纯靠人力堆的标注公司了。
我朋友决定不接那批错误率高的数据了,他打算自己组建质检团队,哪怕成本高一点,至少能保住老客户。他说了一句话挺有意思:“标注这行,赚的不是快钱,是信任钱。你给客户省了钱,但丢了信任,那才是真正的亏。”我点点头,心想这个行业虽然看起来又土又累,但能活下来的,终归还是那些愿意下笨功夫、守得住底线的人。