更新时间:06-08
我手机里装了三款地图软件:高德、百度,还有苹果自带的地图。每次打车,司机师傅都会同时打开两个导航,嘴里念叨着“这个路口高德说能左转,百度说不行”。这种日常的纠结背后,藏着地图数据标注这门庞大而琐碎的产业。地图不是拍张卫星照片就能用的,它需要把现实世界的每一寸土地、每一条路、每一个门店都转化成数字信息。标注员的工作,就是对着屏幕上一张张无人机拍下来的图像,用鼠标圈出哪里是车道、哪里是人行道、哪里是加油站。听起来像在玩一个永远不会结束的“大家来找茬”,但一旦出错,就会让司机多绕五公里,或者让外卖小哥在小区里转晕。

标注的精细程度,比想象中要复杂得多。一条普通的双向四车道,标注员要区分出主路、辅路、公交专用道、非机动车道,甚至连路中间的隔离带是水泥墩还是绿化带都要标清楚。导航软件里那句“前方300米靠左行驶”,背后是标注员把几百米的路段按照车道级精度切分成无数小段,每段的走向、宽度、限速都要精确到厘米。我认识一个在郑州做标注的朋友,他说最崩溃的是标注高架桥的匝道,桥上和桥下的道路在二维图像里完全重叠,必须靠高度数据和前后逻辑才能判断哪条路该从哪上去。这种活儿干久了,看现实世界都觉得处处是图层。
标注行业的主力军不是程序员,也不是工程师,而是一群被我们忽视的普通人。河南、山东、河北的县城里,藏着几百家数据标注公司,招聘的全是高中或大专毕业的年轻人,月薪三四千块。他们对着电脑,一天要点上万次鼠标,圈出图片里的行人、车辆、红绿灯。工作不需要太多专业知识,但需要极度的耐心和细致。有个标注员跟我说,他最怕接到“复杂路口”的任务,一个路口能有十几条车道、七八个方向,光是把每个方向对应的交通灯标清楚,就得花一个小时。这些年轻人用眼睛和手指,把混乱的现实世界翻译成机器能读懂的语言,却很少有人知道他们的存在。
地图数据的更新速度永远追不上现实世界的变化。今天新开了一家商场,明天封了一条路,后天共享单车堆满了人行道。地图公司养着一支庞大的“路测车队”,车辆顶着摄像头和激光雷达满城跑,拍下最新的路况。但更麻烦的是那些“微小的变化”——路边的小摊、临时施工的围挡、小区里新装的减速带。这些细节在卫星图上看不到,在街景图上也可能被忽略,却在导航时决定安全。部分地图公司开始用众包模式让用户上报路况,但用户上报的信息仍需人工核实,反而让标注员的工作量更大。
标注标准的不统一是行业里最头疼的问题。高德和百度对同一条路的标注规范可能完全不同,车道数、限速值、甚至名称都可能不一样。更麻烦的是,同一家公司的不同批次标注员对同一段路的理解也会有偏差。有的认为路沿石属于道路边界,有的认为属于人行道。这种不一致直接导致导航时出现“忽左忽右”的尴尬——明明在同一条路上,导航一会儿提示靠左,一会儿提示靠右。地图公司尝试用自动化算法统一标准,但一遇到复杂的立交桥或老城区的小巷,算法就失效,仍需人工判断。
AI技术这几年突飞猛进,很多人以为标注工作很快会被机器取代。但现实是,机器学习模型需要海量、高质量的标注数据来训练,而这些数据恰恰需要人类标注员来生产。一个自动驾驶公司的负责人跟我说,他们训练一个识别行人姿势的模型,需要标注员把图片里每个人的胳膊和腿的位置都标出来,连手指指向都不能错。这种精细度目前的AI还做不到。更讽刺的是,AI越发展,对标注数据的需求反而越大——模型需要更复杂的场景、更极端的天气、更罕见的交通状况来训练,而这些都得靠人工一点一点标出来。
标注行业正在经历一场无声的变革。大厂把标注业务外包到成本更低的东南亚和非洲,印度、菲律宾、肯尼亚的年轻人也开始对着中国的街景图圈点。但那些复杂、需要本土经验的任务——比如识别中国特有的三轮车、电动自行车以及各种奇葩的交通标志,仍然得靠国内的标注员。行业里有个不成文的规矩:简单任务给海外,复杂任务留国内。这种分工背后,是全球化成本与本土化知识壁垒之间的博弈。
我有时候觉得,地图数据标注就像一场永远在进行的“数字迁徙”。真实世界的每一条路、每一个路口、每一块指示牌,都被标注员们小心翼翼搬进数字世界。但这个世界永远不会完工,因为现实每天都在变化,标注员只能跟着跑。下次导航时,如果听到“前方500米有摄像头”,不妨想想那个在县城小屋里、戴着厚眼镜、对着屏幕点了一整天鼠标的年轻人。他可能不知道自己的劳动最终会被谁使用,但他用最笨拙的方式,帮我们在这座复杂的城市里找到方向。