图源:pixabay
今年上半年,一线城市的科技圈被人工智能激活了。
文心一言、通义千问、光年之外等大模型一波接着一波地运送热度,手握顶级资源的大佬们站在这场盛会的核心地带,他们相继发出英雄帖,有关大模型人才的争夺也摆上了牌桌。
作为与AI家当链紧密相扣的一环,间隔北京500公里的山西太原数据家当基地却波澜不惊,这里聚拢了上千名人工智能标注师。他们评论辩论的话题勾留在项目进度、拉框达标率和一日三餐。
“热闹是他们的,我们只有数不尽的拉框。”一位数据标注师向时期财经说道。
在数据标注公司老板何晴影象里,热闹发生在四五年前。人工智能的东风第一次刮向这个中西部城市,敏感的贩子开始划地盘、招人,向人工智能源源不断地供应“养料”。他们大多是人工智能的门外汉,由于突如其来的弘大用工需求,与前沿科技产生了奇妙的联结。
“当时很多老板把自家人全都拉过来,随便动动手指都能赚到钱。”何晴听说过数据标注行业内不少振奋民气的——有人在三个月内收入百万,也有人抢到的订单能排到第二年。
但这样的好日子正在逐渐远去。
体面的“流水线”
上午8点45分,黑压压的人流堵在了电梯口,只有三分之一的人挤上了第一趟电梯,所有人终极的目的地都在6楼。
电梯门缓缓打开,人群一下子向四面八方散开,走进一个个看不出任何差别的办公室——100平米旁边的空间摆满了上百台电脑,主机、鼠标、键盘线密密麻麻缠绕在员工脚边。
“只要顺着门牌号,一家家问过去,全是做数据标注的。”园区内底楼的商贩如此形容道。
这座吸纳近千人的数据标注基地像是藏在园区内的隐秘网吧,坐在电脑前的人闇练地点击着键盘和鼠标,一平方米旁边的桌子被体积弘大的电脑霸占。
正在事情中的数据标注师 图源:时期财经摄
唯一能彰显个性的,是戴在头上五彩缤纷的耳机,他们有着一个共同的身份:数据标注师。
鼠标在旁边键来回敲击,屏幕上的图片随着放大缩小,光标飞快地描述出一个个大小不同的框框……重复的动作持续半小时后,美玲稍稍扭了一下脖子,脊椎处的骨头发出咯吱咯吱的声音。
“新人熬过第一周就行了,做闇练了上手很快。”美玲一边仍连续盯着屏幕,一边对时期财经说道,第一周就放弃的人高达30%。
每隔两周,领班周姐就会带着十几个新人开启学徒生涯,这样重复无聊的事情劝退了不少年轻人。
两年前,美玲从幼师转型成了一名数据标注师。她的老家——吕梁的事情岗位很少,电话发卖是个中一个比较体面的归宿,如今在人工智能浪潮的影响下,数据标注师为县城女性供应了另一种选择。
半年前,由于标注基地的变动,美玲从老家来到了省会太原。“自动驾驶、人脸识别哪一个不须要大规模标注员的参与。”她流露出骄傲的神色,在家里人看来,坐在办公室操作电脑、月收入超过3000元,报酬已经超过县城大多数事情了。
2005年,打算机视觉专家朱松纯从美国回抵家乡湖北鄂州,创办了莲花山研究院,并由此组建了中国最早的大数据标注团队。随后,数据标注厂逐渐在二三线城市生根,河北、河南、山东、山西等地区涌现家当集群地。
通过重复的标签演习,让人工智能走到“觉醒”时候,在美玲看来,这和之前的幼师事情一样。
数据标注是人工智能产品出身的第一个环节,接下来,还要经历模型演习与优化、模型管理、推理运用等。喂养人工智能产品须要数以亿计的数据,这些数据会最先流向“美玲们”的电脑。
不过,美玲对“高科技”的抱负,在重复机器的鼠标声中一点点被打碎。她测算过,1500个框是每天事情量的极限,一旦超越这条鉴戒线,眼球就会一阵阵酸痛。
放工后,即便对着电视机,她看到的也是一片斑驳的马赛克,像极了一张张放大后须要标注的模糊图片。
“隔壁座位上总是陌生的面孔,同事之间很少互换。”事情了一年半后,在同一基地上班的吴霞还没有习气办公室的沉默。
大专毕业后,原来她随着同学一起进厂,后来由于项目变动、同学离职,她成了“独行侠”。事情一开始,办公室就变成了自动化流水线启动的“车间”,冷冰冰的工业化气息,没有多少人情味。
单独计件、不须要团队协作是数据标注行业的特性之一,由此形身分歧于普通白领的管理办法。
在这里,标注师没有固定的工位,而是根据项目变动随机分配几百号人的流向。最长的项目2-3个月,短期项目只有2-3天,十几个人的项目小组设置一个管理员,时候紧盯每个人的事情进度。
标注师也不会把精力用于经营同事关系,计件工种讲究效率和专注度,韶光和金钱挂钩,要完成均匀标准的1000个框,意味着均匀每分钟要完成2个框。
“跟别人说话的间隙,就会少赚好几框的钱。”美玲说道。
富士康工人流向标注厂
在数据标注园区内,还零散分布着技能研究院和留学生创业基地。在孟然看来,这些“高端”岗位都离他很迢遥。
上大学前,他没有离开过老家临汾,大学毕业后,家里人希望他不要离开本省。基地两公里以外,是富士康太原科技工业园。这个厂区吸纳了当地最生动的用工人群,顶峰期间,有近6万人活动在厂区的流水线上。
不管如何折腾,大学生孟然的求职流动半径从没超过5公里。他曾经从数据标注基地二期搬到三期;在正式成为数据标注师之前,隔壁的富士康曾是他燃烧青春的地方。
间隔数据标注基地不到2公里的富士康园区 图源:时期财经摄
孟然曾经连续两个假期进厂赢利,每次在拿到一笔大几千元的报酬后,便匆匆离开。
每到寒暑假,富士康园区门口都站满了拎着大包小包行李的大学生,所有人的目标都指向了整年最高的返费和小时费。“大家都是过来赚快钱的,旺季一过就打包走人,工厂忙起来太辛劳了,很难长期坚持干下去。”
孟然不喜好富士康的事情氛围。进入车间前,要把电子设备上交,每天面对的的只剩下着装相似的赶工人潮和萧瑟冷峻的厂房。当碰着脾气暴躁的班组永劫,每天受到来源盖脸的谩骂也是家常便饭。
伴随着生产线启动的轰鸣声,工人须要一直安装某个零件,这样的动作每每要持续10个小时以上。在完备封闭的空间内,连入迷都是奢侈的事情。等到领班轻微放松管理,孟然才敢和身边的工友聊上几句话。
2018年,在阁下的数据标注基地落成后,孟然的事情有了第二种选择。仅仅在只隔了一条街的间隔外,就有一个更舒适的事情唾手可得。
王菲曾是富士康的招聘专员。工厂淡旺季和职员变动,加上模糊的返费报酬和常常变卦的收入,让她常常陷入和打工者的无止尽拉扯中,标注师对她来说是更好的选择。
“前几年数据标注门槛低、单价高,每个月能保持4000元收入,而且做的项目都是大厂有关的业务,比较有保障。”王菲见过有不少闇练工离开基地另谋出路,但又兜兜转转回来的。
不少标注师有着和孟然相似的事情轨迹,电子厂的事情经历是他们简历的共同点,数据标注工厂成为他们离开电子代工厂的下一站。
用工数量大、收入可不雅观、操作大略的共同点,无形中搭起了一座两公里的天桥,将两座超级工厂连接在了一起。
消逝的项目和公司
对付标注师来说,一个直不雅观的感想熏染是:好日子快到头了。
单价几毛钱的项目不见了,一个标注框的价格卷到了几分钱;大略的平面描点拉框消逝了,取而代之的是须要多维度标注的点云项目;正式员工逐渐从项目组离开,性价比更高的演习生撑起了一半以上的用工量。
数据标注公司老板何晴长达半年没有来过基地,她逐步减少了对公司的投入。
去年下半年开始,她的团队再也没能接到客单价高的项目,客户账期也从三个月拖到了半年。“很多现金流不足、不具备垫资能力的小厂倒闭了,我们的团队成员也少了三分之一。”
三年前,标注框一度点燃了李薇的激情亲切,慢热、不善于沟通的她觉得自己找到了“天选”事情。
李薇接过单价为0.25元的项目,效率高的时候,她一天能拉框1200个,一个月赚近8000元,“为了能多赚一些钱,有人买来主机在家开工,任何人只要做得闇练了,都会收入变多”。
和其他人一样,李薇模糊以为淘金时期结束了。
公司启动了全新的项目,呈现在面前的不再是真实天下的路况图,而是由成千上万个绿色的、紫色的、蓝色的点构成的模型图,一张落成的图片中包括近百个标注框,而一整套题又是由几十张只有细微差别的图片构成的。
繁芜的操作界面 图源:受访者供应
“须要反复在平面图和3D切换,一些被隐瞒住的画面得靠脑补,边框精确度也哀求掌握在0.01米,事情性价比越来越低了。”只要与哀求的范围偏差多出1毫米,就会被审核无情地打回去。
数据、算力、算法是人工智能的三大基石,数量越多、质量越高的数据,每每能够演习出更加成熟的大模型,表现在标注师的事情上便是不断被拔高的精确度。
“这几天又在调度规则,精确度哀求提高到80%以上。”精确度成了标注师的“去世穴”,也是他们抱怨时涌现的高频词汇。
一张标注完成的图片还要经由审核、质检等2-3个环节,否则不能进入结算周期。
有时候,吴霞觉得自己像被困在繁芜的迷宫里,怎么都出不去。她曾被一个新项目磨了近一周——一边上交题目,一边被不断打回,这让她陷入焦虑。“如果题目被打回的频次太多,就会被分配给其他人,前面的精力全空费。”
孟然的焦虑则是另一种。从去年8月开始,他的事情变得清闲起来,过去5分钟内积压上万的数据量,现在半个小时也不会有负载红线。
“可能是平台数据量变少了,也有可能是机器审阅的效率提高了。”孟然的不屈安感很快得到了印证,由于事情量被迫减少,他每天的收入从一两百元降到了几十元。
一场淘汰赛在各大代理商中蔓延开来。孟然见过有团队一夜之间终结,十几名被拖欠薪资的员工把公司告到劳动局;情形轻微好一点的,会连同电脑和员工转让给下一个代理商。
“保险起见,还是要去职员规模超过30人的团队。”这是孟然给新人的忠言。
标注师正退出历史舞台
熬过了一周的培训期、挺过了半个月的生手期,今年5月,身在湖南的晓婷终于适应数据标注师身份,却见证了公司的快速下坠、直至消亡。
“入职一个月,公司就撑不下去了,老板请大家吃了分伙饭,但人为还要等几个月再发。”在晓婷看来,当前数据标注行业遍布“地雷”,风险远大于收益。
无论是数据标注的创业者,还是恒河沙数的标注师,都无法回避一个事实:在大模型施展拳脚的舞台上,人工数据标注逐渐无足轻重。
和美玲想象的幼师事情不一样的是:学生不会那么快抢走老师的事情。如今,被标注师哺育起来的大模型技能正迅速反哺数据标注流程。
以特斯拉为例,其自2018年以来不断发展自动标注技能,从2D人工标注转为4D空间自动标注。技能的进步,吞噬了人工标注的操作空间,2021年特斯拉人工标注团队超过1000人,2022年则裁员超过200人。
其他车企公司包括小鹏汽车和毫末智行也纷纭推出自动标注工具。毫末智行CEO顾维灏公开表示,目前获取车道线、交通参与者和红绿灯信息,人工标注本钱约每张图5元,而毫末DriveGPT的本钱仅为0.5元。
2019年,在一线城市从事AI数据演习师吴迪便预感到自己职业生涯的天花板,他所在公司卖力研发电商平台智能客服项目。比他设想的进度更快,不到一年,他卖力的数据标注10人团队便被全部砍掉,只保留了零散运营职员。
“项目不断成熟的那天,便是我们不被须要的时候了。”
大模型的进化像是一条奔驰不息的河流,总在某一个瞬间奇袭,把人工团队甩在身后。
在苏黎世大学今年3月份的一份调查报告中,研究职员通过实测创造,ChatGPT在15项标注任务中的处理能力高于众包职员。
今年4月初,在校医学生李捷在一个月内完成了某大厂在医药领域的文本标注,该项目将用于供应智能诊断对话做事,这也让李捷第一次感想熏染到大模型进化的速率。
“一开始,我们不断给平台投喂分类医学名词,到了第二周,系统就能自动实现基本的名词分类了,而且精确率超过90%。”
在山西太原,基地领班周姐开始劝新人接手难度更高的项目,由于公司很难再承受项目一次次被搁置的压力。“目前越大略的标注业务利润越薄,有的项目做到一半就黄了,人力本钱完备覆盖不了项目的收益”。
一位数据标注行业招聘人士见告时期财经,今年以来,招聘门槛逐渐从专科生向本科生倾斜。“之前对标注师基本没有履历哀求,现在很多公司都希望新员工可以直接上手做项目,这样能减少前期的培训本钱。”
目前,智能标注能大致捕捉到物体的基本形状和位置,但是在精准度上,仍旧掉队于专业的标注师。
没有人知道智能标注会在什么时候迎来大爆发,但一种不屈安感始终伴随着李薇。每当她打开新项目页面,代表智能标注的红框总是率先跳出来,仿佛无时不刻地提醒屏幕前的人:
终有一天,它会取代她的位置。
(文中受访者皆为化名。)