这一劳动力市场,印度世界最大!80%“数据工人”来自村镇
来源: 时间:2024-05-31
人工智能(AI)产业的高速发展催生出一个重要职业——AI数据标注。它通过为机器学习的原始数据(如图片、视频等)打上标签,让计算机不断识别这些数据的特征,从而实现自主识别。

这是2023年2月15日在美国旧金山拍摄的waymo公司无人驾驶出租车  新华社/美联

AI数据标注职业产生之初,标注员们往往能获得相对丰厚的薪酬,且部分标注工作的门槛较低,入职难度不大。但如今,AI数据标注员正逐步向人力成本更低的城市下沉。

一直以软件外包闻名,且人力成本较低的印度,就在此背景下崛起为世界重要的外包数据标注服务商,甚至被认为是最有潜力成为世界最大的数据标注劳动力市场。很多人不知道的是,80%以上印度AI数据标注师(或称数据工人)来自农村和小城镇。

1
抢抓“数据标注”市场

在距离新德里市中心约30分钟车程的诺伊达数据注释公司Cogito Tech的办公隔间内,数百名刚从大学毕业的年轻人,正在用数字工具识别和标记他们屏幕上的图像。Cogito Tech与美国公司Labelbox合作,主要为通过训练机器执行人工智能相关任务的公司开发数据标签软件。

在印度南部喀拉拉邦小镇曼纳卡德一间不起眼的办公室里,十几位女工紧盯电脑屏幕,为自动驾驶汽车的车载摄像头摄录的车辆、交通信号灯、道路标志和行人的图像进行高亮显示和标记。这项工作最有挑战性的,是精确标记被称为LIDAR(光探测和测距)的远程传感器捕获的数据,该传感器为自动驾驶汽车创建3D地图,以获得对周围物体的感知信息。

在印度西部城市普那(Pune)的郊区卡拉迪(Kharadi),忙完一天的工作后,一些村民会习惯性地打开智能手机上的一个应用程序,对着手机用他们的母语马拉地语(马哈拉施特拉邦地方语言)朗读故事或念一段句子。作为印度人工智能初创公司Karya的数据工人,他们的声音将用于训练马拉地语的人工智能模型。

有30万注册用户的印度数据标注众包平台Playment,每天吸引着超过2万名“高技能顶级玩家”,他们看似在玩游戏,实际上是在为自动驾驶汽车、机器人以及无人机等项目手动标识数据,帮助公司加速其机器学习,并从中赚取每人每月2万~3万卢比(1卢比约合0.086元人民币)收入。

这些案例中的主角,都可以被称为“数据标注师”。

由于训练数据的数量和质量对人工智能模型的准确性和有效性至关重要,而标记训练数据集不仅是一项耗时、复杂的繁琐工作,且需要大量劳动力,因此缺乏适当资源的科技公司便开始寻求外包数据注释服务。印度过去数年来的IT外包实践,恰好使其成为这种外包数据标注的重要目的地。

印度软件与服务业企业协会(NASSCOM)高级副总裁兼首席战略官古普塔在接受专注IT趋势的《分析印度》杂志采访时表示,数据标注在印度算是一个新兴行业,每个人都意识到它带来的巨大机会——人工智能需要被正确标注、分类和匿名处理的海量数据。

“数据标注公司在印度纷纷诞生,就适应了这一日益增长的市场需求,为此许多公司正在利用全球‘零工'人才库。”印度人工智能公司HEAL Software Inc.首席销售和营销官穆克莱告诉《分析印度》杂志。“印度为数据标注市场提供了巨大的人才库,他们具有基本的计算机技能,可以随时使用智能手机,与美欧的时差甚至都可能成为一种资产。”穆克莱强调。

NASSCOM在一份关于数据标注市场潜力的报告中称,截至2021年,约有7万印度人从事数据标注工作,其市场规模估计为2.5亿美元,约60%的收入来自美国。预计到2030年,印度的数据标注市场价值可能超过70亿美元,通过全职和兼职就业模式雇用的数据标注劳动力将达100万人。印度目前是世界上最大的数据注释劳动力市场之一。

2
他们来自乡村和小城镇

据NASSCOM调查,目前印度超过80%的数据标注员来自农村和小城镇;超过90%的数据标注公司在二三线城市建立了中心。印度农村和小城镇无疑在新兴的生成式人工智能(GenAI)的发展机会中发挥着重要作用。

代表印度数据标注公司较高水平的Infolks,就是由科拉瑟里在其家乡喀拉拉邦的一个偏远小村庄库马拉普图尔创建的。科拉瑟里创业能取得成功,也得益于他的数据标注师经历。

据媒体报道,家境贫寒的科拉瑟里在十二年级(印度高中阶段)时便辍学。为养家糊口,他曾尝试打过多种零工。2014年,23岁的科拉瑟里在亚马逊公司旗下的众包平台Mechanical Turk上注册,并开始为全球各地的公司提供数据标注服务。尽管没有任何学位,也不知道什么叫数据标注,但这些并不妨碍科拉瑟里出色的发挥。两年半时间内,他完成了30多万项数据标注任务,被批准率高达99.8%。

科拉瑟里在众包平台上的高评级受到一家从事数据标注的德国公司关注,这家公司希望他成立一个团队。于是在2016年,科拉瑟里凭借2.5万卢比的初始投资和6名员工,在自己的家乡启动了Infolks。

经过几年发展,与该公司合作的企业客户已超过130家,其中包括戴姆勒(2022年更名为梅赛德斯-奔驰集团股份公司)以及不少国际大牌科技公司。Infolks大约75%的业务集中于自动驾驶汽车领域,此外还为医疗保健、机器人和农业等领域的客户提供数据标注服务。

值得一提的是,无论事业发展如何,科拉瑟里始终坚持把工作机会留在自己的家乡,“公司的愿景是将我们的村庄打造成一个全球性村庄,并为农村地区年轻人提供发展机会”。

目前,Infolks雇用的几百名员工大部分来自库马拉普图尔及其周边地区,新员工在接受为期两个月的图像标注工具培训后,便可上岗。“经过适当培训,所有人都可以在没有任何AI技术背景的情况下进行图像标注——你只需要快速学习”,科拉瑟里经常这样以亲身经历激励新入职者。

米塔创立的NextWealth公司,也是一家立志为小镇青年创造就业机会的人工智能公司。在此之前,米塔曾在印度信息技术巨头维布络有限公司(Wipro)担任首席技术官长达20年。目前NextWealth的6个中心雇有5000名员工,从事人工智能和机器学习数据服务以及后台工作,这些中心均开设于一些印度不知名的小城镇。

米塔在接受《分析印度》杂志专访时表示,生成式人工智能的美妙之处在于,它不会将来自偏远地区的人们拒之门外。他认为,小城镇的毕业生已被证明具有高度的可培训性和大规模可用性,他们关注细节,具有积极的工作态度。与大城市相比,小城镇员工的流失率更低,岗位更具稳定性。

3
“赋予尊严的工作”

在印度的数据标注师中,最富特色的当属为人工智能初创公司Karya提供数据的乡村众包员工。Karya在梵文中意为“赋予尊严的工作”。该公司不仅雇用大量农村地区妇女,还专门建立了基于智能手机的数字工作平台,旨在通过语音、文本、图像和视频创建高质量的数据集,以训练涉及12种濒临消失的印度地方语言和方言的大型语言模型。

Karya见证了大量成功案例,来自乡下的“数据标注师”的故事不仅被多家媒体报道,也激励着更多农村人加入到人工智能入门级工作中。

纳亚克来自印度东部奥里萨邦一个盛产手工艺装饰品的村落,一次偶然机会使她成为Karya公司的数据工人。在纳亚克看来,她的工作非常简单、自由且收入不菲——在任何空闲时间里,拿出手机点开一个应用程序,然后用其母语奥里亚语(奥里萨邦地方语言)说话,当语音文本被录下来后就可得到报酬。

工作的第一周,纳亚克便拿到4000卢比薪水,这比她和丈夫通过制作手工艺品换取的每月不足1000卢比的收入高出数倍。

村民昌德里卡是Karya在卡纳塔卡邦雇用的数据工人,仅仅通过大声朗读其母语卡纳达语文本,她便可赚取每小时约5美元的工资,这几乎是印度官方最低工资的20倍。一旦语音剪辑被验证为准确,她还会额外获得50%的奖金。

通过自己的声音改变自家经济状况,这令乡村数据标注师们感到很振奋,虽然他们并不理解自己工作的意义是什么。为此公司为员工想出了一个最简单的解释:“你们正在教计算机说你们的母语”。Karya运营总监萨希什库马尔告诉《分析印度》杂志,“对于语言录音,农村人实际上比城市人做得更好,他们不容易分心,工作时全神贯注。”

如今,与微软和谷歌均有合作关系的Karya公司,数据收集工作已经惠及印度24个邦的3.5万农村人口,员工通过智能手机完成了超过3500万小时的付费数据任务,每位员工每小时的报酬不少于5美元。

微软印度研究院研究员古哈告诉印度《经济时报》记者,Karya收集的数据质量远远优于其使用过的任何其他来源。这表明,“如果你公平地支付工人工资,他们就会更多地投入工作,最终结果就是获得更好的数据”。

4
AI会取代AI数据工人吗

帕德玛普里亚于2021年在Infolks开始从事数据标注工作——给道路上的图像等贴标签,以训练无人驾驶汽车的人工智能模型。帕德玛普里亚告诉《印度快报》专栏作家迈赫罗塔,这份工作让她能够养家糊口,成为家里的顶梁柱。不过这也让她总是担心,机器总有一天会学到一切,导致人类失业。

帕德玛普里亚的老板科拉瑟里似乎也有同样的预感。迈赫罗塔在她的文章中援引科拉瑟里的话说,“(既然)呼叫中心的工作已经由机器人接管,那么数据标注工作也可能会消失。几年前,我们甚至没有听说过这个行业。我不知道它什么时候会结束,但这一天总会到来。”

毕竟在AI面前,无论成本还是效率,人类几乎毫无优势。苏黎世大学研究发现,在成本上,ChatGPT平均每个标注成本低于0.003美元,仅为众包平台的1/20;在效率上,如在相关性、立场、主题等任务中,ChatGPT是人类的4倍。

来自美国卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员更是发现:GPT-4在数据集标注表现上优于他们雇用的最熟练的众包员工。有评论认为,AI数据标注员需要做好被AI取代的准备。目前在自动驾驶领域,已经有车企开始采用AI进行标注。

印度排名前列的数据标注公司iMerit的技术和营销副总裁纳塔拉詹则有另一番见解。他对印度前沿技术信息网站FactorDaily记者表示,基于AI的自动标注工具并不是一种威胁,因为自动标注工具本身就是人工标注训练的结果。当你试图解决某个问题时,这些自动化工具只能帮你达到有限水平,但要超越这个水平,还需要定制标注。纳塔拉詹强调,即便AI已经达到某种水平,也永远不会达到百分之百,它将始终是一个不断学习和改进的过程。

基于上述乐观分析,一些印度业内人士表示,印度的数据标注市场和标注公司还未发展到顶峰。正如NASSCOM所指出的,目前印度数据标注市场仍在加速发展,75%的参与者处于初始和成长期。这意味着印度的数据标注业还有巨大成长空间,而市场的壮大必将吸引更多从事数据标注的劳动力参与进来。