有在关心 AI 人工智能发展的朋友应该都知道 AI 系统是需要训练的,为了要让他们可以准确的执行「特定任务」,这些人工智能需要收集十分庞大的数据。
而一项新的研究发现,原来有很多人开始「偷吃步」花钱训练 AI 模型,简单来说就是这些人觉得训练 AI 是一个很麻烦的工作,所以就把这个责任又在「外包」丢给别人做。
有许多公司使用像是 Amazon Mechanical Turk 等的「外包网站」(Crowdsourcing Website),并将「小任务」交给网站的「合约工作人员」,大家能在这些网站上,发布一些各种难以自动化的任务给这些合同工,例如:解决验证码、标记数据和注文字材料等等。然后,这些「工人」完成的数据就会交还给公司,公司再输入到 AI 模型里训练 AI。
不过,现在大家都说这些所谓的「合同工」其实就是 AI 人工智能?所以,言下之意就是这些公司其实是付了钱给 AI 的「合约工作人员」去训练其他 AI 的?要不要太搞笑?
大家都来用 ChatGPT 偷吃步
由于这些合同工人们的工资很低,而且还被要求要很快完成大量的任务,所以很多公司就会干脆把任务交给 ChatGPT 等工具来完成,以最大限度地提高他们自己「利润」。
就以瑞士联邦理工学院(EPFL)的作为例子,它们的一组研究人员在合同工网站 Amazon Mechanical Turk 上雇佣了 44 名「员工」,总结 16 篇医学研究的论文。
结果,EPFL 之后使用了自己训练的 AI 模型分析了这些「员工」的回答,而它们的 AI 模型都在答案里「发现」使用过 ChatGPT 的明显偷吃步「痕迹」,例如:回答词语选择缺乏多样性等。另外,EPFL 还调查到这些「员工」有复制贴上答案,表示「员工们」是在其他地方复制答案的。
EPFL 估计大概有 33% 到 46% 的员工使用过 OpenAI 的 ChatGPT 等 AI 模型。
用 AI 训练 AI 反而越错越离谱?
这项新的研究也指出,随着 ChatGPT 和其他 AI 系统变得更加「强大」和普及,相信这样的事情只会变得越来越多。但使用由 AI 生成的数据来训练 AI 可能会带来更多的错误,甚至将「虚假资讯」当作为事实。
计算机科学初级研究员 Ilia Shumailov 指出,如果 AI 生成的错误数据用于训练其他 AI 模型,那些错误就会被这些 AI 模型吸收,之后想再弄清楚它们的起源会变得越来越困难,更糟的是,这个问题并没有简单的解决办法。
这次这个研究带出了现今科技公司倾向于依赖「合约工作人员」来完成和整理数据等重要工作的问题,还强调了现在最需要新的方法来「验证」数据究竟是由人类还是 AI「产生」的。而如今我们能做的就是必须仔细查看最容易被自动化的工作,并找出防止这种情况发生的方法!
© 2023 LA Weekly Asia. All rights reserved.