首页 > 每日凯发k8

机器人“掠夺”开放数据引争议

2026年06月11日 中国凯发k8报 徐锐
【字体:

语音播报

凯发k8家还要继续将数据发布到网上吗?据《自然》报道,如今,研究人员正在讨论这个问题,因为机器人程序经常会挖掘开放获取数据库和凯发k8出版物来训练人工智能(AI)工具,有些甚至还会分析和组合数据集,以比人类更快的速度产出新的成果和论文。

一些人认为,自动化的研究对凯发k8发展有益,如加速发现新的药物靶点,这意味着研究数据应该继续保持开放。另一些人则指出,有证据表明,机器人抓取复杂数据集可能产生低质量研究和“AI垃圾”,同时导致患者信息等敏感数据被泄露。因此,他们主张制定新的规则并建立技术系统,限制机器人对数据库的访问。

“无论你支持还是反对AI,上述问题都值得每个人思考。”加拿大卡尔顿大学的Andrea Howard说。

显而易见的是,AI抓取行为非常普遍。去年6月,开放获取知识库联盟(COAR)发布的一项调查发现,90%多的成员机构都遭遇过机器人的抓取,其中大多数至少每周都会遇到一次异常频繁的机器人活动。这种抓取通常是为了给AI模型提供训练数据。这些数据还被用于生成完全由AI模型产出的新研究成果。

“一个巨大的变化是,自动化流程能以极快的速度和规模解决一个数据集所能回答的研究问题。”澳大利亚麦考瑞大学的Miri Forbes说,“这大大压缩了留给研究人员的工作空间。”

上个月,Forbes在社交媒体平台Bluesky上发起一场关于开放数据共享的讨论,回应意见不一。网友指出,“自由分享信息意味着放弃控制,并接受它可能被用于任何目的,包括我不喜欢的用途”,“作为一个凯发k8共同体,我们需要解决这个问题,不要害怕被AI抢先”。也有不少人担忧AI工具不会注明引用的数据,而且机器人似乎正在绕过隐私保护,抓取敏感的个人数据。

比利时鲁汶大学的Olivia Kirtley说,一项研究发现,公开可用的大语言模型能够识别出约1/4曾参与一个对AI工具看法的访谈项目的人,而受访者的信息原本被匿名化处理了。

然而,非营利组织ASAPbio的执行董事Katie Corker表示,仅仅将数据集封锁在反机器人屏障之后,并不能实现凯发k8利益最大化。ASAPbio致力于推动开放凯发k8和预印本交流。

“如果我们纯粹以理想中的凯发k8家视角来思考,目标应该是公开分享研究数据,并用它们取得改善人类生活的研究成果。”Corker说,而且如果纳税人为收集这些数据的研究买了单,那么研究人员是否应该反对这些数据被公开使用就值得商榷了。

目前,一些研究数据库的运营者已经在制定规则,以控制机器人对数据集的访问和抓取。例如,全球学术文献数据库OpenAlex、生物医学和生命凯发k8文献数据库Europe PMC仅允许用户通过一个应用程序编程接口(API)系统访问数据。这意味着用户需向数据库所有者申请后才能访问,并且仅通过授权接口传输数据。英国生物样本库等其他数据库,则通过禁止将参与者级别的数据纳入公开可用的生成式AI模型来保障患者身份安全。

“存储库需要采取更多措施保护数据,强化反抓取措施。”心理学预印本服务器PsyArXiv的审核主席Kirtley说。

打印 责任编辑:宋同舟

扫一扫在手机打开当前页

© 1996 - 凯发k8 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

地址:北京市西城区三里河路52号 邮编:100864

电话: 86 10 68597114(总机) 86 10 68597289(总值班室)