据hoodline2月3日报道 近日,科技巨头亚马逊被曝在其人工智能训练数据审查过程中,发现并向美国国家失踪与受虐儿童中心(NCMEC)提交了数十万条涉嫌未成年人X虐待的图像与相关文件。


新闻报道标题截图


亚马逊自曝:训练数据池中发现非法内容
据彭博社披露,这些问题内容并非来自AI模型的输出,而是存在于模型训练前所汇集的庞大数据集中。亚马逊方面表示,在训练启动前已将相关材料清除,并依规向NCMEC报告。然而,这些非法内容从何而来、为何会混入训练池,公司并未给出清晰解释。

报告量暴增,AI是否成新的风险放大器?
数据显示,2025年上半年,与生成式AI相关的未成年人X虐待内容报告数量激增,达到数十万级别,远超以往年度总量。其中,亚马逊提交的AI相关报告数量占比尤高。更令人担忧的是,不少报告缺乏关键元数据,如IP地址、上传时间或设备信息,导致执法部门难以循线追查。

图片来源:亚马逊


高数量、低可用性,执法遭遇现实困境
问题并不止于数量。安全专家指出,当举报呈现“高频、低质量”特征时,反而可能稀释有限的执法资源。大量缺乏上下文的信息,既无法迅速定位犯罪网络,也难以及时解救受害者。对于一线执法人员而言,“发现”与“破案”之间的距离,正在被技术流程放大。

图片来源:NCMEC



亚马逊回应:主动发现,但难以溯源
面对质疑,亚马逊发言人表示,公司使用自动化哈希比对系统,在数据进入训练流程前对照已知非法内容数据库,并采取“宁可多报、不可漏报”的策略。公司强调,尚未发现任何由其AI模型生成的未成年人X虐内容,且约99.97%的可疑文件来自非专有的公开数据源。

但同时,亚马逊也承认,复杂的数据来源导致缺乏足够的溯源信息,使部分报告难以被执法机构直接利用。

专家警告:道德红线不止于“删除”
多位数字伦理研究者指出,即便相关内容在训练前被清除,让系统在采集或筛查阶段“接触”这些材料本身,也已触及道德红线。更大的隐忧在于,生成式AI具备高度逼真的图像生成与修改能力,可能被不法分子用于制造或变形非法内容,从而进一步干扰调查、增加取证难度。来自斯坦福大学的研究人员警示:“庞大的数据池、模糊的来源与高度自动化的处理流程,正在构成监管的盲区。”

图片来源:斯坦福


监管呼声升高:必须建立数据溯源标准
事件持续发酵后,政策研究者与未成年人保护倡导者一致呼吁,仅报告“发现了什么”远远不够。他们要求科技公司建立强制性的数据来源披露与审计机制,明确“从哪来、如何筛、是否重复”。多家学术机构与非营利组织已联合致信美国国会,敦促立法要求AI开发者在数据采集、清洗与审计环节实施标准化溯源,并引入独立第三方监督。

(编译:叶子)