黑暗数据曝光：亚马逊AI训练中发现数十万张疑似未成年人X虐图像

夏威夷华人资讯网

发布于: 2026/02/04 10:25 am

据hoodline2月3日报道 近日，科技巨头亚马逊被曝在其人工智能训练数据审查过程中，发现并向美国国家失踪与受虐儿童中心（NCMEC）提交了数十万条涉嫌未成年人X虐待的图像与相关文件。

新闻报道标题截图

亚马逊自曝：训练数据池中发现非法内容
据彭博社披露，这些问题内容并非来自AI模型的输出，而是存在于模型训练前所汇集的庞大数据集中。亚马逊方面表示，在训练启动前已将相关材料清除，并依规向NCMEC报告。然而，这些非法内容从何而来、为何会混入训练池，公司并未给出清晰解释。

报告量暴增，AI是否成新的风险放大器？
数据显示，2025年上半年，与生成式AI相关的未成年人X虐待内容报告数量激增，达到数十万级别，远超以往年度总量。其中，亚马逊提交的AI相关报告数量占比尤高。更令人担忧的是，不少报告缺乏关键元数据，如IP地址、上传时间或设备信息，导致执法部门难以循线追查。

图片来源：亚马逊

高数量、低可用性，执法遭遇现实困境
问题并不止于数量。安全专家指出，当举报呈现“高频、低质量”特征时，反而可能稀释有限的执法资源。大量缺乏上下文的信息，既无法迅速定位犯罪网络，也难以及时解救受害者。对于一线执法人员而言，“发现”与“破案”之间的距离，正在被技术流程放大。

图片来源：NCMEC

亚马逊回应：主动发现，但难以溯源
面对质疑，亚马逊发言人表示，公司使用自动化哈希比对系统，在数据进入训练流程前对照已知非法内容数据库，并采取“宁可多报、不可漏报”的策略。公司强调，尚未发现任何由其AI模型生成的未成年人X虐内容，且约99.97%的可疑文件来自非专有的公开数据源。

但同时，亚马逊也承认，复杂的数据来源导致缺乏足够的溯源信息，使部分报告难以被执法机构直接利用。

专家警告：道德红线不止于“删除”
多位数字伦理研究者指出，即便相关内容在训练前被清除，让系统在采集或筛查阶段“接触”这些材料本身，也已触及道德红线。更大的隐忧在于，生成式AI具备高度逼真的图像生成与修改能力，可能被不法分子用于制造或变形非法内容，从而进一步干扰调查、增加取证难度。来自斯坦福大学的研究人员警示：“庞大的数据池、模糊的来源与高度自动化的处理流程，正在构成监管的盲区。”

图片来源：斯坦福

监管呼声升高：必须建立数据溯源标准
事件持续发酵后，政策研究者与未成年人保护倡导者一致呼吁，仅报告“发现了什么”远远不够。他们要求科技公司建立强制性的数据来源披露与审计机制，明确“从哪来、如何筛、是否重复”。多家学术机构与非营利组织已联合致信美国国会，敦促立法要求AI开发者在数据采集、清洗与审计环节实施标准化溯源，并引入独立第三方监督。

（编译：叶子）

打开华人资讯APP 查看最新消息