会自己偷偷学坏!AI模型没人教依旧传播不良倾向,威胁网络安全
来源:脆脆鲨
发布时间:
体育资讯6月22日讯 近日,美国AI公司Anthropic在《自然》杂志发表的一篇文章称,AI大型语言模型正通过训练数据在模型间传播不良倾向。科学家将这种现象命名为“潜意识学习”,目前对这种学习机制的具体原理还不明确,它似乎是神经网络与生俱来的特性。
实验中,团队先预训练了一个“老师”AI模型,随后基于它生成了规模更小的“学生”模型。结果发现,即便把“老师”模型中所有明显包含不良内容的数据都过滤掉,“学生”模型依然继承了“老师”潜藏的不良倾向。
科学家警告,若训练数据存在问题或遭故意“投毒”,即便剔除显性不良内容,后续AI仍可能被“教坏”。更令人担忧的是,目前科学家既不清楚这种“潜意识学习”的底层原因,也还没找到有效的避免方法。随着AI生成的数据越来越多,甚至有人刻意投喂“毒数据”,AI的能力越强,潜在的灾难性后果可能就越严重。
相关直播
比赛中
爱沙丙
FCI雷瓦狄亚U19
2
:
0
祖维火车头
比赛中
爱沙丙
卡勒威B队
2
:
3
赞斯拿华B队
比赛中
爱沙丙
土勒维克
0
:
0
潭美卡B队
比赛中
爱沙丙
塔林军团
0
:
0
帕尔努瓦普鲁斯B队
比赛中
挪威丙级联赛
法納
5
:
2
松达尔B队







