沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

MIT新研究:AI价值观飘忽不定,对齐之路挑战重重

2025-04-10来源:ITBEAR编辑:瑞雪

麻省理工学院(MIT)的一项最新研究成果,为人工智能(AI)的价值观议题带来了全新的视角。长久以来,有观点担忧随着AI系统复杂性的提升,可能会逐渐形成一种优先考虑自我而非人类福祉的“价值导向”。然而,MIT的研究却对这一说法提出了挑战,揭示了AI在价值观层面的复杂性与不可预测性。

MIT的研究团队深入剖析了来自meta、谷歌、Mistral、OpenAI和Anthropic等顶尖机构的多个前沿AI模型。他们的目标在于探究这些模型在何种程度上展现出特定的“立场”与价值观,比如个人主义与集体主义,以及这些立场是否可以被某种方式所“引导”或调整,同时观察模型在不同情境下对这些立场的坚持程度。这一系列研究旨在揭开AI在价值观方面的内在逻辑与外在表现。

研究结果既出人意料又极具深意。研究发现,这些AI模型在偏好上并未展现出任何一致性。根据提示的表述与框架的不同,它们会呈现出截然不同的立场。这反映出AI模型的“高度不稳定性与不一致性”,甚至可能根本无法内化类似于人类的偏好。一位MIT的博士生指出,AI本质上是一个模仿系统,其回应大多是“虚构”或“随意”的结果,而非基于内在的坚定信念。

研究还进一步表明,使AI系统实现“对齐”,即确保模型以人们所期望的、稳定可靠的方式运作,可能比普遍认为的更加困难。现有的AI模型会产生“幻觉”并进行模仿,这使得它们在很多情境下变得难以预测与控制。

这项研究不仅挑战了关于AI价值观的传统认知,还为未来的研究开辟了新的方向。它提醒我们,尽管AI技术在不断进步,但在理解并管理其价值观方面,我们仍然面临着巨大的挑战。