MIT新研究：AI价值观飘忽不定，对齐之路挑战重重-数码-沃资讯

麻省理工学院（MIT）的一项最新研究成果，为人工智能（AI）的价值观议题带来了全新的视角。长久以来，有观点担忧随着AI系统复杂性的提升，可能会逐渐形成一种优先考虑自我而非人类福祉的“价值导向”。然而，MIT的研究却对这一说法提出了挑战，揭示了AI在价值观层面的复杂性与不可预测性。

MIT的研究团队深入剖析了来自meta、谷歌、Mistral、OpenAI和Anthropic等顶尖机构的多个前沿AI模型。他们的目标在于探究这些模型在何种程度上展现出特定的“立场”与价值观，比如个人主义与集体主义，以及这些立场是否可以被某种方式所“引导”或调整，同时观察模型在不同情境下对这些立场的坚持程度。这一系列研究旨在揭开AI在价值观方面的内在逻辑与外在表现。

研究结果既出人意料又极具深意。研究发现，这些AI模型在偏好上并未展现出任何一致性。根据提示的表述与框架的不同，它们会呈现出截然不同的立场。这反映出AI模型的“高度不稳定性与不一致性”，甚至可能根本无法内化类似于人类的偏好。一位MIT的博士生指出，AI本质上是一个模仿系统，其回应大多是“虚构”或“随意”的结果，而非基于内在的坚定信念。

研究还进一步表明，使AI系统实现“对齐”，即确保模型以人们所期望的、稳定可靠的方式运作，可能比普遍认为的更加困难。现有的AI模型会产生“幻觉”并进行模仿，这使得它们在很多情境下变得难以预测与控制。

这项研究不仅挑战了关于AI价值观的传统认知，还为未来的研究开辟了新的方向。它提醒我们，尽管AI技术在不断进步，但在理解并管理其价值观方面，我们仍然面临着巨大的挑战。