欢迎访问米兰手机版 在线留言 联系我们
全国服务热线:

13337904859

新闻资讯

Anthropic 的 AI 显微镜研讨项目企图探求 LLM 内部运作机制

来源:米兰手机版点击: 发布时间:2025-04-28 23:09:39

  Anthropic 最近发布的两篇论文企图提醒大言语模型内部的运作机制,讨论怎么样确认可解说的概念,并将其与将这些概念转化为言语的核算“电路”联系起来。论文还描绘了 Claude Haiku 3.5 的要害行为,包含错觉、规划和其他中心特征。

  大型言语模型的内部作业机制依然不为人知,导致人们难以解说或解说它们用来处理问题的战略。依据 Anthropic 的说法,这些战略躲藏在模型生成文本的数十亿次核算之中——但是,它们大多依然不透明。为了揭开这层躲藏的推理面纱,Anthropic 研讨人员开发了一种他们称之为“AI 显微镜”的新办法:

  简略来说,Anthropic 的 AI 显微镜技能便是用所谓的代替模型来替换被研讨的模型。在这个代替模型中,本来的神经元被一些稀少激活的特征所代替,这些特征一般能够代表一些可解说的概念。比方,当模型要生成一个州的首府时,某个特征就会被激活。

  当然,代替模型并不总是能与底层模型发生相同的输出。为客服这一限制,Anthropic 的研讨人员针对他们想要研讨的每个提示词构建了一个专门的代替模型。他们经过将差错项和固定的注意力形式归入代替模型完成了这一方针。

  作为终究一步,为了描绘从初始提示词到终究输出的特征传递进程,研讨人员经过修剪掉一切不影响输出的特征构建了一个归因图。

  请注意,这儿仅供给 Anthropic AI 显微镜的一个大致介绍。若要了解具体内容,请参阅上文链接中的原始论文。

  经过选用这种办法,Anthropic 的研讨团队取得了一系列风趣的效果。在多言语才能的研讨中,他们找到了一些依据,显现 Claude 在将概念翻译成特定言语之前使用了一种通用言语来生成概念。

  另一个风趣的发现与大言语模型一般被以为在生成输出时“缺少深思熟虑”的观念相悖。相反,对 Claude 生成押韵词的研讨显现,它实践上会提早进行规划。

  Anthropic 的研讨人员还深入研讨了模型有时为何会假造信息,也便是它们发生错觉的原因。从某种视点来看,错觉是模型运作方法的固有特征,由于模型总是需求猜测下一个输出。这在某种程度上预示着模型有必要依靠特定的防错觉练习来对立这种倾向。换言之,有两种不同的机制在起作用:一种是辨认“已知实体”,另一种是处理“不知道称号”或“无法回答”的状况。这两种机制之间的正确协同作用是避免模型发生错觉的要害。

  Anthropic 的研讨人员还探究了一些其他风趣的范畴,包含心算、生成解说推理进程的思想链、多步推理和越狱行为。有关这一些内容的细节能够在 Anthropic 的论文中找到。

  Anthropic 的 AI 显微镜旨在为可解说性研讨做出奉献,并供给一种东西,让我们了解模型怎么样做推理,保证它们与人类价值观对齐。但是,这依然仅仅一个开始的测验,只能捕捉到模型核算的一小部分,而且只能应用于只要几十个单词的小型提示词。跟着新的见地不断涌现,InfoQ 将持续报导大言语模型可解说性研讨的最新进展。

新闻资讯

联系我们

QQ:297157410

手机:13337904859

电话:0510-88362226

邮箱:297157410@qq.com

地址:无锡市南长区中北新村0510号