赛博生命欺骗人类的第一步
OpenAI“神”操作:让 GPT-4去解释 GPT-2的行为! 由 ChatGPT掀起的这场 AI革命,令人们感慨神奇的同时,也不禁发出疑问:AI究竟是怎么做到这一切的? 此前,即便是专业的数据科学家,都难以解释大模型(LLM)运作的背后。而最近,OpenAI似乎做到了——本周二,OpenAI发布了其最新研究:让 GPT-4去试着解释 GPT-2的行为。 即:让一个 AI“黑盒”去解释另一个 AI“黑盒”。 工作量太大,决定让 GPT-4去解释 GPT-2 OpenAI之所以做这项研究的原因,在于近来人们对 AI伦理与治理的担忧:“语言模型的能力越来越强,部署也越来越广泛,但我们对其内部工作方式的理解仍然非常有限。” 由于 AI的“黑盒”性质,人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法,也难以区分其正确性,因而“可解释性”是亟待重要的一个问题。 AI的发展很大程度上是在模仿人类,因而大模型和人脑一样,也由神经元组成,它会观察文本规律进而影响到输出结果。所以想要研究 AI的“可解释性”,理论上要先了解大模型的各个神经元在做什么。 按理来说,这本应由人类手动检查,来弄清神经元所代表的数据特征——参数量少还算可行,可对于如今动辄百亿、千亿级参数的神经网络,这个工作量显然过于“离谱”了。 于是,OpenAI灵机一动:或许,可以用“魔法”打败“魔法”? “我们用 GPT-4为大型语言模型中的神经元行为自动编写解释,并为这些解释打分。”而 GPT-4首次解释的对象是 GPT-2,一个 OpenAI发布于4年前、神经元数量超过30万个的开源大模型。 让 GPT-4“解释” GPT-2的原理 具体来说,让 GPT-4“解释” GPT-2的过程,整体分为三个步骤。 (1)首先,让 GPT-4生成解释,即给出一个 GPT-2神经元,向 GPT-4展示相关的文本序列和激活情况,产生一个对其行为的解释。 如上图所示,GPT-4对 GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。 (2)其次,再次使用 GPT-4,模拟被解释的神经元会做什么。下图即 GPT-4生成的模拟内容。 (3)最后,比较 GPT-4模拟神经元的结果与 GPT-2真实神经元的结果,根据匹配程度对 GPT-4的解释进行评分。在下图展示的示例中,GPT-4得分为0.34。 通过这样的方法,OpenAI共让 GPT-4解释了 GPT-2中的307200个神经元,其中大多数解释的得分很低,只有超过1000个神经元的解释得分高于0.8。 在官博中,OpenAI承认目前 GPT-4生成的解释并不完美,尤其在解释比 GPT-2规模更大的模型时,效果更是不佳:“可能是因为后面的 layer更难解释。” 尽管绝大多数解释的得分不高,但 OpenAI认为,“即使 GPT-4给出的解释比人类差,但也还有改进的余地”,未来通过 ML技术可提高 GPT-4的解释能力,并提出了三种提高解释得分的方法: 对解释进行迭代,通过让 GPT-4想出可能的反例,根据其激活情况修改解释来提高分数。 使用更大的模型来进行解释,平均得分也会上升。 调整被解释模型的结构,用不同的激活函数训练模型。 值得一提的是,以上这些解释数据集、可视化工具以及代码,OpenAI都已在 GitHub上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释,以及更好的工具来使用解释探索 GPT-2。” “再搞下去,AI真的要觉醒了” 除此之外,OpenAI还提到了目前他们采取的方