本周,一段关于「AI也会被烂推文带坏」的消息在海外多家科技媒体之间频繁转发。
研究者用几张对比图,讲出一项近期人格与推理能力联合评估实验:
研究者刻意用不同类型的社交媒体文本训练语言模型,然后量化它在推理基准和人格量表上的变化。
在实验介绍的配图里,研究团队先划分两类典型训练文本。
一类是极短、情绪化、追求转发和爽点的「病毒推文」:标题党、情绪宣泄、阴谋论、极端化立场等;
另一类是较长的、结构完整的深度讨论贴:有论点、有证据、有推理链条。
展开剩余73%这一组对比图被做成非常直观的示意:
左边是短平快的爆款句子,
右边是密密麻麻的长段文本,
中间用箭头标出「低质量」与「高质量」标签。
在具体训练阶段,研究者构造多套数据配比:有的模型训练集里充满高转发短帖,有的则以长篇深度贴为主,还有的在两者之间调整占比。
完成预训练后,团队用标准的 ARC 推理测试来评估模型的推理能力,并用心理学中常用的人格问卷对模型输出进行打分,量化自恋、反社会、精神病倾向等维度。
测试结果被做成一张折线图和一组雷达图。
折线图显示,随着低质量内容占比的提高,同一架构模型在 ARC 上的得分从大约 74.9 逐步下降到接近 57 左右,呈现出明显的负相关趋势。
人格雷达图则显示,高比重「爽文式」文本训练的模型,在自恋、攻击性、冷漠等维度上的得分普遍高于以长文深度贴为主的数据版本。
在这段实验的后半部分,作者把这些图放在了一起:
左侧是被标注为「低质量」的爆款推文示意,中间是明显下滑的推理分数曲线,右侧是张扬外扩的人格雷达图。
整个画面形成一条清晰的视觉链路:从输入内容,到能力变化,再到人格侧写。
多家技术博客在转述这项实验时,采用类似的图示结构:
先呈现「社交平台真实存在的大量短平快文本」截图,再叠加这套模型评估结果图,以此说明训练语料的风格不仅会影响模型能不能「算对题」,也会影响它在开放对话场景下展现出的说话方式与人格倾向。
这些图放在一起,其实已经够说明问题:我们每天刷的东西,正在一点点写进模型的性格里。
发布于:北京市