今天看啥  ›  专栏  ›  王路在隐身

无数解的迷雾:AI训练为何像一场随机冒险?

王路在隐身  · 公众号  · 热门自媒体  · 2025-03-25 11:09
    

文章预览

当我们敲下“现在”两个字,期待模型吐出流畅的中文时,却偶尔冒出个“我’ll”这样中英混杂的怪胎,这让人忍不住想问:语言模型到底在想什么?表面上看,中文“我”和英文“I”都指向同一个“我”,可它们的嵌入向量却相距甚远,余弦相似度低到只有0.2053,仿佛两个陌生的路人。然而,模型却能在生成时将它们拼接成“我’ll”,这不免让人惊讶。 原来,这不是语料的错——训练数据里几乎不会有“我’ll”这样的奇葩组合,而是模型在多语言切换中留下的“记忆残影”。预训练时,中英文共享的嵌入空间里,某些不自然的模式悄悄扎根,哪怕后续用纯粹的中文微调,也难以完全抹去。这种现象就像是模型的“潜意识”,提醒我们:它的行为远比输入输出复杂,背后是训练数据和生成机制的微妙交织。 如果放大镜头,事情变得更有趣。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览