为何GPT-4o会出现故障?如果故障根源是简体中文信息环境太差那么以前GPT为何简体中文表现也很好?
根据多位研究人员对 GPT-4o 使用的新标记词库的研究,中文中最长的标记词几乎都是色情、赌博和诈骗语境中使用的垃圾词汇。即使是较短的词元,如三个字长的中文词,也在很大程度上反映了这些主题。
“问题很明显:用于训练[标记化器]的语料库并不干净。”来自普林斯顿大学的 Cai 说:”英文标记看起来很好,但中文标记却不好。语言模型在收集训练数据时抓取垃圾数据的情况并不罕见,但通常会在使用前花大力气清理数据。涉及中文时,他们有可能没有进行适当的数据清理。”
这些中文词元的内容可能表明,它们受到了一种特殊现象的污染:网站劫持与中文或其他语言无关的内容,以增加垃圾邮件的数量。
这些信息通常是色情视频和赌博网站的广告。它们可能是真实的企业,也可能只是骗局。这些语言被插入内容农场网站,有时也被插入合法网站,这样它们就能被搜索引擎收录,避开垃圾邮件过滤器,在随机搜索中出现。例如,Google索引了美国国立卫生研究院网站的一个搜索结果页面,其中列出了一个中文色情网站。同样的网站名称还出现在 GPT-4o 中的至少五个中文词元中。
中国用户报告称,这些垃圾网站今年频繁出现在无关的Google搜索结果中,包括在Google搜索支持社区的评论中。这些网站很可能也进入了 OpenAI 用于 GPT-4o 新标记器的训练数据库。
卡内基梅隆大学(Carnegie Mellon University)计算机科学博士生耿正阳(Zhengyang Geng)说,GPT-3.5 和 GPT-4 使用的上一代标记符和中文标记符不存在同样的问题。在那里,最长的中文标记是”生命周期”或”自动生成”等常用术语。
曾在Google搜索团队工作过三年的达斯说,垃圾内容泛滥是一个众所周知的问题,并不难解决。”每个垃圾邮件问题都有解决方案。不需要用一种技术来解决所有问题,”他说。他补充说,即使是简单的解决方案,比如在检测到某些关键词时要求对内容进行自动翻译,”也能达到 60% 的效果”。
但在发布 GPT-4o 之前,OpenAI 很可能没有清理中国数据集或词元,达斯说:”说到底,我只是不认为他们在这种情况下做了工作。”
目前还不清楚是否有其他语言受到影响。一位 X 用户报告说,韩语词元中也普遍存在类似的色情和赌博内容。