ChatGPT的审查机制和文心一言不同,GPT是你问它敏感内容,它会回复你“抱歉,我不能这么做”这类文本。文心一言在问到一些敏感内容时,你压根发不出去,它也不会回复。如果你问得次数太多,会被封号,如果OpenAI要进入中国大概也是像文心一言这样审查。
LLM它和搜索引擎有本质上的不同。敏感数据本身是存在于模型之中的,但当你问它时,它不会告诉你。Open AI的模型里面绝大部分是来自境外网站的数据,如果要进入中国,那么可能要完全重训练一个中文模型。这个过程是非常繁琐的,可能会和百度等国内厂商合作,数据不出境。
现在已经不是以前那个时代了,很多大语言模型是开源的,训练模型的算法也是开源的。以前的搜索引擎算法可不是开源的,百度想要与谷歌竞争就只能自研算法。现在一个普通人就能在huggingface下meta的最新模型,AI时代值钱的不是算法,而是数据。谁能合法获取更多的数据,谁就能有更好的回答表现。如果百度能够买断整个知乎、微博的数据训练权,Open AI进入中国也只会成为下一个谷歌。
中国的法律还没有做好迎接AI时代的准备,官老爷可不懂什么是ChatPPT,只要把它训练成党的形状就好。GFW的出现就是为了保护本土互联网企业,GFW保护了百度的搜索,应该也会保护它的AI。
放心好了,openai好像对大陆不开放,现在国内一些科技公司都是拿着海外开源或者部分开源的东西做一个套壳,然后加上一些自我审查机制,可以在中国赚点钱,中国人的发明创造已经不行了。落后西方至少五百年。
中国人不是不聪明,只是国家体制造就了中国人没有办法发明创造。