这个东西我觉得是一个统计学问题, 如果从统计建模来说的话:
如果特征明显,给予文字适当的编码,应该可以用简单的 Machine Learning 算法(GLM)解决。
但是就像楼上说的,这个东西法理上不能用来定罪,比如:
ChatGPT 模仿他的文笔生成的这段话
这几个月,俺看到不少读者在评论区热烈讨论【人工智能的伦理问题】。有好几位朋友都建议俺专门写一篇博文谈谈这方面的看法。坦白说,俺之前没有太多这方面的资料,所以一直没有动笔写这类【原创】内容。
最近一段时间,人工智能的发展越来越快,各种关于其伦理问题的讨论也愈发激烈。俺决定借此机会,发一篇《每周转载》,帮助各位看官了解更多相关信息。
先提醒一下:
由于真理部的严格审查,【墙内】媒体很少会报道人工智能的【负面】新闻。所以,如果你只看墙内的媒体,你获取的信息是【非常片面】滴。
为了让读者能看到更加【多样化】的视角,俺汇总了包括【北美、欧洲、澳洲、东亚】等地的多家媒体报道。
因为本文转载的内容较多,俺分成几个部分,大家可以根据自己的兴趣选择阅读。
可以发现这个文笔可以说很相似了,任何人都可以这么干。总不能说模仿文风便定了罪。
对于没有刻意掩盖自己文风的人来说,文风确实是可以用来判断匿名文章是谁写的,比如福泽谕吉著名的脱亚论就是匿名,当时就有很多人说这是福泽写的,后世码农用统计手段分析,也认为这篇很可能是福泽写的(福泽或者高桥义雄都是可能的作者)。可见不管是人类模糊逻辑直觉,还是计算机统计词频分析,都可以从文风推断作者。
但是对于那些喜欢复制粘贴的人来说那这个就是没用的了,我就是从别人那里抄一段放在我文章里,你鉴定文风不可避免的把被抄袭的作者的文风给算进来了。这就跟那些写勒索信的人戴个手套,从报纸上把字词剪下来贴纸上,你拿什么判断写勒索信的人的身份?
就编程随想拿文风随便换个人都能写出来,因为编程随想的文风就是故意模仿东北腔。
回复user65c4c2dfb67cd:请注意是否在匿名状态(比如全程Tor且无需注册和登录,就算开源代码也要确保在全程Tor状态下下载获取以防服务器加入特殊标记)下使用GPT,否则可能会混入盲水印(比如看似普通但能唯一识别用户的词汇和标点组合)。
复制粘贴应该可以发现的,毕竟可以分析上下文,除非润色降重,否则肯定是能看出来是复制的。
至于掩盖文风,现在有个更好的办法,就是交给GPT润色。