能否通过文风确定作者的身份？

Question

2024年7月1日身份隐私

user65c44a549d5e8 2024年2月8日 0条评论

例如编程随想极具个人风格的博文，即使换了身份也一样能认出吧。

俺很好奇

user6682b4e37e88a 回答 2024年7月1日

4 答案

score 3 · Answer 1 · 2024-02-08T20:12:17+00:00

对于没有刻意掩盖自己文风的人来说，文风确实是可以用来判断匿名文章是谁写的，比如福泽谕吉著名的脱亚论就是匿名，当时就有很多人说这是福泽写的，后世码农用统计手段分析，也认为这篇很可能是福泽写的（福泽或者高桥义雄都是可能的作者）。可见不管是人类模糊逻辑直觉，还是计算机统计词频分析，都可以从文风推断作者。

但是对于那些喜欢复制粘贴的人来说那这个就是没用的了，我就是从别人那里抄一段放在我文章里，你鉴定文风不可避免的把被抄袭的作者的文风给算进来了。这就跟那些写勒索信的人戴个手套，从报纸上把字词剪下来贴纸上，你拿什么判断写勒索信的人的身份？

就编程随想拿文风随便换个人都能写出来，因为编程随想的文风就是故意模仿东北腔。

复制粘贴应该可以发现的，毕竟可以分析上下文，除非润色降重，否则肯定是能看出来是复制的。
至于掩盖文风，现在有个更好的办法，就是交给GPT润色。
回复user65c4c2dfb67cd：请注意是否在匿名状态（比如全程Tor且无需注册和登录，就算开源代码也要确保在全程Tor状态下下载获取以防服务器加入特殊标记）下使用GPT，否则可能会混入盲水印（比如看似普通但能唯一识别用户的词汇和标点组合）。

score 0 · Answer 2 · 2024-06-03T08:47:59+00:00

如果文章个人风格明显，网警也许可以用它关联你不同平台的账号，甚至是确定你的身份，但是文风相似无法用作证据，只能当作调查你的一个线索。

score 0 · Answer 3 · 2024-06-18T09:09:57+00:00

这个东西我觉得是一个统计学问题, 如果从统计建模来说的话：
如果特征明显，给予文字适当的编码，应该可以用简单的 Machine Learning 算法（GLM）解决。

但是就像楼上说的，这个东西法理上不能用来定罪，比如：

ChatGPT 模仿他的文笔生成的这段话

这几个月，俺看到不少读者在评论区热烈讨论【人工智能的伦理问题】。有好几位朋友都建议俺专门写一篇博文谈谈这方面的看法。坦白说，俺之前没有太多这方面的资料，所以一直没有动笔写这类【原创】内容。
最近一段时间，人工智能的发展越来越快，各种关于其伦理问题的讨论也愈发激烈。俺决定借此机会，发一篇《每周转载》，帮助各位看官了解更多相关信息。
先提醒一下：
由于真理部的严格审查，【墙内】媒体很少会报道人工智能的【负面】新闻。所以，如果你只看墙内的媒体，你获取的信息是【非常片面】滴。
为了让读者能看到更加【多样化】的视角，俺汇总了包括【北美、欧洲、澳洲、东亚】等地的多家媒体报道。
因为本文转载的内容较多，俺分成几个部分，大家可以根据自己的兴趣选择阅读。

可以发现这个文笔可以说很相似了，任何人都可以这么干。总不能说模仿文风便定了罪。

score 1 · Answer 4 · 2024-07-01T14:05:20+00:00

重写自己的原文并让ChatGPT进行意译，这样通常可以掩盖掉有统计学意义的特征。
（这句话就是chatgpt修正过的）