一串英文文本的熵如何表示低质量？

发布于 2024-10-18 18:00:37 字数 403 浏览 13 评论 0原文

Jeff Atwood 最近在 Twitter 上发布了一个 CodeReview 帖子的链接，他想知道社区是否可以改进他的“

他的方法的要点似乎是，如果你计算唯一字符的数量在字符串中，表示熵（代码取自 PieterG 的回答)：

int uniqueCharacterCount = string.Distinct().Count();

我不明白唯一字符数如何表示字符串的熵，以及字符串的熵如何表示低质量。我想知道在这方面有更多知识的人是否可以解释阿特伍德先生想要实现的目标。

谢谢！

原文

Jeff Atwood recently tweeted a link to a CodeReview post where he wanted to know if the community could improve his "calculating entropy of a string" code snippet. He explained, "We're calculating entropy of a string a few places in Stack Overflow as a signifier of low quality."

The gist of his method seemed to be that if you count the number of unique characters in a string, that signifies entropy (code taken from PieterG's answer):

int uniqueCharacterCount = string.Distinct().Count();

I don't understand how the unique character count signifies entropy of a string, and how the entropy of a string signifies low quality. I was wondering if someone with more knowledge in this area could explain what Mr. Atwood is trying to accomplish.

Thanks!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

转瞬即逝 2024-10-25 18:00:37

造成混乱的原因似乎是认为这是用来阻止帖子发布的，但事实并非如此。

它只是用于查找可能的低质量帖子的几种算法之一，显示在低质量帖子选项卡 < em>（需要 10k 代表）主持人工具。真正的人类仍然需要看看这个帖子。

这个想法是捕捉像 ~~~~~~No.~~~~~~ 或 FUUUUUUUU------ 这样的帖子，而不是捕捉 所有低质量的帖子。

至于“唯一的字符数如何表示熵？” - 事实并非如此。点赞最多的答案完全没有抓住重点。

请参阅 https://codereview.stackexchange.com/questions/868#878 和 https://codereview.stackexchange.com/questions/868#926

回复收藏 0 原文

面如桃花 2024-10-25 18:00:37

字符串“aaaaaaaaaaaaaaaaaaaaaaaaaa”的熵非常低，并且毫无意义。

字符串“blah blah blah blah blah blah blah blah”的熵有点高，但仍然相当愚蠢，可以是攻击的一部分。

具有与这些字符串相当的熵的帖子或评论可能是不合适的；它不能包含任何有意义的消息，甚至是垃圾邮件链接。这样的帖子可能会被过滤掉或需要额外的验证码。

回复收藏 0 原文

夏有森光若流苏 2024-10-25 18:00:37

让我们看一下维基百科关于熵（信息论）：

在信息论中，熵是与随机变量相关的不确定性的度量。在这种情况下，该术语通常指香农熵，它量化消息中包含的信息的预期值...

特别是英语信息：

根据香农基于人体实验的估计，英文文本的熵率在每个字母 1.0 到 1.5 位之间，或者低至每个字母 0.6 到 1.3 位。

换句话说，并不是简单地认为低熵是坏的，高熵是好的，反之亦然 - 存在一个最佳熵范围。

回复收藏 0 原文

桃扇骨 2024-10-25 18:00:37

香农熵 H(P) 是随机变量 X 的概率分布 P 的属性。

对于字符串，处理字符串的基本方法是将其视为一袋字符。在这种情况下，频率计数提供了字符串中随机选择的字符的概率分布 P 的近似值。

如果我们简单地计算字符串中唯一字符的数量，这将与该字符串中出现的唯一字符数量的均匀分布的熵相关。唯一字符的数量越多，熵就越大。

然而，Jeff Atwood（和 BlueRaja）随后的代码贡献是更好的衡量标准，因为他们考虑了字符串的其他可能的分布；仍然被认为是一袋（不一定是唯一的）字符；代表。

以 Rex M 的答案为基础……寻找“字符熵”超出 1.0 - 1.5 范围的字符串（可能是“低质量字符串”）会更有意义。

回复收藏 0 原文

〆凄凉。 2024-10-25 18:00:37

不完全是您问题的答案，但是，维基百科有对熵的解释：

熵是对无序性的度量，或更准确地说是对不可预测性的度量。
例如，用一枚公平的硬币进行的一系列抛硬币具有最大熵，
因为无法预测接下来会发生什么。一串硬币
抛掷两头硬币的熵为零，因为硬币总是
抬起头来。现实世界中的大多数数据集合都位于某个地方
介于两者之间。
英文文本的熵相当低。换句话说，这是相当可预测的。
即使我们不知道接下来会发生什么，我们也可以公平地
例如，可以肯定，e 的数量会比 z 的数量多得多，或者
组合“qu”将比任何其他组合更常见
其中包含“q”，并且“th”的组合比任何组合都更常见
其中。未压缩的英文文本大约有一位熵
消息的每个字节（八位）。