gpt4 book ai didi

computer-science - 一串英文文本的熵如何表示低质量?

转载 作者:行者123 更新时间:2023-12-03 23:32:56 35 4
gpt4 key购买 nike

Jeff Atwood 最近在推特上发布了一个 CodeReview 帖子的链接,他想知道社区是否可以改进他的“calculating entropy of a string”代码片段。他解释说,“我们正在 Stack Overflow 的几个地方计算一个字符串的熵,作为低质量的标志。”

他的方法的要点似乎是,如果您计算字符串中唯一字符的数量,则表示熵(代码取自 PieterG's answer):

int uniqueCharacterCount = string.Distinct().Count();

我不明白唯一字符数如何表示字符串的熵,以及字符串的熵如何表示低质量。我想知道在这方面有更多知识的人是否可以解释阿特伍德先生试图完成的任务。

谢谢!

最佳答案

困惑似乎来自这样的想法,即这用于阻止发布帖子 - 事实并非如此。

它只是用于查找可能的低质量帖子的几种算法之一,显示在 low quality posts tab 上。 (需要 10k 代表)的版主工具。实际人类仍然需要查看帖子。

这个想法是捕捉像 ~~~~~~No.~~~~~~ 这样的帖子或 FUUUUUUUU------ ,不去抓所有低质量的帖子。

至于“独特的字符数如何表示熵?” - 它没有,真的。最受好评的答案完全没有捕获重点。

https://codereview.stackexchange.com/questions/868#878https://codereview.stackexchange.com/questions/868#926

关于computer-science - 一串英文文本的熵如何表示低质量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5081105/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com