algorithm - 判断多用户编辑文本 "Owner"-6ren

algorithm - 判断多用户编辑文本 "Owner"

转载作者：塔克拉玛干更新时间：2023-11-03 02:17:12

24

4

您可能已经注意到我们现在在社区 Wiki 帖子上显示编辑摘要:

community wiki
220 revisions, 48 users

我还想显示“最拥有”页面上显示的最终内容的用户，作为剩余文本的百分比:

community wiki
220 revisions, 48 users
kronoz 87%

是的，可能有前 (n) 个“所有者”，但现在我想要前 1 个。

假设您有这个数据结构，一个按发布时间顺序排列的用户/文本对列表:

User Id     Post-Text-------     ---------12          The quick brown fox jumps over the lazy dog.27          The quick brown fox jumps, sometimes.30          I always see the speedy brown fox jumping over the lazy dog.

哪些用户最“拥有”最终文本？

我正在寻找一个合理的算法——它可以是一个近似值，它不一定是完美的——来确定所有者。理想情况下以百分比分数表示。

请注意，我们需要考虑编辑、删除和插入，以便最终结果感觉合理且正确。您可以使用任何具有良好修订历史记录的 stackoverflow 帖子(不仅仅是重新标记，而是频繁的帖子正文更改)作为测试语料库。这是一个很好的版本，有来自 14 位不同作者的 15 次修订。谁是“主人”？

https://stackoverflow.com/revisions/327973/list

单击“查看源代码”以获取每个修订版的原始文本。

我应该警告您，纯算法解决方案最终可能会成为 Longest Common Substring Problem 的一种形式。 .但正如我所提到的，近似值和估计值如果运行良好也很好。

欢迎使用任何语言的解决方案，但我更喜欢这样的解决方案

相当容易翻译成 c#。
没有依赖性。
将简单置于效率之前。

关于 SO 的帖子有超过 25 次修订是非常罕见的。但它应该“感觉”准确，所以如果你仔细观察了编辑，你就会同意最终决定。我鼓励您在具有修订历史记录的堆栈溢出帖子上测试您的算法，看看您是否同意最终输出。

我现在已经部署了以下近似值，您可以在社区 Wiki 帖子上看到每个新保存的修订版的实际效果

做一个line based diff正文更改的每个修订版
将每个修订的插入和删除行加起来为“editcount”
每个 userid 得到他们贡献的“editcount”的总和
第一修订作者获得 2x *“editcount”作为初始分数，作为主要作者奖金
确定最终所有权百分比:每个用户的总编辑行数除以所有修订中的总编辑行数

(对于常见的简单条件也有一些保护条款，例如 1 个修订版，只有 1 个作者，等等。基于行的差异使得重新计算所有修订版的速度相当快；在典型情况下，例如 10 个修订版，它是 ~50 毫秒.)

这在我的测试中效果很好。当你有几个人编辑的 1 行或 2 行小帖子时，它确实会有点崩溃，但我认为这是不可避免的。接受乔尔·尼利 (Joel Neely) 的回答，认为它在精神上与我所接受的最接近，并对其他似乎可行的所有内容投了赞成票。

最佳答案

我认为这个想法存在根本性缺陷。

如果有人写了一篇精彩的分析，但拼写糟糕且示例不明确，而我对其进行了大量复制编辑，那么我是否完成了 60% 的工作？显然不是；结果是衍生品，其中大部分值(value)来自初始发布者。基于字符数或字数不可能进行有用的衡量，但需要强大的 AI 级语义分析。

除此之外，基于文章的“所有权”寻求信用可能完全没有帮助并且反维基。例如，在维基百科上，表现得好像自己拥有文章的人是最具破坏性的影响之一。

关于algorithm - 判断多用户编辑文本 "Owner"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/424220/

24

4

0

文章推荐： algorithm - 程序能否输出自身的副本

文章推荐： algorithm - 为什么深度优先搜索声称具有空间效率？

文章推荐： c++ - 我怎样才能*有效地*从嵌套表达式生成所有类型的元组？

判断、添加和删除WordPress置顶文章的相关PHP函数小结
判断置顶文章 is_sticky() 函数用来判断一篇文章是否为置顶文章。用法 ?
C# 判断
判断结构要求程序员指定一个或多个要评估或测试的条件，以及条件为真时要执行的语句（必需的）和条件为假时要执行的语句（可选的）。下面是大多数编程语言中典型的判断结构的一般形式：判断语句 C
if-statement - 判断(if)中的nil值的更简单方法？
我经常这样写: (if (nil? a-value) another-value a-value) 是否有更简单的功能可用，例如: (if-nil? a-value another-value) 最佳
【MySQL函数教程】MySQL IF函数：判断
MySQL IF 语句允许您根据表达式的某个条件或值结果来执行一组 SQL 语句。要在 MySQL 中形成一个表达式，可以结合文字，变量，运算符，甚至函数来组合。表达式可以返回 TRUE,FA
parsing - 判断 BNF 语法是否有歧义的最简单方法是什么？
也就是说，是否有一种工具可以自动显示给定语法的完整语言，包括突出歧义(如果有)？最佳答案 BNF 风格的文法可能有一些特殊性，但总的来说，确定给定的上下文无关文法(例如 BNF)是否有歧义是不可能的
json - 判断 Axios 请求是否完成
有没有办法确定像下面这样的 Axios 请求是否收到了答案并完成了？ axios.get('/api') .then(response => this.data = response.data); 最
firebug 的 javascript 判断
我想请大家禁用 Firebug 。如何确定自己安装了firebug？所以它是一个跨浏览器，并在 Chrome、Mozilla 和 IE8 + 中确定最佳答案两步: 如果 window.consol
javascript - 判断 Javascript 中的对象是否具有任何属性
我有一个看起来像这样的对象: var searchFilter = {_id: XXX, approved: true} 用于驱动 Meteor 集合搜索过滤器。然后，我有一对文本框，允许用户输入一系
c# - 判断 NHibernate 实体是否有级联记录
我正在循环并向我的数据库中插入几百万条记录。性能是第一要务。我想利用无状态 session ，但您可能知道它们不支持在更复杂的实体上级联对象。是否有一种通用方法可以确定实体是否具有级联记录？如果是
python - 判断 PDF 文本是否可见
我正在使用 pdfminer 解析一些 PDF 文件。图书馆。我需要知道文档是否是扫描文档，扫描机将扫描图像放在顶部，将 OCR 提取的文本放在背景中。有没有办法识别文本是否可见，因为 OCR 机
JavaScript 判断 url 标签是否匹配
我正在寻找一种方法来找出当前为浏览器游戏 TribalWars 编写的脚本打开的页面。 URL 的设置非常相似，对于知道自己在做什么的人来说这应该很容易(我显然不知道)。 URL 如下所示: http
c# - 判断 IntPtr 是指向托管内存还是非托管内存
我在 C# 中使用包装的 C 库，需要将图像从该库转换为位图并返回，但没有复制像素缓冲区。转换为位图很简单: Bitmap WrapAsBitmap(CImage image) { retu
c# - 判断 Controller 是否在一个区域中
有没有办法检查调用方法的Controller是否来自Area内的Controller？例如，我有一个继承自 AuthorizeAttribute 的类，例如 public class CustomA
mysql - 判断 View 中某列的原表
是否可以找到MySQL View 中某列所属的表名？如果 View 构造为 CREATE VIEW alpha_view AS SELECT alpha.col1, alpha.col2,
.net - 判断 .Net 应用程序是作为服务还是作为应用程序运行？
如何判断 .Net 应用程序是作为桌面应用程序运行还是作为服务运行？我们正在尝试使用 Fitnesse 测试我们的应用程序，它将应用程序作为服务加载，然后调用它。但是当一个模式错误框被按下时，它就会
ios - 判断 View 当前是否显示在用户屏幕上的方法？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用，以及
javascript - 判断 iframe 是否已经加载
我试图计算出 iframe 内容的大小，以便调整 iframe 元素的大小以包含其内容。如何确定 iFrame 是否已加载以及我是否可以可靠地测量它的内容尺寸。注意:onload 事件不会执行，因
c++ - 判断 C++ 代码是否可移植
这个问题在这里已经有了答案: How to write portable code in c++? (12 个答案) 关闭 9 年前。我正在尝试编写可以用任何现代版本的 g++ 编译的代码，但遇到
linux - 判断 elf 文件是可执行文件还是库文件
这个问题在这里已经有了答案: distinguish shared objects from position independent executables (2 个答案) 关闭 4 年前。我有
ruby - 判断 DateTime 是否在当前时间的一小时内
我的目标是如果 dte 与当前时间相差不到 1 小时，则停止循环。是否有“ ruby 方式”来做到这一点？ #THIS IS AN INFINITE LOOP, DONT RUN THIS dte=D

首页

博学

6Ren·AI

商城

algorithm - 判断多用户编辑文本 "Owner"