- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
您可能已经注意到我们现在在社区 Wiki 帖子上显示编辑摘要:
community wiki
220 revisions, 48 users
我还想显示“最拥有”页面上显示的最终内容的用户,作为剩余文本的百分比:
community wiki
220 revisions, 48 users
kronoz 87%
是的,可能有前 (n) 个“所有者”,但现在我想要前 1 个。
假设您有这个数据结构,一个按发布时间顺序排列的用户/文本对列表:
User Id Post-Text------- ---------12 The quick brown fox jumps over the lazy dog.27 The quick brown fox jumps, sometimes.30 I always see the speedy brown fox jumping over the lazy dog.
哪些用户最“拥有”最终文本?
我正在寻找一个合理的算法——它可以是一个近似值,它不一定是完美的——来确定所有者。理想情况下以百分比分数表示。
请注意,我们需要考虑编辑、删除和插入,以便最终结果感觉合理且正确。您可以使用任何具有良好修订历史记录的 stackoverflow 帖子(不仅仅是重新标记,而是频繁的帖子正文更改)作为测试语料库。这是一个很好的版本,有来自 14 位不同作者的 15 次修订。谁是“主人”?
https://stackoverflow.com/revisions/327973/list
单击“查看源代码”以获取每个修订版的原始文本。
我应该警告您,纯算法解决方案最终可能会成为 Longest Common Substring Problem 的一种形式。 .但正如我所提到的,近似值和估计值如果运行良好也很好。
欢迎使用任何语言的解决方案,但我更喜欢这样的解决方案
关于 SO 的帖子有超过 25 次修订是非常罕见的。但它应该“感觉”准确,所以如果你仔细观察了编辑,你就会同意最终决定。我鼓励您在具有修订历史记录的堆栈溢出帖子上测试您的算法,看看您是否同意最终输出。
我现在已经部署了以下近似值,您可以在社区 Wiki 帖子上看到每个新保存的修订版的实际效果
(对于常见的简单条件也有一些保护条款,例如 1 个修订版,只有 1 个作者,等等。基于行的差异使得重新计算所有修订版的速度相当快;在典型情况下,例如 10 个修订版,它是 ~50 毫秒.)
这在我的测试中效果很好。当你有几个人编辑的 1 行或 2 行小帖子时,它确实会有点崩溃,但我认为这是不可避免的。接受乔尔·尼利 (Joel Neely) 的回答,认为它在精神上与我所接受的最接近,并对其他似乎可行的所有内容投了赞成票。
最佳答案
我认为这个想法存在根本性缺陷。
如果有人写了一篇精彩的分析,但拼写糟糕且示例不明确,而我对其进行了大量复制编辑,那么我是否完成了 60% 的工作?显然不是;结果是衍生品,其中大部分值(value)来自初始发布者。基于字符数或字数不可能进行有用的衡量,但需要强大的 AI 级语义分析。
除此之外,基于文章的“所有权”寻求信用可能完全没有帮助并且反维基。例如,在维基百科上,表现得好像自己拥有文章的人是最具破坏性的影响之一。
关于algorithm - 判断多用户编辑文本 "Owner",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/424220/
判断置顶文章 is_sticky() 函数用来判断一篇文章是否为置顶文章。 用法 ?
判断结构要求程序员指定一个或多个要评估或测试的条件,以及条件为真时要执行的语句(必需的)和条件为假时要执行的语句(可选的)。 下面是大多数编程语言中典型的判断结构的一般形式: 判断语句 C
我经常这样写: (if (nil? a-value) another-value a-value) 是否有更简单的功能可用,例如: (if-nil? a-value another-value) 最佳
MySQL IF 语句允许您根据表达式的某个条件或值结果来执行一组 SQL 语句。 要在 MySQL 中形成一个表达式,可以结合文字,变量,运算符,甚至函数来组合。表达式可以返回 TRUE,FA
也就是说,是否有一种工具可以自动显示给定语法的完整语言,包括突出歧义(如果有)? 最佳答案 BNF 风格的文法可能有一些特殊性,但总的来说,确定给定的上下文无关文法(例如 BNF)是否有歧义是不可能的
有没有办法确定像下面这样的 Axios 请求是否收到了答案并完成了? axios.get('/api') .then(response => this.data = response.data); 最
我想请大家禁用 Firebug 。如何确定自己安装了firebug?所以它是一个跨浏览器,并在 Chrome、Mozilla 和 IE8 + 中确定 最佳答案 两步: 如果 window.consol
我有一个看起来像这样的对象: var searchFilter = {_id: XXX, approved: true} 用于驱动 Meteor 集合搜索过滤器。然后,我有一对文本框,允许用户输入一系
我正在循环并向我的数据库中插入几百万条记录。性能是第一要务。 我想利用无状态 session ,但您可能知道它们不支持在更复杂的实体上级联对象。 是否有一种通用方法可以确定实体是否具有级联记录?如果是
我正在使用 pdfminer 解析一些 PDF 文件。图书馆。 我需要知道文档是否是扫描文档,扫描机将扫描图像放在顶部,将 OCR 提取的文本放在背景中。 有没有办法识别文本是否可见,因为 OCR 机
我正在寻找一种方法来找出当前为浏览器游戏 TribalWars 编写的脚本打开的页面。 URL 的设置非常相似,对于知道自己在做什么的人来说这应该很容易(我显然不知道)。 URL 如下所示: http
我在 C# 中使用包装的 C 库,需要将图像从该库转换为位图并返回,但没有复制像素缓冲区。 转换为位图很简单: Bitmap WrapAsBitmap(CImage image) { retu
有没有办法检查调用方法的Controller是否来自Area内的Controller? 例如,我有一个继承自 AuthorizeAttribute 的类,例如 public class CustomA
是否可以找到MySQL View 中某列所属的表名? 如果 View 构造为 CREATE VIEW alpha_view AS SELECT alpha.col1, alpha.col2,
如何判断 .Net 应用程序是作为桌面应用程序运行还是作为服务运行? 我们正在尝试使用 Fitnesse 测试我们的应用程序,它将应用程序作为服务加载,然后调用它。但是当一个模式错误框被按下时,它就会
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用,以及
我试图计算出 iframe 内容的大小,以便调整 iframe 元素的大小以包含其内容。 如何确定 iFrame 是否已加载以及我是否可以可靠地测量它的内容尺寸。 注意:onload 事件不会执行,因
这个问题在这里已经有了答案: How to write portable code in c++? (12 个答案) 关闭 9 年前。 我正在尝试编写可以用任何现代版本的 g++ 编译的代码,但遇到
这个问题在这里已经有了答案: distinguish shared objects from position independent executables (2 个答案) 关闭 4 年前。 我有
我的目标是如果 dte 与当前时间相差不到 1 小时,则停止循环。是否有“ ruby 方式”来做到这一点? #THIS IS AN INFINITE LOOP, DONT RUN THIS dte=D
我是一名优秀的程序员,十分优秀!