- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我看过 Algorithms of the Intelligent Web描述(第 55 页)一个有趣的算法 - 称为 DocRank - 用于创建 PageRank比如商业文档的分数(即没有链接的文档,如 PDF、MS Word 文档等......)。简而言之,它分析集合中每个文档之间的词频交集。
其他任何人都可以确定其他地方描述的有趣算法,或者想在这里分享一些新颖的东西,以应用于这些类型的文档以改善搜索结果?
请放弃涉及点击跟踪或其他操作等内容的答案 不是 关于分析实际文件。
最佳答案
第一种技术:逐步相似性
我可以提供一个例子——我实际上已经针对真实数据进行了测试/验证。如果您要收集多种技术并沿两个轴对它们进行排名——固有的复杂性或易于实现和性能(分辨率或预测准确性),则该技术在第一个轴上会很高,在靠近中间的某个轴上第二;一种简单而有效的技术,但与最先进的技术相比可能表现不佳。
我们发现的组合低频关键词交集结合读者/观众之间的相似性是文档内容的一个相当强的预测器。换句话说:如果两个文档具有一组相似的极低频术语(例如,特定领域的术语,如“决策流形”等)并且它们具有相似的入站流量概况,则该组合强烈证明了相似性的文件。
相关详情:
第一个过滤器:低频项。我们解析了大量文档以获得每个文档的词频。我们使用这个词的频谱作为“指纹”,这是很常见的,但我们应用了反向加权,因此常见的术语(“a”、“of”、“the”)在相似性度量中很少计入,而罕见的术语很重要(这很常见,你可能知道)。
试图基于此来确定两个文档是否相似是有问题的;例如,两个文档可能共享一个与 MMO 相关的罕见术语列表,但这些文档仍然不相似,因为一个是针对 MMO 的,另一个是针对设计它们的。
第二个过滤器:读者。显然我们不知道谁读过这些文件,所以我们从流量来源推断读者群。您可以在上面的示例中看到这有什么帮助。 MMO 播放器站点/文档的入站流量反射(reflect)了内容,对于针对 MMO 设计的文档也是如此。
第二种技术:核主成分分析 (kPCA)
kPCA 是无监督技术(在传入数据之前从数据中删除类标签)。该技术的核心只是矩阵(在本例中为协方差矩阵)的基于特征向量的分解。这种技术通过内核技巧处理非线性,它只是将数据映射到更高维的特征空间,然后在该空间执行 PCA。在 Python/NumPy/SciPy 中,它大约有 25 行代码。
数据是从文学作品的非常简单的文本解析中收集的——特别是这四位作者的大部分已发表作品:莎士比亚、简奥斯汀、 jack 伦敦、弥尔顿。 (我相信,虽然我不确定,普通大学生会参加这些作者指定他们阅读小说的类(class)。)
该数据集广泛用于机器学习,并可从网络上的许多地方获得。
所以这些作品被分成了872篇(大致对应小说的章节);换句话说,四位作者中的每一位都有大约 220 条不同的实质性文本。
接下来对合并后的语料库文本进行词频扫描,选取最常用的 70 个词进行研究,其余的频率扫描结果被丢弃。
这70个字是:
[ 'a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been',
'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from', 'had',
'has', 'have', 'her', 'his', 'if', 'in', 'into', 'is', 'it', 'its', 'may',
'more', 'must', 'my', 'no', 'not', 'now', 'of', 'on', 'one', 'only', 'or',
'our', 'should', 'so', 'some', 'such', 'than', 'that', 'the', 'their',
'then', 'there', 'things', 'this', 'to', 'up', 'upon', 'was', 'were', 'what',
'when', 'which', 'who', 'will', 'with', 'would', 'your', 'BookID', 'Author' ]
[ 46, 12, 0, 3, 66, 9, 4, 16, 13, 13, 4, 8, 8, 1, 0, 1, 5, 0, 21, 12,
16, 3, 6, 62, 3, 3, 30, 3, 9, 14, 1, 2, 6, 5, 0, 10, 16, 2, 54, 7, 8,
1, 7, 0, 4, 7, 1, 3, 3, 17, 67, 6, 2, 5, 1, 4, 47, 2, 3, 40, 11, 7, 5,
6, 8, 4, 9, 1, 0, 1 ]
关于algorithm - 没有链接的文档有哪些有用的排序算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4362569/
我在一本书(Interview Question)中读到这个问题,想在这里详细讨论这个问题。请点亮它。 问题如下:- 隐私和匿名化 马萨诸塞州集团保险委员会早在 1990 年代中期就有一个绝妙的主意
我最近接受了一次面试,面试官给了我一些伪代码并提出了相关问题。不幸的是,由于准备不足,我无法回答他的问题。由于时间关系,我无法向他请教该问题的解决方案。如果有人可以指导我并帮助我理解问题,以便我可以改
这是我的代码 public int getDist(Node root, int value) { if (root == null && value !=0) return
就效率而言,Strassen 算法应该停止递归并应用乘法的最佳交叉点是多少? 我知道这与具体的实现和硬件密切相关,但对于一般情况应该有某种指南或某人的一些实验结果。 在网上搜索了一下,问了一些他们认为
我想学习一些关于分布式算法的知识,所以我正在寻找任何书籍推荐。我对理论书籍更感兴趣,因为实现只是个人喜好问题(我可能会使用 erlang(或 c#))。但另一方面,我不想对算法进行原始的数学分析。只是
我想知道你们中有多少人实现了计算机科学的“ classical algorithms ”,例如 Dijkstra's algorithm或现实世界中的数据结构(例如二叉搜索树),而不是学术项目? 当有
我正在解决旧编程竞赛中的一些示例问题。在这个问题中,我们得到了我们有多少调酒师以及他们知道哪些食谱的信息。制作每杯鸡尾酒需要 1 分钟,我们需要使用所有调酒师计算是否可以在 5 分钟内完成订单。 解决
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
我开始学习 Nodejs,但我被困在中间的某个地方。我从 npm 安装了一个新库,它是 express -jwt ,它在运行后显示某种错误。附上代码和错误日志,请帮助我! const jwt = re
我有一个证书,其中签名算法显示“sha256rsa”,但指纹算法显示“sha1”。我的证书 SHA1/SHA2 的标识是什么? 谢谢! 最佳答案 TL;TR:签名和指纹是完全不同的东西。对于证书的强度
我目前在我的大学学习数据结构类(class),并且在之前的类(class)中做过一些算法分析,但这是我在之前的类(class)中遇到的最困难的部分。我们现在将在我的数据结构类(class)中学习算法分
有一个由 N 个 1x1 方格组成的区域,并且该区域的所有部分都是相连的(没有任何方格无法到达的方格)。 下面是一些面积的例子。 我想在这个区域中选择一些方块,并且两个相邻的方块不能一起选择(对角接触
我有一些多边形形状的点列表,我想将其包含在我页面上的 Google map 中。 我已经从原始数据中删除了尽可能多的不必要的多边形,现在我剩下大约 12 个,但它们非常详细以至于导致了问题。现在我的文
我目前正在实现 Marching Squares用于计算等高线曲线,我对此处提到的位移位的使用有疑问 Compose the 4 bits at the corners of the cell to
我正在尝试针对给定算法的约束满足问题实现此递归回溯函数: function BACKTRACKING-SEARCH(csp) returns solution/failure return R
是否有包含反函数的库? 作为项目的一部分,我目前正在研究测向算法。我正在使用巴特利特相关性。在 Bartlett 相关性中,我需要将已经是 3 次矩阵乘法(包括 Hermitian 转置)的分子除以作
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
问题的链接是UVA - 1394 : And There Was One . 朴素的算法是扫描整个数组并在每次迭代中标记第 k 个元素并在最后停止:这需要 O(n^2) 时间。 我搜索了一种替代算法并
COM 中创建 GUID 的函数 (CoCreateGUID) 使用“分散唯一性算法”,但我的问题是,它是什么? 谁能解释一下? 最佳答案 一种生成 ID 的方法,该 ID 具有一定的唯一性保证,而不
在做一个项目时我遇到了这个问题,我将在这个问题的实际领域之外重新措辞(我想我可以谈论烟花的口径和形状,但这会使理解更加复杂).我正在寻找一种(可能是近似的)算法来解决它。 我有 n 个不同大小的容器,
我是一名优秀的程序员,十分优秀!