python - 在 dedupe 库中增加 max

python - 在 dedupe 库中增加 max_components 变量

转载作者：太空宇宙更新时间：2023-11-04 05:02:02

24

4

如何增加 max_components 变量的默认值？

默认情况下 max_components 设置为 30000。我需要增加此限制，因为每次我执行重复数据删除(使用相同的数据集)时都会得到不同的结果。

我认为我的数据中的簇总数大于 30000。

最佳答案

来自 Github 的回答

Issue in dedupe github Increase max_components = 30000

If you are getting different results using same saved settings file, then what you reporting is a bug. If you are getting different results from different training data (or even the same training data), that's expected as at various points dedupe uses a random sample to learn good rules.

In either case, I doubt that max_components is related. But, if you want to change it, fork the code and change it.

关于python - 在 dedupe 库中增加 max_components 变量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45480818/

24

4

0

文章推荐： html - 为什么纯百分比包装器不起作用？

文章推荐： linux - 在 nasm 汇编 intel x86 中获取数字而不是 Ascii

文章推荐： c - 为什么我可以在函数后返回 `int` 而不是 `char *` ？

文章推荐： php - Dreamweaver CS6 View 包括

python - 使用 python Dedupe 包检查单个记录
我正在使用 Dedupe python 包来检查传入记录的重复项。我已经训练了大约。 CSV 文件中的 500000 条记录。使用 Dedupe 包，我将 500000 条记录聚类到不同的集群中。我试
npm - "npm dedupe"是否有等效的 Yarn ？
刚刚尝试了 Yarn，它的速度确实非常快。在加载了 package.json 的控制台中运行 yarn 后，它安装了所有内容。然后我运行了 npm dedupe，预计不会发生任何事情，因为 Yarn
python - 当个人拥有多个地址时，如何为 Dedupe 制作地名词典？
根据Dedupe制作的数据documentation ，看来地名词典需要有干净、独特的个人层面的数据。如果此人多次搬家、换工作等，您会怎么做？包括每个人的多次观察并智能地填充空白？最佳答案如果您
javascript - Dedup 数组并按最频繁出现的顺序对数组进行排序(使用 LoDash)
假设我有一个类似这样的数组: fruit_basket = ['apple', 'orange', 'banana', 'pear', 'banana'] 我想制作一个数组fruits，它包含在fru
string - Vec::dedup 不起作用——我如何对字符串向量进行重复数据删除？
我分析了一个文件，按行拆分字符串，并希望在每个向量中只保留唯一元素。我希望 vec.dedup() 像这样工作: let mut vec = vec!["a", "b", "a"]; vec.dedu
rust - Vec::dedup 不起作用——如何从字符向量中过滤重复项？
这个问题在这里已经有了答案: Vec::dedup does not work — how do I deduplicate a vector of strings? (2 个答案) 关闭 4 年前
elasticsearch - 使用多个字段作为唯一键的 Dedup elasticsearch 结果
有人问过类似的问题(请参阅 Remove duplicate documents from a search in Elasticsearch )，但我还没有找到使用多个字段作为“唯一键”进行重复数据
python - 使用 Python Dedupe 库为匹配记录设置显式规则
我正在使用 Dedupe 库将个人记录相互匹配。我的数据包括姓名、出生日期、地址、电话号码和其他个人身份信息。这是我的问题:如果两条记录具有匹配的姓名和电话号码(例如)，我总是希望以 100% 的置
python - 使用 dedupe python 时资源使用率低
我需要在大型数据集中查找重复项，因此我正在测试 dedupe python 库。我知道它被推荐用于小型数据集，所以我认为使用一台好的机器可以提高性能。我有一台 56 GB RAM 的机器，我正在运行
python - 如何使用 python Dedupe 有效地将记录链接到大表？
我正在尝试使用 Dedupe 包将一个小的杂乱数据合并到一个规范表中。由于规范表非常大(1.22 亿行)，我无法将其全部加载到内存中。我目前使用的方法基于 this需要一整天的时间来处理测试数据:一
python-2.7 - 让 Dedupe 从现有标签数据中学习
我知道 Dedupe使用主动学习来删除重复项并执行记录链接。但是，我想知道我们是否可以将已经匹配的对(标签数据)的excel表作为主动学习的输入？最佳答案不直接。您需要将数据转换为 markP
apache-spark - Spark Sql Dedup 行
我们有一个常见的用例，即按行的创建顺序对表进行重复数据删除。例如，我们有用户操作的事件日志。用户不时标记他最喜欢的类别。在我们的分析阶段，我们只想知道用户最后喜欢的类别。示例数据: id ac
python - 在 dedupe 库中增加 max_components 变量
如何增加 max_components 变量的默认值？默认情况下 max_components 设置为 30000。我需要增加此限制，因为每次我执行重复数据删除(使用相同的数据集)时都会得到不同的结
javascript - 如何在 npm 中删除 dedupe 选项
不小心，我触发了 npm dedupe，现在我所有的 node_modules 文件夹都被扁平化了。它减小了文件大小，但使查找内容变得更加困难。有没有办法引用这个，回到分层文件系统？提前致谢最佳答案
python 2.7 : Dedup list by adding suffix
我不确定我是否正确地考虑了这个问题。我想编写一个函数，它接受一个包含重复项的列表，并将一个迭代后缀附加到“删除”列表。例如: dup_list = ['apple','banana','cherry
python - 将 Perl 脚本转换为 Python : dedupe 2 files based on hash keys
我是 Python 新手，想知道是否有人愿意将一个相当简单的 Perl 脚本示例转换为 Python？该脚本获取 2 个文件，并通过比较哈希键仅输出第二个文件中的唯一行。它还将重复行输出到文件。我发

首页

博学

6Ren·AI

商城

python - 在 dedupe 库中增加 max_components 变量