gpt4 book ai didi

wolfram-mathematica - 组合词频数据列表

转载 作者:行者123 更新时间:2023-12-04 01:23:25 27 4
gpt4 key购买 nike

这似乎应该是一个显而易见的问题,但列表中的教程和文档尚未发布。许多这些问题源于我的文本文件(数百 MB)的绝对大小以及我试图将它们归结为我的系统可管理的内容。因此,我正在分段工作,现在正在尝试合并结果。

我有多个词频列表(约 40 个)。列表可以通过 Import[ ] 获取,也可以作为在 Mathematica 中生成的变量。每个列表如下所示,并且是使用 Tally[ ] 和 Sort[ ] 命令生成的:

{{"the", 42216}, {"of", 24903}, {"and", 18624}, {"n", 16850}, {"in",
16164}, {"de", 14930}, {"a", 14660}, {"to", 14175}, {"la", 7347}, {"was", 6030}, {"l", 5981}, {"le", 5735}, <<51293>>, {"abattoir", 1}, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, {"abated", 1}, {"abandonn", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}



这是第二个文件的示例:

{{"the", 30419}, {"n", 20414}, {"de", 19956}, {"of", 16262}, {"and",
14488}, {"to", 12726}, {"a", 12635}, {"in", 11141}, {"la", 10739}, {"et", 9016}, {"les", 8675}, {"le", 7748}, <<101032>>, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, {"abated", 1}, {"abandonn", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}



我想组合它们以便频率数据聚合:即如果第二个文件有 30,419 次出现 'the' 并加入到第一个文件,它应该返回有 72,635 次出现(依此类推,当我遍历整个收藏)。

最佳答案

听起来您需要 GatherBy .

假设您的两个列表名为 data1data2 ,然后使用

{#[[1, 1]], Total[#[[All, 2]]]} & /@ GatherBy[Join[data1, data2], First]

这很容易推广到任意数量的列表,而不仅仅是两个。

关于wolfram-mathematica - 组合词频数据列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7875995/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com