python - 如何在不删除重复项的情况下找到最常用的单词？-6ren

python - 如何在不删除重复项的情况下找到最常用的单词？

转载作者：行者123 更新时间：2023-12-04 03:30:27

24

4

我有一个如下所示的列表:

group = [
#Group 1 ('aaa bbbb' the most common words = two words)
['aaaa bbbb nnnn',   #<-- row 1
 'aaaa bbbb oooo',   #<-- row 2
 'aaaa bbbb pppp'],   #<-- row 3

#Group 2 ('hello' the most common word = one word)
['hello Jack   T.',  #<-- row 1
 'hello Ramona D.',  #<-- row 2
 'hello Robert G.'], #<-- row 3

#Group 3 ('yes! go go' the most common words = the whole string)
['yes! go go',      #<-- row 1
 'yes! go go',      #<-- row 2
 'yes! go go',      #<-- row 3     
 'yes! go go'],     #<-- row 4    

#Group 4 (only one word  = it's an invalid group)
['python'],          #<-- row 1 

#Group 5 (only one word = it's an invalid group)
['java']            #<-- row 1

]

我需要为每个组找到最常用的单词并将它们保存到新列表中:

像这样:

OUT : ['aaaa','hello','yes! go go']

但是第三组有重复的单词 -> 'go go' 我需要两个，所以真正的结果是:

OUT : ['aaaa','hello','yes! go']

这是工作代码

#Try to count words for each group
for groups in group:
    #how many groups ?
    nGroup = len(groups)
    #join lists
    words = " ".join(groups).split()

我得到:

WORDS ['aaaa', 'bbbb', 'nnnn', 'aaaa', 'bbbb', 'oooo', 'aaaa', 'bbbb', 'pppp']
WORDS ['hello', 'Jack', 'T.', 'hello', 'Ramona', 'D.', 'hello', 'Robert', 'G.']
WORDS ['java']
WORDS ['python']
WORDS ['yes!', 'go', 'go', 'yes!', 'go', 'go', 'yes!', 'go', 'go', 'yes!', 'go', 'go']

    #how many identical rows ?
    rows = collections.Counter(words)
    #what's the common words for each row ?
    wCommon = rows.most_common()
    #how often that's?
    mCommon = rows.most_common(1)[0][1]
    print (f"wCommon :{wCommon}  rows :{rows}  mCommon :{mCommon}")

我得到:

#Group 1
wCommon :[('aaaa', 3), ('bbbb', 3),
      ('nnnn', 1), ('oooo', 1),
      ('pppp', 1)]
rows :Counter({'aaaa': 3, 'bbbb': 3,
           'nnnn': 1, 'oooo': 1,
           'pppp': 1})
mCommon :3        


#Group 2
wCommon :[('hello', 3), ('Jack', 1), ('T.', 1),
      ('Ramona', 1), ('D.', 1),
      ('Robert', 1), ('G.', 1)]
rows:Counter({'hello': 3, 'Jack': 1, 'T.': 1,
          'Ramona': 1, 'D.': 1,
          'Robert': 1, 'G.': 1})
mCommon:3


#Group 3
wCommon :[('java', 1)]  rows:Counter({'java': 1})  mCommon:1
#Group 4
wCommon :[('python', 1)]  rows:Counter({'python': 1})  mCommon:1
#Group 5
wCommon :[('go', 8), ('yes!', 4)]  rows:Counter({'go': 8, 'yes!': 4})
mCommon:8

以下是原始列表，但它可以更改。我试图将它分成几组并计算每行的常用词......例如:

aaaa, hello , yes! go go

但有时会出现一个或多个常用词，例如'aaaa bbbb' 如何获取？或像“go”这样的重复，在这种情况下它不起作用

list_1 = [

 "aaaa bbbb nnnn",
 "aaaa bbbb oooo",
 "aaaa bbbb pppp",
 "hello Ramona D.",
 "hello Jack   T.",
 "hello Robert G.",
 "yes! go go",
 "yes! go go",
 "yes! go go",
 "yes! go go",
 "python",
 "java"

]

编辑:谢谢大家

最佳答案

您可以只检查多个词是否有相同的出现次数以及它们是否连续出现:

import collections

groups = [
    #Group 1 ('aaa bbbb' the most common words = two words)
    [
        'aaaa bbbb nnnn',  #<-- row 1
        'aaaa bbbb oooo',  #<-- row 2
        'aaaa bbbb pppp'
    ],
    # Group 2 (one word 'aaaa' or 'bbbb', lets take the first)
    ['aaaa nnnn bbbb', 'aaaa oooo bbbb', 'aaaa pppp bbbb'],
    #Group 3 (two words 'oooo bbbb')
    ['aaa1 oooo bbbb', 'aaa2 oooo bbbb', 'aaa3 oooo bbbb'],

    #Group 4 ('hello' the most common word = one word)
    [
        'hello Jack   T.',  #<-- row 1
        'hello Ramona D.',  #<-- row 2
        'hello Robert G.'
    ],  #<-- row 3

    #Group 5 ('yes! go go' the most common words = the whole string)
    [
        'yes! go go',  #<-- row 1
        'yes! go go',  #<-- row 2
        'yes! go go',  #<-- row 3
        'yes! go go'
    ],  #<-- row 4

    #Group 6 (only one word  = it's an invalid group)
    ['python'],  #<-- row 1

    #Group 7 (only one word = it's an invalid group)
    ['java'],
    [
        "yu yu hakusho co dell'altro mondo", "yu yu hakusho re dell'inferno jr",
        'yu yu hakusho un amico per la pelle'
    ],
    [
        "yu yu yu hakusho co dell'altro mondo",
        "yu yu hakusho re dell'inferno jr yu yu",
        'yu yu yu hakusho un amico per la pelle'
    ]
]


def mostCommon(group):
    # skip invalid
    if len(group) < 2:
        return

    # all identical!
    if len(set(group)) == 1:
        return group[0]

    words = " ".join(group).split()
    c = collections.Counter(words)
    _maxCounts = max(c.values())

    # normalize maxCounts, in case maxCounts > length of group
    _maxItems = []
    for k, v in c.items():
        if v >= len(group) or v >= _maxCounts:
            _maxItems.extend([k] * divmod(v, len(group))[0])

    # One word appears most often.
    if len(_maxItems) == 1:
        return _maxItems[0]

    # Multiple words having same max. occurences, do the words appear consecutively ?
    # Lookup reverse, starting with longest
    _combinations = [_maxItems[:x] for x in range(1, len(_maxItems) + 1)]
    print(_combinations)
    for c in _combinations[::-1]:
        if len(set([item
                    for item in group if ' '.join(c) in item])) == len(group):
            return ' '.join(c)


for i, group in enumerate(groups):
    result = mostCommon(group)
    print(f"Group {i+1}: {result}")

输出:

Group 1: aaaa bbbb
Group 2: aaaa
Group 3: oooo bbbb
Group 4: hello
Group 5: yes! go go
Group 6: None
Group 7: None
Group 8: yu yu hakusho
Group 9: yu yu

关于python - 如何在不删除重复项的情况下找到最常用的单词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66971715/

24

4

0

文章推荐： haskell - 在一个循环中组合机器

文章推荐： typescript 泛型，无需函数调用即可推断对象属性类型

文章推荐： windows - vue awesome swiper 在 Windows 上安装失败

java - 在具有多个条件的 If 情况下，我们能否获得条件失败的确切位置？
我是 Java 新手，这是我的代码， if( a.name == b.name && a.displayname == b.displayname && a.linknam
javascript - 在下面的 JavaScript 情况下，如何避免重复自己的情况？
在下面的场景中，我有一个 bool 值。根据结果，我调用完全相同的函数，唯一的区别是参数的数量。 var myBoolean = ... if (myBoolean) { retrieve
c++ - 异常(exception)情况下，我想在没有任何堆栈展开的情况下进行调试
我是一名研究 C++ 的 C 开发人员: 我是否正确理解如果我抛出异常然后堆栈将展开直到找到第一个异常处理程序？是否可以在不展开的情况下在任何 throw 上打开调试器(即不离开声明它的范围或任何更高
c++ - 在什么情况/情况下 dynamic_cast<> 会失败？
在修复庞大代码库中的错误时，我观察到一个奇怪的情况，其中引用的动态类型从原始 Derived 类型更改为 Base 类型!我提供了最少的代码来解释问题: struct Base { // some
c# for 循环在 switch/case 情况下 - 如何？
我正在尝试用 C# 扩展给定的代码，但由于缺乏编程经验，我有点陷入困境。使用 Visual Studio 社区，我尝试通过控制台读出 CPU 核心温度。该代码使用开关/外壳来查找传感器的特定名称(即
javascript - 在 AJAX 情况下，如何在目标页面评估 JavaScript？
这可能是一个哲学问题。假设您正在向页面发出 AJAX 请求(这是使用 Prototype): new Ajax.Request('target.asp', { method:"post", pa
html - 在 Usemap/area 情况下，光标未更改为指针
我有以下 HTML 代码，我无法在所有浏览器中正常工作: 我试图在移动到
swift - 在这种 Firebase 情况下，如何在函数之间传递数据？ swift + Xcode
我对 Swift 很陌生。我如何从 addPin 函数中检索注释并能够在我的 addLocation 操作 (buttonPressed) 中使用它。我正在尝试使用压力触摸在 map 上添加图钉，在两
ios - 在 iPad DetailView 情况下，viewDidUnload 未被调用
我设置了一个详细 View ，我是否有几个 Nib 文件根据在 Root View Controller 的表中选择的项目来加载。我发现，对于 Nibs 的类，永远不会调用 viewDidUnloa
javascript - 在这种 javascript 情况下，除了 eval 之外还有其他选择吗？
我需要动态访问 json 文件并使用以下代码。在本例中，“bpicsel”和“temp”是变量。最终结果类似于“data[0].extit1” var title="data["+bpicsel+"]
c# - 在 HTTPS 情况下，服务器证书未使用 HTTP.SYS 正确配置
我需要使用第三方 WCF 服务。我已经在我的证书存储中配置了所需的证书，但是在调用 WCF 服务时出现以下异常。向 https://XXXX.com/AHSharedServices/Custome
postgresql - 即使在 ON CONFLICT DO NOTHING 情况下，postgres INSERT 触发器也会触发
在几个 SO 答案(1、2)中，建议如果存在冲突则不应触发 INSERT 触发器，ON CONFLICT DO NOTHING 在触发语句中。也许我理解错了，但在我的实验中似乎并非如此。这是我的 S
java - 在 Hibernate3 中的 saveOrUpdateAll 情况下，具有相同标识符值的不同对象已与 session 关联
如果进行修改，则会给出org.hibernate.NonUniqueObjectException。在我的 BidderBO 类(class)中 @Override @Transactional(pr
javascript - 为什么 React App 的 redux 情况下 IndexOf(Object) 可以工作？
我使用 indexOf() 方法来精细地查找数组中的对象。直到此刻我查了一些资料，发现代码应该无法正常工作。我在reducer中尝试了上面的代码，它成功了 let tmp = state.find
mysql - 在指定了 ORDER BY 和 LIMIT 并且实际上只需要连接少量行的 JOIN 情况下，MySQL 的行为如何？
假设我有以下表格: CREATE TABLE Game ( GameID INT UNSIGNED NOT NULL, GameType TINYINT UNSIGNED NOT NU
ios - 在使用 swift ios 的某些 URL 情况下，Alamofire 进度状态显示 0.0
代码: Alamofire.request(URL(string: imageUrl)!).downloadProgress(closure: { (progress) in

首页

博学

6Ren·AI

商城

python - 如何在不删除重复项的情况下找到最常用的单词？