- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个如下所示的列表:
group = [
#Group 1 ('aaa bbbb' the most common words = two words)
['aaaa bbbb nnnn', #<-- row 1
'aaaa bbbb oooo', #<-- row 2
'aaaa bbbb pppp'], #<-- row 3
#Group 2 ('hello' the most common word = one word)
['hello Jack T.', #<-- row 1
'hello Ramona D.', #<-- row 2
'hello Robert G.'], #<-- row 3
#Group 3 ('yes! go go' the most common words = the whole string)
['yes! go go', #<-- row 1
'yes! go go', #<-- row 2
'yes! go go', #<-- row 3
'yes! go go'], #<-- row 4
#Group 4 (only one word = it's an invalid group)
['python'], #<-- row 1
#Group 5 (only one word = it's an invalid group)
['java'] #<-- row 1
]
我需要为每个组找到最常用的单词并将它们保存到新列表中:
像这样:
OUT : ['aaaa','hello','yes! go go']
但是第三组有重复的单词 -> 'go go' 我需要两个,所以真正的结果是:
OUT : ['aaaa','hello','yes! go']
这是工作代码
#Try to count words for each group
for groups in group:
#how many groups ?
nGroup = len(groups)
#join lists
words = " ".join(groups).split()
我得到:
WORDS ['aaaa', 'bbbb', 'nnnn', 'aaaa', 'bbbb', 'oooo', 'aaaa', 'bbbb', 'pppp']
WORDS ['hello', 'Jack', 'T.', 'hello', 'Ramona', 'D.', 'hello', 'Robert', 'G.']
WORDS ['java']
WORDS ['python']
WORDS ['yes!', 'go', 'go', 'yes!', 'go', 'go', 'yes!', 'go', 'go', 'yes!', 'go', 'go']
#how many identical rows ?
rows = collections.Counter(words)
#what's the common words for each row ?
wCommon = rows.most_common()
#how often that's?
mCommon = rows.most_common(1)[0][1]
print (f"wCommon :{wCommon} rows :{rows} mCommon :{mCommon}")
我得到:
#Group 1
wCommon :[('aaaa', 3), ('bbbb', 3),
('nnnn', 1), ('oooo', 1),
('pppp', 1)]
rows :Counter({'aaaa': 3, 'bbbb': 3,
'nnnn': 1, 'oooo': 1,
'pppp': 1})
mCommon :3
#Group 2
wCommon :[('hello', 3), ('Jack', 1), ('T.', 1),
('Ramona', 1), ('D.', 1),
('Robert', 1), ('G.', 1)]
rows:Counter({'hello': 3, 'Jack': 1, 'T.': 1,
'Ramona': 1, 'D.': 1,
'Robert': 1, 'G.': 1})
mCommon:3
#Group 3
wCommon :[('java', 1)] rows:Counter({'java': 1}) mCommon:1
#Group 4
wCommon :[('python', 1)] rows:Counter({'python': 1}) mCommon:1
#Group 5
wCommon :[('go', 8), ('yes!', 4)] rows:Counter({'go': 8, 'yes!': 4})
mCommon:8
以下是原始列表,但它可以更改。我试图将它分成几组并计算每行的常用词......例如:
aaaa, hello , yes! go go
但有时会出现一个或多个常用词,例如'aaaa bbbb' 如何获取?或像“go”这样的重复,在这种情况下它不起作用
list_1 = [
"aaaa bbbb nnnn",
"aaaa bbbb oooo",
"aaaa bbbb pppp",
"hello Ramona D.",
"hello Jack T.",
"hello Robert G.",
"yes! go go",
"yes! go go",
"yes! go go",
"yes! go go",
"python",
"java"
]
编辑:谢谢大家
最佳答案
您可以只检查多个词是否有相同的出现次数以及它们是否连续出现:
import collections
groups = [
#Group 1 ('aaa bbbb' the most common words = two words)
[
'aaaa bbbb nnnn', #<-- row 1
'aaaa bbbb oooo', #<-- row 2
'aaaa bbbb pppp'
],
# Group 2 (one word 'aaaa' or 'bbbb', lets take the first)
['aaaa nnnn bbbb', 'aaaa oooo bbbb', 'aaaa pppp bbbb'],
#Group 3 (two words 'oooo bbbb')
['aaa1 oooo bbbb', 'aaa2 oooo bbbb', 'aaa3 oooo bbbb'],
#Group 4 ('hello' the most common word = one word)
[
'hello Jack T.', #<-- row 1
'hello Ramona D.', #<-- row 2
'hello Robert G.'
], #<-- row 3
#Group 5 ('yes! go go' the most common words = the whole string)
[
'yes! go go', #<-- row 1
'yes! go go', #<-- row 2
'yes! go go', #<-- row 3
'yes! go go'
], #<-- row 4
#Group 6 (only one word = it's an invalid group)
['python'], #<-- row 1
#Group 7 (only one word = it's an invalid group)
['java'],
[
"yu yu hakusho co dell'altro mondo", "yu yu hakusho re dell'inferno jr",
'yu yu hakusho un amico per la pelle'
],
[
"yu yu yu hakusho co dell'altro mondo",
"yu yu hakusho re dell'inferno jr yu yu",
'yu yu yu hakusho un amico per la pelle'
]
]
def mostCommon(group):
# skip invalid
if len(group) < 2:
return
# all identical!
if len(set(group)) == 1:
return group[0]
words = " ".join(group).split()
c = collections.Counter(words)
_maxCounts = max(c.values())
# normalize maxCounts, in case maxCounts > length of group
_maxItems = []
for k, v in c.items():
if v >= len(group) or v >= _maxCounts:
_maxItems.extend([k] * divmod(v, len(group))[0])
# One word appears most often.
if len(_maxItems) == 1:
return _maxItems[0]
# Multiple words having same max. occurences, do the words appear consecutively ?
# Lookup reverse, starting with longest
_combinations = [_maxItems[:x] for x in range(1, len(_maxItems) + 1)]
print(_combinations)
for c in _combinations[::-1]:
if len(set([item
for item in group if ' '.join(c) in item])) == len(group):
return ' '.join(c)
for i, group in enumerate(groups):
result = mostCommon(group)
print(f"Group {i+1}: {result}")
输出:
Group 1: aaaa bbbb
Group 2: aaaa
Group 3: oooo bbbb
Group 4: hello
Group 5: yes! go go
Group 6: None
Group 7: None
Group 8: yu yu hakusho
Group 9: yu yu
关于python - 如何在不删除重复项的情况下找到最常用的单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66971715/
我是 Java 新手,这是我的代码, if( a.name == b.name && a.displayname == b.displayname && a.linknam
在下面的场景中,我有一个 bool 值。根据结果,我调用完全相同的函数,唯一的区别是参数的数量。 var myBoolean = ... if (myBoolean) { retrieve
我是一名研究 C++ 的 C 开发人员: 我是否正确理解如果我抛出异常然后堆栈将展开直到找到第一个异常处理程序?是否可以在不展开的情况下在任何 throw 上打开调试器(即不离开声明它的范围或任何更高
在修复庞大代码库中的错误时,我观察到一个奇怪的情况,其中引用的动态类型从原始 Derived 类型更改为 Base 类型!我提供了最少的代码来解释问题: struct Base { // some
我正在尝试用 C# 扩展给定的代码,但由于缺乏编程经验,我有点陷入困境。 使用 Visual Studio 社区,我尝试通过控制台读出 CPU 核心温度。该代码使用开关/外壳来查找传感器的特定名称(即
这可能是一个哲学问题。 假设您正在向页面发出 AJAX 请求(这是使用 Prototype): new Ajax.Request('target.asp', { method:"post", pa
我有以下 HTML 代码,我无法在所有浏览器中正常工作: 我试图在移动到
我对 Swift 很陌生。我如何从 addPin 函数中检索注释并能够在我的 addLocation 操作 (buttonPressed) 中使用它。我正在尝试使用压力触摸在 map 上添加图钉,在两
我设置了一个详细 View ,我是否有几个 Nib 文件根据在 Root View Controller 的表中选择的项目来加载。 我发现,对于 Nibs 的类,永远不会调用 viewDidUnloa
我需要动态访问 json 文件并使用以下代码。在本例中,“bpicsel”和“temp”是变量。最终结果类似于“data[0].extit1” var title="data["+bpicsel+"]
我需要使用第三方 WCF 服务。我已经在我的证书存储中配置了所需的证书,但是在调用 WCF 服务时出现以下异常。 向 https://XXXX.com/AHSharedServices/Custome
在几个 SO 答案(1、2)中,建议如果存在冲突则不应触发 INSERT 触发器,ON CONFLICT DO NOTHING 在触发语句中。也许我理解错了,但在我的实验中似乎并非如此。 这是我的 S
如果进行修改,则会给出org.hibernate.NonUniqueObjectException。在我的 BidderBO 类(class)中 @Override @Transactional(pr
我使用 indexOf() 方法来精细地查找数组中的对象。 直到此刻我查了一些资料,发现代码应该无法正常工作。 我在reducer中尝试了上面的代码,它成功了 let tmp = state.find
假设我有以下表格: CREATE TABLE Game ( GameID INT UNSIGNED NOT NULL, GameType TINYINT UNSIGNED NOT NU
代码: Alamofire.request(URL(string: imageUrl)!).downloadProgress(closure: { (progress) in
我是一名优秀的程序员,十分优秀!