Python 单词和短语的共现矩阵-6ren

Python 单词和短语的共现矩阵

转载作者：太空宇宙更新时间：2023-11-04 08:50:22

24

4

我正在处理两个文本文件。一个包含 58 个单词的列表 (L1)，另一个包含 1173 个短语 (L2)。我想查看 for i in range(len(L1))和 for j in range(len(L1)) L2 中的共同出现.

例如:

L1 = ['b', 'c', 'd', 'e', 't', 'w', 'x', 'y', 'z']
L2 = ['the onion', 'be your self', 'great zoo', 'x men', 'corn day']

for i in range(len(L1)):
    for j in range(len(L1)):
        for s in range(len(L2)):
            if L1[i] in L2[s] and L1[j] in L2[s]:
                output = L1[i], L1[j], L2[s]
                print output

输出(例如 'be your self' 来自 L2 ):

('b', 'b', 'be your self')
('b', 'e', 'be your self')
('b', 'y', 'be your self')
('e', 'b', 'be your self')
('e', 'e', 'be your self')
('e', 'y', 'be your self')
('y', 'b', 'be your self')
('y', 'e', 'be your self')
('y', 'y', 'be your self')

输出显示了我想要的内容，但为了可视化数据，我还需要返回时间 L1[j]同意L1[i] .

例如:

我应该使用 pandas 吗？或 numpy为了返回这个结果？

我发现了这个关于共现矩阵的问题，但我没有找到具体的答案。 efficient algorithm for finding co occurrence matrix of phrases

谢谢!

最佳答案

这是一个使用 itertools.product 的解决方案。这应该比公认的解决方案要好得多(如果这是一个问题)。

from itertools import product
from operator import mul

L1 = ['b', 'c', 'd', 'e', 't', 'w', 'x', 'y', 'z']
L2 = ['the onion', 'be your self', 'great zoo', 'x men', 'corn day']

phrase_map = {}

for phrase in L2:
    word_count = {word: phrase.count(word) for word in L1 if word in phrase}

    occurrence_map = {}
    for perm in product(word_count, repeat=2):
        occurrence_map[perm] = reduce(mul, (word_count[key] for key in perm), 1)

    phrase_map[phrase] = occurrence_map

根据我的计时，这在 Python 3 中快了 2-4 倍(Python 2 中的改进可能较少)。此外，在 Python 3 中，您需要从 functools 导入 reduce。

编辑:请注意，虽然此实现相对简单，但效率很低。例如，我们知道相应的输出是对称的，而这个解决方案并没有利用它。使用 combinations_with_replacements 而不是 product 将仅生成输出矩阵上三角部分中的条目。因此，我们可以通过以下方式改进上述解决方案:

from itertools import combinations_with_replacement

L1 = ['b', 'c', 'd', 'e', 't', 'w', 'x', 'y', 'z']
L2 = ['the onion', 'be your self', 'great zoo', 'x men', 'corn day']

phrase_map = {}

for phrase in L2:
    word_count = {word: phrase.count(word) for word in L1 if word in phrase}

    occurrence_map = {}
    for x, y in combinations_with_replacement(word_count, 2):
        occurrence_map[(x,y)] = occurrence_map[(y,x)] = \
            word_count[x] * word_count[y]

    phrase_map[phrase] = occurrence_map

return phrase_map

正如预期的那样，这个版本比以前的版本花费了一半的时间。请注意，此版本依赖于将您自己限制为两个元素对，而之前的版本则没有。

请注意，如果该行可以减少大约 15-20% 的运行时间

 occurrence_map[(x,y)] = occurrence_map[(y,x)] = ...

改为

occurrence_map[(x,y)] = ...

但这可能不太理想，具体取决于您将来如何使用此映射。

关于Python 单词和短语的共现矩阵，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36001884/

24

4

0

文章推荐： python 3 : Adding function to a already created object

文章推荐： c - 无法解密函数参数 : pointer and pointer to pointer

文章推荐： c - For/While 循环使用

文章推荐： python - 用于多个维度的 numpy linspace 和网格

linux - 从1行获取带有awk的字符串/短语
我们正在使用一个脚本，它会返回以下内容120007CONSULTA DE DEUDA CORRECTA.01TEST我正在尝试从awk中获得 CONSULTA DE DEUDA CORRECTA 的短
elasticsearch - 如何增强ES中应子句的某些单词/短语？
我正在使用以下查询: { "_source": [ "title", "bench", "id_", "court",
r - 如何在R中找到相似的句子/短语？
例如，我有数十亿个短语，我想要将相似的短语聚集在一起。 > strings.to.cluster <- c("Best Toyota dealer in bay area. Drive out wit
python - 匹配文本中存储的关键字/短语
我有一个包含大约 1000 个关键字/短语(一到四个字长)的数据库表 - 这个表很少更改，所以我可以将数据提取到更有用的东西中(比如正则表达式？) - 所以这没有找到/基于自然语言处理猜测关键词..
MySQL 全文关键字/短语
我想确保我从一开始就做对了，但我找不到好的答案，所以我想问一下。我要做的是以下内容。以一句话为例:The quick brown fox jumped over the lazy dog"并使用全
php - 在数据库中搜索整个字符串/短语
我有一个表单，其中有两个单选按钮。应该从字符串中搜索整个字符串，第二个应该搜索至少一个单词。例如: 我将搜索“Awesome ideas for startup”。如果我选中“搜索整个字符串/短
linux - 如何匹配文本中的关键字/短语？
我有... 一组固定关键字和词组(大约 1,000,000 个)，例如 birthday、happy new year、vacation等 10 到 500 字之间的一些可变文本。我想…… 识别文本
python - 有没有办法删除字符串中重复和连续的单词/短语？
有没有办法删除字符串中重复的和连续的单词/短语？例如。 [in]: foo foo bar bar foo bar [out]: foo bar foo bar 我试过这个: >>> s = 'thi
nlp - 如何在文本中搜索(可分离的)短语
我正在寻找一种在文本中搜索短语或惯用表达的方法，无论时态或可能的介词/副词如何，例如如果我正在寻找 call off我还想找到 My boss called the meeting off. 之类的用
powershell - PowerShell 短语 "| ? {...}"是什么意思？
PowerShell 有一些语法特性，我找不到太多相关文档。今天我的问题是 ? {...} 例子 PS> Get-SPServiceInstance | ? {$_.GetType.toString(
lucene - Solr 常见关键字/短语
我通过 PHP 使用 Solr 来搜索我网站的各个方面。我正在尝试实现一项功能，但找不到任何有关如何实现它的信息。我有一组文档(评论)，每个文档都与特定产品有关。我想找到出现在单个产品的多条评论中
nlp - cyc 术语的自然语言单词(短语)
我正在从事自然语言生成任务，需要检索与 Cyc 术语等效的自然语言单词或短语。例如。 “#$EatingEvent”->“吃”或“#$Coyote-Animal”->“土狼”。如何通过 Java A
java - Java 正则表达式中强制最后一个单词和可选的前面单词/短语
我在使用 Java 中的以下正则表达式时遇到问题。我删除了双引号，以使其更具可读性。由于缺乏更好的词，我还将每个“组件”放在单独的行上(但实际的表达式会将行合并，行之间没有空格): (?:\bIN(?
php - 从数据库获取流行词("trending"短语)
我有一个 MySQL 数据库，我正在尝试使用 PHP 获取趋势主题(流行短语或单词)。我尝试了一些查询，但似乎没有什么对我有用。最佳答案您可以尝试创建一个包含两列的新表:WORD 和 COUNT，
PHP & MySql 匹配字符串中的单词/短语
我在 MySql 中有一个包含城市的表。 |---------------------|------------------| | ID | City
c# - 使用正则表达式处理 bool 短语
我正在处理搜索页面上的用户输入。如果用户选择“所有单词”类型的搜索，那么我会从搜索文本中删除所有 bool 搜索运算符，并在每个真实单词之间添加 ' AND '。在大多数情况下非常简单。但是，我不知道
python - nltk 中是否有内置方法来查找与给定单词紧密匹配的单词/短语？
我使用的语音识别软件给出的结果不是最佳的。例如:session 返回为 fashion 或 mission。现在我有一本像这样的字典: matches = { 'session': ['fas
php - 所有已安装字体的视觉列表以及相应的 pangram 短语？
我厌倦了使用 Gimp 无休止地滚动所有字体来不规律地搜索完美字体，所以我想:“为什么不为每种字体构建一个可视的 pangrams 列表”。因此，我尝试构建一个 php 脚本，该脚本在 .fonts
JavaScript RegEx 排除某些单词/短语？
如何编写一个 RegEx 模式来测试一个字符串是否包含多个具有以下结构的子字符串: "cake.xxx" xxx 是任何东西，但不是“奶酪”、“牛奶”或“黄油”。例如: “我有一个 cake.hon
elasticsearch - 如何从 ElasticSearch 记录中聚合匹配的前缀/短语？
我有一个字段“部门”，它是一个列表:{“部门”:[“餐饮服务”，“软件开发”，“制造”，“部署”]}' 我想聚合“部门”中以“d”开头的元素。即，从所有记录进行部署。我能够找到包含一个前缀为“d”但

首页

博学

6Ren·AI

商城

Python 单词和短语的共现矩阵