python - 2020 年 Google 编程挑战题 : Unspecified Words-6ren

python - 2020 年 Google 编程挑战题 : Unspecified Words

转载作者：行者123 更新时间：2023-12-03 07:29:10

24

4

我在 2020 年 8 月 16 日的 Google Coding Challenge 中遇到了以下问题。我试图解决它，但无法解决。

There are N words in a dictionary such that each word is of fixedlength and M consists only of lowercase English letters, that is('a', 'b', ...,'z')
A query word is denoted by Q. The lengthof query word is M. These words contain lowercase English lettersbut at some places instead of a letter between 'a', 'b', ...,'z'there is '?'. Refer to the Sample input section to understand thiscase.

A match count of Q, denoted by match_count(Q) is thecount of words that are in the dictionary and contain the same Englishletters(excluding a letter that can be in the position of ?) in thesame position as the letters are there in the query word Q. In otherwords, a word in the dictionary can contain any letters at theposition of '?' but the remaining alphabets must match with thequery word.

You are given a query word Q and you are required to computematch_count.

Input Format

The first line contains two space-separated integers N and M denoting the number of words in the dictionary and length of each wordrespectively.

The next N lines contain one word each from the dictionary.

The next line contains an integer Q denoting the number of query words for which you have to compute match_count.

The next Q lines contain one query word each.

Output Format
For each query word, print match_count for a specific word in a new line.

Constraints
1 <= N <= 5X10^4
1 <= M <= 7 
1 <= Q <= 10^5

所以，我有 30 分钟的时间回答这个问题，我可以编写以下不正确的代码，因此没有给出预期的输出。

def Solve(N, M, Words, Q, Query):
    output = []
    count = 0
    for i in range(Q):
        x = Query[i].split('?')
        for k in range(N):
            if x in Words:
               count += 1
            else:
                pass
        output.append(count)
    return output

N, M = map(int , input().split())
Words = []
for _ in range(N):
    Words.append(input())

Q = int(input())
Query = []
for _ in range(Q):
    Query.append(input())

out =  Solve(N, M, Words, Q, Query)
for x in out_:
    print(x)

有人可以帮我提供一些可以解决这个问题的伪代码或算法吗？

最佳答案

我想我的第一次尝试是更换 ?与 .在查询中，即更改 ?at至 .at ，然后将它们用作正则表达式并将它们与字典中的所有单词进行匹配，就像这样简单:

import re
for q in queries:
    p = re.compile(q.replace("?", "."))
    print(sum(1 for w in words if p.match(w)))

但是，将输入大小视为 N 高达 5x104 和 Q 高达 105，这可能太慢了，就像任何其他算法比较所有单词和查询对一样。
另一方面，请注意 M ，每个单词的字母数，是常数且相当低。因此，您可以为所有位置的所有字母创建 Mx26 组单词，然后获取这些组的交集。

from collections import defaultdict
from functools import reduce

M = 3
words = ["cat", "map", "bat", "man", "pen"]
queries = ["?at", "ma?", "?a?", "??n"]

sets = defaultdict(set)
for word in words:
    for i, c in enumerate(word):
        sets[i,c].add(word)

all_words = set(words)
for q in queries:
    possible_words = (sets[i,c] for i, c in enumerate(q) if c != "?")
    w = reduce(set.intersection, possible_words, all_words)
    print(q, len(w), w)

在最坏的情况下(查询的非 ? 字母对字典中的大多数或所有单词都很常见)这可能仍然很慢，但过滤单词应该比迭代所有单词快得多每个查询。 (假设单词和查询中的字母都是随机的，第一个字母的单词集将包含 N/26 个单词，前两个的交集包含 N/26² 个单词等)
通过考虑不同的情况，这可能会有所改善，例如(a) 如果查询不包含任何 ? ，只要检查它是否在 set中(!) 没有创建所有这些交集的单词； (b) 如果查询全部是- ? , 只返回所有单词的集合； (c) 按大小对可能的词集进行排序，并首先从最小的集开始交集，以减少临时创建的集的大小。
关于时间复杂度:老实说，我不确定这个算法的时间复杂度是多少。 N、Q 和 M 分别是单词数、查询数以及单词和查询的长度，创建初始集合的复杂度为 O(N*M)。之后，查询的复杂度显然取决于非 ?的数量。在查询中(以及要创建的集合交集的数量)，以及集合的平均大小。对于具有零、一或 M 非 ? 的查询字符，查询将在 O(M) 中执行(评估情况，然后进行单个 set/dict 查找)，但对于具有两个或多个非 ? 的查询-characters，第一组交集的平均复杂度为 O(N/26)，严格来说仍然是 O(N)。 (以下所有交叉点只需要考虑 N/26²、N/26³ 等元素，因此可以忽略不计。)我不知道这与 The Trie Approach 相比如何，如果任何其他答案可以详细说明，我会非常感兴趣在那。

关于python - 2020 年 Google 编程挑战题 : Unspecified Words，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63472161/

24

4

0

文章推荐： visual-studio - Resources.Designer.cs是否应受源代码控制？

文章推荐： visual-studio-code - 如何创建工作区

文章推荐： .net - 属性参数必须是一个常量表达式

文章推荐： utf-8 - PDFTOTEXT 输出 UTF-8 格式所需的文件在哪里？

timer - UNIX 编程。 struct timeval 如何打印它(C 编程)
我正在尝试打印 timeval 类型的值。实际上我可以打印它，但我收到以下警告: 该行有多个标记格式“%ld”需要“long int”类型，但参数 2 的类型为“struct timeval” 程序
c - Unix 编程... fork() & execv() 帮助... C 编程
我正在编写自己的 unix 终端，但在执行命令时遇到问题: 首先，我获取用户输入并将其存储到缓冲区中，然后我将单词分开并将它们存储到我的 argv[] 数组中。IE命令是“firefox”以启动存储在
CUDA 编程
我是 CUDA 的新手。我有一个关于一个简单程序的问题，希望有人能注意到我的错误。 __global__ void ADD(float* A, float* B, float* C) { con
CGI 编程
我有一个关于 C 语言 CGI 编程的一般性问题。我使用嵌入式 Web 服务器来处理 Web 界面。为此，我在服务器中存储了一个 HTML 文件。在此 HTML 文件中包含 JavaScript 和
编程，不止有代码，还有艺术
**摘要：**在代码的世界中，是存在很多艺术般的写法，这可能也是部分程序员追求编程这项事业的内在动力。本文分享自华为云社区《【云驻共创】用4种代码中的艺术试图唤回你对编程的兴趣》，作者： break
R 编程 - 在它被调用的环境中创建变量
我有一个函数，它的任务是在父对象中创建一个变量。我想要的是让函数在调用它的级别创建变量。 createVariable testFunc() [1] "test" > testFunc2() [1]
C 编程 - 关于花括号的困惑
以下代码用于将多个连续的空格替换为1个空格。虽然我设法做到了，但我对花括号的使用感到困惑。这个实际上运行良好: #include #include int main() { int ch, la
C 编程 - 编写可自行编译的文本文件
我正在尝试将文件写入磁盘，然后自动重新编译。不幸的是，某事似乎不起作用，我收到一条我还不明白的错误消息(我是 C 初学者 :-)。如果我手动编译生成的 hello.c，一切正常吗？! #include
C 编程 - 传递指向数组的指针
如何将指针值传递给结构数组；例如，在 txt 上我有这个: John Doe;xxxx@hotmail.com;214425532; 我的代码: typedef struct Person{
C# SNMP 编程
我尝试编写一些代码来检索 objectID，结果是 2B-06-01-04-01-82-31-01-03-01-01 . 这个值不正确吗？ // Send a SysObjectId SNMP req
R 编程 - 对具有共同值的行的元素求和
您好，提前感谢您的帮助， (请注意评论部分以获得更多见解:即，以下示例中的成本列已添加到此问题中；西蒙提供了一个很好的答案，但成本列本身并未出现在他的数据响应中，尽管他提供的功能与成本列一起使用) 我
r - R中具有整数变量的非线性优化/编程
我想知道是否有人能够提出一些解决非线性优化问题的软件包的方法，而非线性优化问题可以为优化解决方案提供整数变量？问题是使具有相等约束的函数最小化，该函数受某些上下边界约束的约束。我已经在R中使用了'n
R 编程 - 向现有矩阵添加额外的列
我是 R 编程的初学者，正在尝试向具有 50 列的矩阵添加一个额外的列。这个新列将是该行中前 10 个值的平均值。 randomMatrix <- generateMatrix(1,5000,100,
C 编程 - 按位运算符并了解何时使用
我在《K&R II C 编程 ANSI C》一书中读到，“>>”和“0; nwords--) sum += *buf++; sum = (sum >>
Javascript - GUI 编程
当下拉列表的选择发生变化时，我想: 1) 通过 div 在整个网站上显示一些 GUI 阻止覆盖 2)然后处理一些代码 3) 然后隐藏叠加层。问题是，当我在事件监听器函数中编写此逻辑时，将执行 onC
Clojure "DSL"编程
我正在使用 Clojure 和 RESTEasy 设计 JAX-RS REST 服务器. 据我了解，用 Lisp 系列语言编写的应用程序比用“传统”命令式语言编写的应用程序更多地构建为“特定于领域的语
VBA 编程。如何将数据从用户窗体传输到工作表的特定行和列？
我目前正在研究一种替代出勤监控系统作为一项举措。目前，我设计的用户表单如下所示: Time Stamp Userform 它的工作原理如下: 员工将选择他/她将使用的时间戳类型:开始时间、超时、第一次
Java 编程 - 可除性和计数？
我是一名学生，试图自学编程，从在线资源和像您这样的人那里获得帮助。我在网上找到了一个练习来创建一个小程序来执行此操作: 编写一个程序，读取数字 a 和 b(长整型)并列出 a 和 b 之间有多少个数字
模数运算的 Shell 编程
我正在尝试编写一个 shell 程序，给定一个参数，打印程序的名称和参数中的每个奇数词(即，不是偶数词)。但是，我没有得到预期的结果。在跟踪我的程序时，我注意到，尽管奇数词(例如，第 5 个词，5 %
Java LED 编程
只是想知道是否有任何 Java API 可以让您控制台式机/笔记本电脑外壳上的 LED？或者，如果不可能，是否有可能？最佳答案如果你说的是前面的 LED 指示电源状态和 HDD 繁忙状态，恐怕没

首页

博学

6Ren·AI

商城

python - 2020 年 Google 编程挑战题 : Unspecified Words