c - 找出2个相似或不相似的字符串-6ren

c - 找出2个相似或不相似的字符串

转载作者：太空狗更新时间：2023-10-29 16:03:46

25

4

规则:2 个字符串，a 和 b，它们都由 ASCII 字符和非 ASCII 字符(例如，汉字 gbk 编码)组成。

If the non-ASCII chars contained in b also show up in a and no less than the times they appear in b, then we say b is similar with a.

例如:

a = "ab中ef日jkl中本"  //non-ASCII chars:'中'(twice), '日'(once), '本'(once)
b = "bej中中日"  //non-ASCII chars:'中'(twice), '日'(once)
c = 'lk日日日'   //non-ASCII chars:'日'(3 times, more than twice in a)

根据规则，b 与 a 相似，但 c 不相似。这是我的问题:我们不知道 a 和 b 中有多少非 ASCII 字符，可能很多。因此，要找出非 ASCII 字符在 a 和 b 中出现了多少次，我是否应该使用哈希表来存储它们的出现时间？以字符串a为例:

[non-ASCII's hash-value]:[times]
     中's hash-val      : 2
     日's hash-val      : 1
     本's hash-val      : 1

检查字符串 b，如果我们在 b 中遇到非 ASCII 字符，则对其进行哈希处理并检查 a 的哈希表，如果该字符存在于 a 的哈希表中，则其出现次数减 1。如果出现次数小于 0(-1)，则我们说 b 与 a 不相似。

或者有什么更好的方法吗？

附言:我是一个字节一个字节地读取字符串，如果字节小于128，那么我就把它当作一个ASCII字符，否则我就把它当作一个非ASCII字符(多字节)的一部分。这就是我为找出非 ASCII 字符所做的工作。对吗？

最佳答案

你问了两个问题:

我们可以使用哈希表计算非 ASCII 字符吗？答:当然可以。当您读取字符(不是字节)时，检查代码点。对于大于 127 的任何代码点，将其放入计数哈希表中。即对于字符 c，如果 c 不在表中，则添加 (c,1)，如果 c 已经在表中，则将 (c,x) 更新为 (c, x+1)。
<
有没有比在 a 中递增计数并在运行 b 时递减计数的方法更好的解决此问题的方法？如果您的哈希表实现提供接近 O(1) 的访问权限，那么我怀疑不会。您正在查看字符串中的每个字符一次，并且对于每个字符，您正在执行哈希表插入或查找以及加法或减法，以及针对 0 的检查。对于未排序的字符串，您有无论如何都要查看两个字符串中的所有字符，所以我认为您已经给出了最佳解决方案。

面试官可能希望你说这样的话，“嗯嗯，如果这些字符串实际上是内存无法容纳的大量文件，我该怎么办？”或者你问“字符串排序了吗？因为如果排序了，我可以做得更快......”。

但现在假设字符串很大。您唯一存储在内存中的是哈希表。 Unicode 只有大约 100 万个代码点，并且您要为每个代码点存储一个整数计数，因此即使您从千兆字节大小的文件中获取数据，您的哈希表也只需要大约 4MB 左右(或者它的一小部分，因为开销)。

在没有任何其他条件的情况下，您的算法很好。事先对字符串进行排序并不好；它占用更多内存并且不是线性时间操作。

附录

由于您最初的评论提到了 char 类型而不是 wchar_t，我想我应该展示一个使用宽字符串的示例。参见 http://codepad.org/B3MXOgqc

希望对您有所帮助。

附录 2

好的，这是一个 C 程序，它准确地展示了如何遍历宽字符串并在字符级别工作:

http://codepad.org/QVX3QPat

这是一个非常短的程序，所以我也将它粘贴在这里:

#include <stdio.h>
#include <string.h>
#include <wchar.h>

char *s1 = "abd中日";
wchar_t *s2 = L"abd中日";

int main() {
    int i, n;
    printf("length of s1 is %d\n", strlen(s1));
    printf("length of s2 using wcslen is %d\n", wcslen(s2));
    printf("The codepoints of the characters of s2 are\n");
    for (i = 0, n = wcslen(s2); i < n; i++) {
        printf("%02x\n", s2[i]);
    } 
    return 0;
}

输出:

length of s1 is 9
length of s2 using wcslen is 5
The codepoints of the characters of s2 are
61
62 
64
4e2d
65e5

我们可以从中学到什么？几件事:

如果您对 CJK 字符使用普通的旧 char，则字符串长度将是错误的。
要在 C 中使用 Unicode 字符，请使用 wchar_t
对于宽字符串，字符串文字有一个前导 L

在这个例子中，我定义了一个带有 CJK 字符的字符串，并使用了 wchar_t 和一个带有 wcslen 的 for 循环。请注意，我使用的是真实字符，而不是 BYTES，因此我得到了正确的字符数，即 5。现在我打印出每个代码点。在您的面试问题中，您将查看代码点是否为 >= 128。我以十六进制显示它们，文化也是如此，因此您可以查找 >= 0x7F。 :-)

附录 3

http://tldp.org/HOWTO/Unicode-HOWTO-6.html 中的一些注意事项值得一读。字符处理比上面的简单示例显示的要多得多。在下面的评论中，J.F. Sebastian 提供了许多其他重要链接。

需要解决的少数事情是规范化。例如，您的面试官是否关心当给定两个字符串时，一个仅包含一个 Ç，另一个包含一个 C，后跟一个 COMBINING MARK CEDILLA BELOW，它们是否相同？它们代表相同的字符，但一个使用一个代码点，另一个使用两个。

关于c - 找出2个相似或不相似的字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7375398/

25

4

0

文章推荐： php - 元 og :image not working for my wordpress website using SSL

文章推荐： c - 如何确保 vfprintf 具有正确数量的参数？

文章推荐： struct 内的变量声明语句中的冒号运算符

文章推荐： android - 从 URL 在 Google Maps v2 Android 上设置标记图标

java - 找出/计算符号的宽度
找出/计算符号的宽度 panel.add(textfield,BorderLayout.SOUTH); system.out.println(textfield.getWidth()); System
php - 找出 2 个数字与某物相加并与某物相乘
嘿，所以我正在制作一个因式分解程序，我想知道是否有人可以给我任何想法，让我知道如何找到一个有效的方法来找到两个数字乘以指定数字的倍数，以及添加到指定数字。例如我可能有 (a)(b) = 6 a +
gwt - 找出 GWT 模块何时加载
我以以下方式将 GWT 方法导出到 native javascript: public class FaceBookGalleryEntryPoint implements EntryPoint {
silverlight - 找出 Silverlight 命名空间和程序集
通常，当您在 Web 上找到 Silverlight 代码示例时，它可能只包含一段代码，而不是使其工作所需的完整代码集。当我试图确定在 xaml 文件顶部使用什么命名空间和/或程序集声明时，这让我感到
dojo - 找出 Dojo 的版本
我对 Dojo 工具包有点陌生。有些问题我想得到启发(我用谷歌搜索，但没有得到任何合适且令人满意的答案) 我已经在运行的应用程序(由另一个软件开发人员开发)中有一个 dojo.js(也许是下载的未压缩
javascript - 找出 HTML 表格中的哪一行被点击
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How to detect which row [ tr ] is clicked? 我有一个这样的表:
iphone - 找出 iOS 中特定文件的数据保护类别
我目前正在尝试找出特定应用程序使用的数据保护类别。我的第一个方法是使用未加密的 iTunes 备份来确定所使用的保护类别。我用过this提取备份。但现在我要陷入困境了。此外，我不太确定 iTune
iphone - 找出 nsrangeException 的来源
我有一个 NSRangeException 错误，该错误并不总是发生(尤其是在调试时)。它是随机出现的，我无法弄清楚它来自哪里。我有很多数组操作，因此很难以这种方式消除它。我的问题是我是否可以从调试
cocoa - 找出 Foundation 可执行文件中的工作文件夹？
我有一个控制台程序，它链接到 Mac 上的 Foundation 框架。如何找到可执行文件所在的文件夹？最佳答案即使该工具不在 bundle 中，您仍然可以使用一些 NSBundle 方法。例如:
cocoa - 找出 Cocoa 中可执行文件的位置
简单的问题是:如何找出 Cocoa 应用程序中可执行文件的位置。请记住，在许多类 Unix 操作系统中，人们使用 PATH 环境来为其可执行文件分配首选位置，特别是当他们的系统中有同一应用程序的多个
delphi - 找出 TGridPanel 中控件的位置
如何找出 TGridPanel 内控件的位置(行和列索引)？我想对按钮数量使用常见的 OnClick 事件，并且需要知道按钮的 X、Y 位置。我使用的是 Delphi 2007。最佳答案不幸的是
.net - 找出 .NET 中的总磁盘空间和可用磁盘空间
我试图找到一种方法来确定 .NET 应用程序中任意文件夹中的总磁盘空间和可用磁盘空间。文件夹中的“总磁盘空间”和“可用磁盘空间”是指如果您对其执行“dir”命令，该文件夹将报告的总磁盘空间和可用磁盘空
unix - 找出 POSIX 系统上是否存在命令
我希望能够通过 shell 脚本判断任何 POSIX 系统上是否存在命令。在 Linux 上，我可以执行以下操作: if which ; then ...snip... fi 但是，Solar
haskell - 找出 Haskell 函数的复杂性
如何找到不同 Haskell 函数的复杂性(以 big-O 表示)？例如， subsequences 的复杂度是多少？ ? 最佳答案您只能通过查看代码来计算函数的确切复杂度。但是，您可以使用 cr
.net - 找出 .NET 对象的大小
我试图找出我的对象占用了多少内存来查看有多少对象最终出现在 Large Object Heap 上。 (超过 85,000 字节)。是否像为每个对象添加 4(表示 int)、添加 8(表示 long
vim - 找出 Vim 中加载的文件类型
一旦我在 Vim 中加载任何文件，它就会尝试检测该文件，并在可能的情况下用颜色突出显示它。我想知道一个 Vim 命令，它会告诉我 Vim 认为哪个 ftplugin 或文件类型插件/文件类型会突出显
javascript - 找出 querySelector 的哪一部分与给定元素匹配
是否有可能找出 querySelector 的哪一部分与 DOM 中的特定元素匹配？假设您有以下查询: 'h1,h2,h3,h4.custom-bg,div' 如果您使用 document.quer
registry - 找出 Windows 的安装语言为
我遇到一个问题，用户设置的区域设置(德语)与安装的语言 Windows(英语)不同。有没有办法发现安装的 Windows 语言与用户设置的区域设置？我应该注意的问题是我正在创建共享，并且根据区域设置设
java - 找出 Android 存储文件的位置
我正在写入应用程序中的文件。我想找到该文件以检查该文件是否已正确写入(以便我可以通过 Web View 访问该文件)。这是我用来编写文件的代码: try { FileOutputStream
java - 找出 HashMap 中使用的类型
我有一个从 JSON 文件填充的 HashMap。键值对中的值可以是两种不同的类型 - 字符串或其他键值对。例如: HashMap hashMap = new Map(); JSON 文件看起来有点

首页

博学

6Ren·AI

商城

c - 找出2个相似或不相似的字符串