gpt4 book ai didi

c - 语言识别

转载 作者:太空宇宙 更新时间:2023-11-04 00:08:42 26 4
gpt4 key购买 nike

我想用C语言做一个语言识别程序。我已经在互联网上搜索并找到了基于 N-Gram 的文本分类文章,并且我还创建了自己的一组实用程序来处理我的一些编程需求。现在,我想首先尝试创建一个简单的程序,打印出用平假名、片假名和汉字书写的日语单词。我相信这可以用 C 语言完成,但我不确定如何实现它,也许这与 unicode 编程有关。任何人都可以尝试向我解释我首先需要学习什么,我需要#include 哪些库,或者可以使用哪些实用程序作为我执行和实现该程序的基础。

最佳答案

我不认为 C 是这个项目的最佳选择。 IMO 你应该考虑使用高级语言(如 C#),它有一些惊人的内置支持,只是一个简单的例子:

C#:

byte[] buffer = new byte[] { 0xE8, 0x82, 0xB2, 0xE5, 0x84, 0xBF }; 
string s = Encoding.UTF8.GetString(buffer);

繁荣。完成。

现在在 C 中,据我所知,没有简单的标准编码/解码库或实用程序。你必须手工创建这些东西。我自己也曾一度开始这样做,但意识到这是在浪费我的时间。 :)

如果您坚持使用 C,我建议您先阅读有关不同类型编码(多字节/宽字节编码)的所有内容。 Unicode 上有很多很好的教程在网络上帮助您入门(这是我使用的 good one)。

编辑:好的,如果没有 C#,那么让我们在 C 中举一个“简短”的例子......同样,这假设你知道一些关于编码的事情(注意宽字符的使用:wchar_t):

#include <stdio.h>  
#include <stdlib.h>
#pragma import(__use_utf8_ctype)
#include <wchar.h>
#include <locale.h>

int main(int argc, char *argv[])
{
wchar_t water = 27750;
setlocale(LC_ALL, "");

printf("%lc",water);
return 0;
}

mike@linux-4puc:~> ./a.out

那是中文...我认为它是同一个汉字,但我的日语不是很好...你可以如何打印,现在存储工作类似,你将存储在 wchar_t 中,然后进行比较。

关于c - 语言识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12389637/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com