- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试从旧版 FAME 数据库文件中获取正确的角色描述。基本上这是可行的,但是变音符号等打印不正确。基本上,R Package FAME
中包含的以下 C 函数与其说是一个 C 问题,不如说是一个 R 问题。
void fameWhat(int *status, int *dbkey, char **objnam, int *class,
int *type, int *freq, int *basis, int *observ,
int *fyear, int *fprd, int *lyear, int *lprd,
int *obs, int *range,
int * getdoc, char **desPtr, char **docPtr){
/* Get info about an object. Note that range should be an int[3] on input */
int cyear, cmonth, cday, myear, mmonth, mday;
int i;
char fdes[256], fdoc[256];
if(*getdoc){
if(strlen(*desPtr) < 256 || strlen(*docPtr) < 256){
*status = HBNCHR;
return;
}
for(i = 0; i < 255; ++i) fdes[i] = fdoc[i] = ' ';
}
fdes[255] = fdoc[255] = '\0';
cfmwhat(status, *dbkey, *objnam, class, type, freq, basis, observ,
fyear, fprd, lyear, lprd, &cyear, &cmonth, &cday, &myear,
&mmonth, &mday, fdes, fdoc);
if(*getdoc){
strncpy(*desPtr, fdes, 256);
strncpy(*docPtr, fdoc, 256);
}
if(*status == 0 && *class == HSERIE)
cfmsrng(status, *freq, fyear, fprd, lyear, lprd, range, obs);
return;
}
我觉得由于指向描述的指针 desPtr
的指针是 char
类型,因此在调用此函数时我没有得到任何正确的变音符号来自 R 并在 R 控制台中显示结果。我有预感 FAME 是 Latin-1 编码的。 R 是 UTF-8。例如,对于 ä
我得到 \U3e34653c
。
那么有没有一种方法可以在 C 中完成它并将正确的值传递给 R 或者我应该在 R 中搜索和替换?
注意:我看过这个帖子Using Unicode in C++ source code还有这个How to use utf8 character arrays in c++? .
最佳答案
看来你有一些多重堆叠编码/解码。首先,您是如何“获取”单个字符如此长的 Unicode 值的?
该长代码的原始十六进制到 ASCII 转换为 >4E<
或<E4>
(取决于字节顺序),后者解释为括号内的十六进制值,是 ä
您期待的是:http://www.fileformat.info/info/unicode/char/00E4/index.htm ,这是有效的 Latin-1 编码。
从这种编码格式转换为 UTF8 相对简单,尽管我不确定在哪里将此代码粘贴到现有例程中。作为示例独立程序:
#include <stdio.h>
#include <stdlib.h>
int main (void)
{
char input[] = "a sm<F6>rg<E5>sbord of <code>";
char *sourceptr, *destptr, *endptr;
int latin1;
sourceptr = input;
destptr = input;
while (*sourceptr)
{
if (*sourceptr == '<')
{
latin1 = strtol (sourceptr+1, &endptr, 16);
if (endptr && *endptr == '>' && latin1 > 127 && latin1 <= 255)
{
/* printf ("we saw hex code %xh\n", latin1); */
/* Quick-and-dirty converting to UTF8: */
*destptr = (char)(0xc0 | ((latin1 & 0xc0) >> 6));
destptr++;
*destptr = (char)(0x80 | (latin1 & 0x3f));
destptr++;
sourceptr = endptr+1;
continue;
}
}
*destptr = *sourceptr;
sourceptr++;
destptr++;
}
*destptr = 0;
printf ("output: %s\n", input);
return 0;
}
这会扫描输入字符串 <
后跟一个有效的十六进制代码(假设它是 Latin-1,因此限制为 80..FF)和另一个 >
。找到后,它会插入 UTF8 格式的字符。无法识别的序列将按原样复制。
关于c - 从指针到 char 返回正确的变音字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26501483/
这个问题在这里已经有了答案: Why don't Java's +=, -=, *=, /= compound assignment operators require casting? (11 个
当我尝试运行以下代码时,List(.of) 无法编译并给出主题错误。 package collections; import java.util.LinkedHashSet; import java.
我正在尝试编译使用 ChatScript 库的程序。这是我在名为 main.cpp 的文件中的代码: #include #include "common.h" using namespace std
我想在我的程序中外部使用 ChatScript。在documents它说: Embedding Step #1 First, you will need to modify `common.h and
假设我有一个 char,我想用一行代码将其 strcat() 转换为 char 数组。对于 [一个非实用的] 示例: strcat("ljsdflusdfg",getchar()); 或者我想做相反的
我有以下类型签名: *Main Lib> let f :: a -> a -> a -> a; f = undefined *Main Lib> let x :: Char; x = undefin
我正在学习如何在 C 中使用指针(使用 malloc 和 free),但我在这个练习中遇到了一些麻烦。我只想制作一个指针数组,我想在其中保存每个单词的方向。然后我想为一个特定的词做一个 free(),
我有一个字符*: char* version = "10.5.108"; 我想通过字符分隔符获取两个新的 char*。 char delimiter = '.'; 执行以下代码后: printf("|
最近在学习Cpp,今天在学习使用Clion做测试的时候,发生了奇怪的事情。 这是我的代码 int main() { char c = 'b'; char carr[1]{'a'};
我对 c 很陌生,我正在审查一些代码。我遇到了这个: static char * fromDataType; static char * toDataType; static char * fromR
我有一个像这样的动态结构: struct network { int count; char** ips; } 如果我知道每个字符串数组都是 16 个字节(即 INET_ADDRSTR
我有一个旧程序,其中使用了一些库函数,但我没有那个库。 所以我正在使用 C++ 库编写该程序。在那个旧代码中有一些函数是这样调用的 *string = newstrdup("这里有一些字符串"); 字
我正在编写一个函数,该函数接受 ArrayList,然后将每个 char[] 复制到另一个增加长度的 char[] 中,然后将新的 char[] 添加到新的 ArrayList 中。当我尝试复制数组时
我正在寻找 map >并生成每个可能的 map从它。 我知道这可能会占用大量内存并需要一些时间。 每个map需要包含每个字母 a-z,并映射到唯一的 a-z 字符。 IE。啊bjcp迪EVfh嘎血红蛋
#define NAME_LEN 20 #include "stdio.h" #include "stdlib.h" #include "string.h" #pragma warning(disab
所以我必须创建一个函数来找到一对带有第一个字母并返回第二个字母的函数。 我实际上找到了一个答案,但是使用 map 功能却找不到。 lookUp :: Char -> [(Char, Cha
我最近接受采访并要求写mystrcat(*s1, *s2, *s3) 其中s1 和s2 是源字符串连接结果由 s3 给出。有人告诉我,不要担心 s3 的内存分配,并假设 s1 和 s2 不是空/无效字
今天我与一位同事讨论了他(对我来说)不寻常的“main”函数签名。他喜欢这样声明: int main(int argc, char* (*argv)[]) { printf("at index
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: What's the difference between new char[10] and new cha
通常字符串文字是 const char[] 类型。但是当我把它当作其他类型时,我得到了奇怪的结果。 unsigned char *a = "\355\1\23"; 使用此编译器会抛出警告“初始化中的指
我是一名优秀的程序员,十分优秀!