gpt4 book ai didi

c++ - C++ getline添加空格

转载 作者:行者123 更新时间:2023-11-30 01:58:48 25 4
gpt4 key购买 nike

我已经尝试了好几天来解决此问题,但无法解决。基本上,我的代码应该读取wmic生成的.csv文件并将其保存到结构中。我可以读取数据并将其存储,但是每个字符后都有一个额外的空格。我尝试过切换到函数的Unicode版本并使用宽字符串,但是它们只会使数据更加困惑(它们将“n”变成“ÿ”)。

这是我认为是问题的代码:

system("wmic product get name,version,installdate,vendor /format:csv > product.txt");

std::ifstream infoFile("./program.txt"); // The file wmic wrote in csv format.

if(infoFile.is_open())
{
std::string line;
int lineNum = 0;

while(getline(infoFile, line))
{
lineNum++;
std::cout << "\nLine #" << lineNum << ":" << std::endl;

Program temp;
std::istringstream lineStream(line);
std::string cell;
int counter = 0;
int cellNum = 0;

while(getline(linestream, cell, ','))
{
cellNum++;
std::cout << "\nCell #" << cellNum << ":" << cell << std::endl;

switch(counter)
{
case 0:
break;
case 1:
temp.installDate = cell;
break;
case 2:
temp.name = cell;
break;
case 3:
temp.vendor = cell;
break;
case 4:
temp.version = cell;
break;
default:
std::cout << "GetProductInfo(): Invalid switch value: " << counter << std::endl;
break;
}
counter++;
}

information->push_back(temp); // Vector to save all of the programs.
}

infoFile.close();
}
else
{
std::cout << "GetProductInfo(): Failed to open the input file." << std::endl;
return 1;
}

return 0;
}

编辑:
好的,我正尝试编写BOM(FF FE 0D 00 0A),因为之前没有编写过。我正在用十六进制值编写一个char数组,但是有一个额外的0x0D被添加(FF FE 0D 00 0D 0A)。它还将内部变量与多余的空间一起保存。这可能不是问题,因为我可以修改代码以解决此问题,但这并不是最佳选择。有任何想法吗?

编辑2:
所以我想我不需要BOM。我现在的主要问题是只读取UTF-16LE文件并将数据保存到结构中而没有多余的空间。我需要一些帮助以正确的方式进行操作,因为我想弄清楚将来如何避免这种情况。感谢您对所有人的帮助,此错误至关重要。

最佳答案

这闻起来很像是文本编码问题,所以我继续尝试运行您提供的命令,并且可以肯定的是,输出文件是用UCS16LE编码的。 (这是16位字符,little-endian。)尝试在十六进制编辑器中打开文件,以查看其实际外观。

尝试使用宽字符串时,您走在正确的道路上,但是处理Unicode可能很棘手。接下来的几段将为您提供一些技巧,说明如何以困难的方式进行处理,但是,如果您需要快速简便的解决方案,请跳到最后。

有两件事要注意。首先,请确保您还在使用宽泛的流,例如wcout。值得将每个字符转换为一个int,以仔细检查输出格式是否存在问题。

其次,wcout,wstring等的格式不是标准的。在某些编译器中,每个字符2个字节,在其他字符上为4个字节。通常可以在编译器设置中更改此字节。 C++ 11还提供了std::u16string和std::u32string,它们的大小更加明确。

不幸的是,使用C++库读取Unicode文本可能会有些麻烦,因为即使您具有正确的字符串大小,也需要处理BOM和字节序格式,更不用说规范化了。

有一些库可以帮助您解决此问题,但最简单的解决方案可能只是在记事本中打开txt文件,选择另存为,然后选择您更喜欢的编码,例如ANSI。

编辑:如果您对快速又肮脏的解决方案不满意,并且不想使用更好的Unicode库,则可以对标准库进行此操作,但前提是您使用的编译器必须支持C++ 11,例如Visual Studio 2012。

C++ 11添加了一些codecvt构面来处理不同Unicode文件类型之间的转换。这应该适合您的目的,但是库的这一部分的基础设计是在过去或过去设计的,可能很难理解。抓紧你的裤子。

在打开ifstream的行下方,添加以下代码:

infoFile.imbue(std::locale(infoFile.getloc(), new std::codecvt_utf16<char, 0x10FFFF, std::consume_header>));

我知道这看起来有点吓人。它的作用是从现有语言环境的副本中创建一个“语言环境”,然后向该语言环境中添加一个“构面”以处理格式转换。

“语言环境”处理一堆东西,大部分与本地化有关(例如如何标点货币,例如“100.00”与“100,00”)。语言环境中的每个规则都称为构面。在C++标准库中,文件编码被视为这些方面之一。

(背景:回想起来,将文件编码与本地化混在一起可能不是一个很明智的主意,但是在设计库的这一部分时,文件编码通常由程序的语言决定,因此我们陷入了这种情况。)

因此,上面的 locale构造函数将文件流创建的默认 locale的副本作为其第一个参数,第二个参数是要使用的新构面。
codecvt_utf16是用于与utf-16相互转换的一个方面。第一个参数是“宽”类型,即程序使用的类型,而不是字节流中使用的类型。我在这里指定了 char,该代码可与Visual Studio一起使用,但是根据标准,它实际上是无效的。我稍后再讲。

第二个参数是您希望在不引发错误的情况下接受的最大Unicode值,并且在可预见的将来,0x10FFFF表示最大的Unicode字符。

最终参数是一个位掩码,可更改构面的行为。我认为 std::consume_header对您特别有用,因为 wmic输出BOM(至少在我的机器上)。这将消耗该BOM,并根据获取的内容选择将其作为小端流还是大端流处理。

您还会注意到,我正在使用 new在堆栈上创建构面,但没有在任何地方调用 delete。这不是在现代C++中设计库的非常安全的方法,但是就像我说的那样,语言环境是库中相当老的部分。

请放心,您不需要 delete这个方面。确实没有很好地记录下来(因为在实践中很少使用语言环境),但是默认构造的构面将由其附加的语言环境自动 delete d。

现在,还记得我曾说过使用 char作为宽类型是无效的吗?该标准说,您必须使用 whcar_tchar16_tchar32_t,如果要支持非ASCII字符,则一定要这样做。最简单的方法是使用 wchar_t,将 ifstreamstringcoutistringstream更改为 wifstreamwstringwcoutwistringstream,然后确保字符串/字符常量前面有一个 L,就像这样:
std::wcout << L"\nLine #" << lineNum << L":" << line << std::endl;

这些就是您使用宽字符串所需的全部更改。但是,还要注意Windows控制台不能处理非ANSI字符,因此,如果您尝试输出这样的字符(当我运行代码时,我打了一个™字符),则wcout流将无效并停止输出任何内容。如果要输出到文件,这应该不是问题。

您可能会说,我对标准库的这一部分并不特别满意。实际上,大多数想使用Unicode的人都将使用其他库(例如我在评论中提到的库),或者使用自己的编码器/解码器。

关于c++ - C++ getline添加空格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16864471/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com