gpt4 book ai didi

c++ - 读取 UTF-8 文件并解析字符

转载 作者:行者123 更新时间:2023-11-30 04:58:20 25 4
gpt4 key购买 nike

我最初使用 std::wstring 编写了以下代码,并使用了静态输入到代码中的宽字符串。

后来我了解到 UTF-8 将“适合”std::string 并且实际上并不需要 std::wstring 但我可能需要稍后进行一些编码翻译。所以我有一个正在读取的 UTF-8 编码文本文件。

#include <iostream>
#include <fstream>

class A
{
public:
A(std::istream& stream)
:
m_stream(stream),
m_lineNumber(1),
m_characterNumber(1)
{

}

bool OutputKnownWords()
{
while(m_stream.good())
{
if(Take("MIDDLE"))
std::cout << "Found middle" << std::endl;
else if(Take("BEGIN"))
std::cout << "Found begin" << std::endl;
else if(Take("END"))
std::cout << "Found end" << std::endl;
else if(Take(" "))
std::cout << "parsed out space" << std::endl;
else
return false;
}
return true;
}

protected:

std::istream::char_type Get()
{
auto c = m_stream.get();
++m_characterNumber;
if(c == '\n')
{
++m_lineNumber;
m_characterNumber = 1;
}
return c;
}

bool Take(const std::string& str)
{
if(!Match(str))
return false;

for(std::string::size_type i = 0; i < str.size(); ++i)
Get();

return true;
}

bool Match(const std::string& str)
{
auto cursorPos = m_stream.tellg();

std::string readStr(str.size(),'\0');

m_stream.read(&readStr[0],str.size());

if(std::size_t(m_stream.gcount()) < str.size() || readStr != str)
{
if(!m_stream.good())
m_stream.clear();
m_stream.seekg(cursorPos);
return false;
}
m_stream.seekg(cursorPos);
return true;
}

std::istream& m_stream;
std::size_t m_lineNumber;
std::size_t m_characterNumber;
};

int main()
{
std::ifstream file("test.txt");
if(!file.is_open())
{
std::cerr << "could not open file" << std::endl;
return 0;
}

A a(file);

if(!a.OutputKnownWords())
{
std::cerr << "something went wrong" << std::endl;
return 0;
}

return 0;
}

文本.文本

BEGIN MIDDLE
END

所以我希望这个程序输出:

Found begin
parsed out space
Found middle
parsed out space
Found end

但是,OutputKnownWords 返回错误。我逐步调试了调试器,发现 Match 中的 seekg 调用似乎没有设置正确的位置。就像,每个测试都以一个字符结束。

当我使用静态类型的宽字符串执行此操作时,我没有遇到任何问题。

我觉得这可能与 UTF-8 编码与 std::string 的“字符”概念之间的差异有关。但我不确定如何处理 std::string 中有多少“字符”。

这与 tellg() function give wrong size of file? 无关因为除了使用它来重置位置外,我没有对 tellg 中的光标做任何事情。

最佳答案

您的代码的更简单和更高效的版本是:

#include <iostream>
#include <fstream>
#include <string>

class A
{
public:
A(std::istream& stream)
:
m_stream(stream),
m_lineNumber(0),
m_characterNumber(0)
{

}

bool OutputKnownWords()
{
while (m_stream.good())
{
if (Take("MIDDLE"))
std::cout << "Found middle" << std::endl;
else if (Take("BEGIN"))
std::cout << "Found begin" << std::endl;
else if (Take("END"))
std::cout << "Found end" << std::endl;
else if (Take(" "))
std::cout << "parsed out space" << std::endl;
else
return !m_stream.good();
}
return true;
}

protected:

bool Take(const std::string& str)
{
if (!Match(str))
return false;

m_characterNumber += str.size();

return true;
}

bool readLine()
{
std::getline(m_stream, line);
m_characterNumber = 0;
m_lineNumber++;
return !m_stream.eof();
}

bool Match(const std::string& str)
{
while (m_characterNumber >= line.size())
{
if (!readLine())
{
return false;
}
}
if (line.size() - m_characterNumber < str.size())
{
return false;
}
return line.substr(m_characterNumber, str.size()) == str;
}

std::istream& m_stream;
std::size_t m_lineNumber;
std::size_t m_characterNumber;
std::string line;
};

int main()
{
std::ifstream file("test.txt");
if (!file.is_open())
{
std::cerr << "could not open file" << std::endl;
return 0;
}

A a(file);

if (!a.OutputKnownWords())
{
std::cerr << "something went wrong" << std::endl;
return 0;
}

return 0;
}

关于c++ - 读取 UTF-8 文件并解析字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51682877/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com