gpt4 book ai didi

c++ - 如何在 C++ 正则表达式中捕获 0-2 组并打印它们?

转载 作者:可可西里 更新时间:2023-11-01 17:59:42 33 4
gpt4 key购买 nike

编辑3

当我受困于正则表达式时,我采用了 good'ol 自定义解析方法。结果并没有那么糟糕,因为文件内容可以非常整齐地标记化,并且可以使用非常简单的状态机在循环中解析标记。那些想要检查的人,在我在 Stackoverflow 中的另一个问题 here 中,有一段代码使用 range-for、ifstream 迭代器和自定义流标记器执行此操作.这些技术大大降低了执行自定义解析器的复杂性。

我想在第一部分中将文件内容标记为两个一组,然后逐行标记。我有一个半功能解决方案,但我想学习如何让它变得更好。也就是说,没有“额外处理”来弥补我对捕获组的了解不足。接下来是一些预备知识,最后是一个更精确的问题(行

const std::regex expression("([^:]+?)(^:|$)");

...是我想结合处理结果询问的问题)。

基本定义如下的文件:

definition_literal : value_literal
definition_literal : value_literal
definition_literal : value_literal
definition_literal : value_literal
HOW TO INTERPRET THE FOLLOWING SECTION OF ROWS
[DATA ROW 1]
[DATA ROW 2]
...
[DATA ROW n]

其中每个数据行都由一定数量的整数或 float 组成,由空格分隔。每行的数字与其他行一样多(例如,每行可以有四个整数)。所以,“解释部分”基本上是在一行中以纯文本的形式讲述这种格式。

我有一个几乎可以工作的解决方案,可以像这样读取此类文件:

int main() 
{
std::ifstream file("xyz", std::ios_base::in);
if(file.good())
{
std::stringstream file_memory_buffer;
file_memory_buffer << file.rdbuf();
std::string str = file_memory_buffer.str();
file.close();

const std::regex expression("([^:]+?)(^:|$)");
std::smatch result;

const std::sregex_token_iterator end;
for(std::sregex_token_iterator i(str.begin(), str.end(), expression); i != end; ++i)
{
std::cout << (*i) << std::endl;
}
}

return EXIT_SUCCESS;
}

定义了正则表达式 expression , 它现在打印 <value>定义文件的部分,然后是解释部分,然后是数据行。如果我将正则表达式更改为

"([^:]+?)(:|$)"

...它打印所有行标记为一组,几乎就像我想的那样,但是如何标记第一部分为两个一组,其余部分逐行标记?

任何指针、代码、解释都非常受欢迎。谢谢。

编辑:

正如 Tom Kerr 已经指出的那样,但还有一些额外的要点,这也是一次排练,或者如果你愿意的话,也可以说是编码套路,而不是编写自定义解析器,而是看看我是否可以 - - 或者我们可以 :-) - 使用正则表达式完成此操作。我知道正则表达式在这里不是最有效的做法,但这并不重要。

我希望得到的是类似于标题信息元组列表(大小为 2 的元组),然后是 INTERPRET 行(大小为 1 的元组),我可以用它来选择一个函数来做什么与数据行(大小为 1 的元组)。

是的,“HOW TO INTERPRET”行包含在一组定义明确的字符串中,我可以从头开始逐行阅读,一路拆分字符串,直到遇到其中一个 INTERPRET 行。这个 regex 解决方案不是最有效的方法,我知道,但更像是编码 kata 让我自己写一些不同于客户解析器的东西(而且我上次用 C++ 编写已经有一段时间了,所以这也是在排练).

编辑 2

我已经设法通过更改迭代器类型来访问元组(在这个问题的上下文中),就像这样

const std::sregex_iterator end;     
for(std::sregex_iterator i(str.begin(), str.end(), expression); i != end; ++i)
{
std::cout << "0: " << (*i)[0] << std::endl;
std::cout << "1: " << (*i)[1] << std::endl;
std::cout << "2: " << (*i)[2] << std::endl;
std::cout << "***" << std::endl;
}

虽然这离我想要的还差得很远,但我尝试使用的正则表达式有问题。无论如何,这个新发现(另一种迭代器)也有帮助。

最佳答案

我相信你正在尝试的是这样的:

TEST(re) {
static const boost::regex re("^([^:]+) : ([^:]+)$");

std::string str = "a : b";
CHECK(boost::regex_match(str, re));
CHECK(!boost::regex_match("a:a : bbb", re));
CHECK(!boost::regex_match("aaa : b:b", re));

boost::smatch what;
CHECK(boost::regex_match(str, what, re, boost::match_extra));
CHECK_EQUAL(3, what.size());
CHECK_EQUAL(str, what[0]);
CHECK_EQUAL("a", what[1]);
CHECK_EQUAL("b", what[2]);
}

不过,我不确定在这种情况下我会推荐正则表达式。我认为您会发现一次只读一行,在 : 上拆分,然后修剪空格更易于管理。

我想如果你不能把下面这行作为哨兵,那会更难。通常我希望从该行可以明显看出这样的格式,而不是标题每一行的格式。

HOW TO INTERPRET THE FOLLOWING SECTION OF ROWS

关于c++ - 如何在 C++ 正则表达式中捕获 0-2 组并打印它们?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11269678/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com