gpt4 book ai didi

c++ - 有没有实现流式分词器的 C++ 库?

转载 作者:太空宇宙 更新时间:2023-11-04 16:20:49 25 4
gpt4 key购买 nike

遵循这个接口(interface)的东西:

class StreamTokenizer
{
public:
StreamTokenizer(const std::string delimiter);
std::list<std::string> add_data(const std::string);
std::string get_left_over();
};
StreamTokenizer d(" ");
std::list<std::string> tokens;
tokens.append(d.add_data("tok"));
tokens.append(d.add_data("1 t"));
tokens.append(d.add_data("ok2 tok3"));
tokens.push_back(d.get_left_over());
// tokens = {tok1, tok2, tok3}
// d = {}

它以 block 的形式接收数据,它应该返回它到目前为止找到的所有标记,它应该能够将剩余的连接到下一个 block ,并且它不应该保存已经标记化的数据。

请不要建议使用 stringstream,除非你能展示如何从中删除已经标记化的数据(我的流几乎是无限的)

最佳答案

是的,它叫做“标准库”。

您要求的内容似乎在流可以轻松处理的范围内。

std::stringstream d;

d << "tok";
d << "1 t";
d << "ok2 tok3";

std::vector<std::string> tokens((std::istream_iterator<std::string>(d)),
std::istream_iterator<std::string>());

for (std::string s : tokens)
std::cout << s << "\n";

结果:

tok1
tok2
tok3

我没有在这里显示“获取其余部分”功能。我想 istream::read 可能是显而易见的选择。

我想我应该补充一点:默认情况下,字符串将在流解释为空白的任何地方被打断,而不仅仅是空格字符。您可以通过编写自定义 ctype facet 并将该 facet 注入(inject)流来更改它解释为空白的内容。例如,我在 a previous answer 中展示了如何为 -/ 执行此操作。 .

关于c++ - 有没有实现流式分词器的 C++ 库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16970417/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com