gpt4 book ai didi

c++ - 提高编译器中 std::string 的效率

转载 作者:行者123 更新时间:2023-11-28 07:20:13 24 4
gpt4 key购买 nike

我正在尝试为类似 C 的语言的编译器构建一个扫描器,并且正在寻找一种生成 token 的有效方法......我有一个扫描功能:

vector<Token> scan(string &input);

还有一个 main 函数,它读取词法正确的文件并删除注释。 (该语言不支持 /* 、 */ 注释)我正在使用具有最大 munch 的 DFA 来生成标记……而且我很确定扫描器的这一部分相当高效。然而,扫描仪不能很好地处理大文件,因为它们都以一个字符串结束......并且所有 1000 行文件与第 1001 行的连接都会破坏扫描仪。不幸的是,我的 FSM 无法处理注释,因为它们被允许包含任何 Unicode 和其他奇怪的字符。我想知道...是否有更好的方法从 stdin 中的文件转到标记 vector ,请记住函数扫描必须采用单个字符串并返回单个 vector ,并且所有标记都必须在扫描结束时的单个 vector ...无论如何,这是“扫描”的代码:请不要 mock 我的坏主意:)

string in = "";
string build;
while(true)
{
getline(cin, build);
if( cin.eof() )
break;

if(build.find ("//") != string::npos)
build = build.substr(0, build.find("//",0));

in += " " + build;
}

try {
vector<Token> wlpp = scan(in);
...
...

最佳答案

您可能需要考虑的几件事:

in += " " + build;

效率非常低,可能不希望您在该循环中出现,但这似乎不是您遇到问题的地方。 (至少,了解一下输入的大小并在此之前执行 in.reserve(size)

更好的扫描仪设计可能是将输入文件包装为 istream_iterator<Token> 的类。并实现适当的 operator>>对于 token 。如果你真的想把它放在一个 vector 中,你可以做类似 vector<Token> v(istream_iterator<Token>(cin), istream_iterator<Token>()); 的事情。并完成它。你的operator>>然后会在返回之前吞下评论并填充一个 token 。

关于c++ - 提高编译器中 std::string 的效率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19611356/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com