gpt4 book ai didi

html - 解析网页而不断字符串

转载 作者:行者123 更新时间:2023-11-30 20:41:53 25 4
gpt4 key购买 nike

我正在尝试从网页中解析一些字符串,但我不断收到恰好被分解的字符串,无法检查字符串是否完整。目前,我有一个 1024 字节的缓冲区,用于接收部分页面。我应该怎么做才能确保获得完整的字符串,最好没有太大的缓冲区。

最佳答案

我不太确定我理解你在做什么以及你所说的“断线”是什么意思,但我会尽力给你一个答案。

通过断字符串,我假设您指的是一段 HTML 或文本的逻辑结尾。最终,你除了解析之外别无选择,如果你没有达到某个逻辑停止点,请继续阅读。如果您使用 char[] 来保存数据,那么缓冲区肯定会遇到一些问题。根据你读入数据的方式,方法可能会改变,但过程大致是:

(有点C,技术上不准确)

int allocLen = 1024;
char buffer[] = malloc(allocLen);
readInNBytes(buffer, 128);
if (notAtLogicalEnd(buffer))
realloc(buffer, allocLen *= 2);
else
// we're done?

现在,显然这遗漏了确定字符串是否断线的细节,但这仍然悬而未决。有多种方法可以检查数据是否有效:查找空格字符、换行符等,或者检查 HTML 是否以 [/html] 标记终止。无论哪种方式,您都必须读取整个数据集。

不过,我很想知道您如何阅读 HTML 数据以及您对“断字符串”的完整解释,并且我会修改我的答案。

关于html - 解析网页而不断字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/742769/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com