gpt4 book ai didi

c# - 文本与代码比率的良好算法?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:03:02 26 4
gpt4 key购买 nike

正在研究 TextToCodeRatio我的功能 SeoTools Excel Plugin ,我想就我的方法提供一些意见:

我正在使用 HtmlAgiltyPack 获取所有文本节点,丢弃那些具有脚本和样式标签的父节点并执行一些额外的文本操作:

    public static int CalculateTextSize(HtmlDocument doc)
{
int size = 0;
foreach (HtmlNode node in
doc.DocumentNode.SelectNodes("//text()[normalize-space(.) != '']"))
{
HtmlNode parentNode = node.ParentNode;
if (parentNode != null)
{
if (parentNode.Name.Equals("script",
StringComparison.CurrentCultureIgnoreCase)
|| parentNode.Name.Equals("style",
StringComparison.CurrentCultureIgnoreCase))
{
continue;
}
}

string text = node.InnerText.Trim();
//Just in case agility pack gets it wrong...
text = StringUtils.StripTags(text);
//Replaces "&" => "&" etc.
text = HttpUtility.HtmlDecode(text);
//All whitespace is reduced to single space, i.e.
//"Foo\r\nBar\t\ Hello" => "Foo Bar Hello"
text = StringUtils.NormalizeWhitespace(text);
size += text.Trim().Length;
}

return size;
}

你怎么看?这是一种非常严格的方法,例如aftonbladet.se 我的方法返回 23722 而 SeoChat tool返回 28671。我做错了吗?

更新:正如 Oskar Kjellin 所指出的,我计算的是字符而不是字节,而 SeoChat 计算的是字节。什么是最好的,计算字符或字节?我认为该指标不应受到页面编码方式的影响。

最佳答案

之所以不一样是因为他是算字节而你是算字符。

我会说最好是计算字节数,因为这样做的原因是要查看加载页面中有多少百分比是文本。所以你必须得到加载的总页面大小,并用它来计算。你不能为此使用字符数。

不确定搜索引擎是如何做到这一点的,但您的搜索引擎很容易被愚弄。您可以将所有内容都放在一个大的文本 div 中,然后使用 CSS 隐藏该 div。这取决于您想要做到的彻底程度。

关于c# - 文本与代码比率的良好算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7220065/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com