c# - 计算 C#/.NET 网页中出现的 1 个词、2 个词和 3 个词短语-6ren

c# - 计算 C#/.NET 网页中出现的 1 个词、2 个词和 3 个词短语

转载作者：太空宇宙更新时间：2023-11-03 22:06:56

24

4

我将编写一个程序，它接受一个 URL 并计算网页中每个单词、双词和三词短语(可能还有 x 词短语)的出现次数。

这是我能想到的最佳算法:

1).剥离 html 标签

2) 全部小写

3) 将文字按空格拆分，全部放入数组

4) 遍历每个单词，对于每个单词，您必须:将 word[i]、word[i+1]、word[i+2] 放入哈希表中。

每次发生碰撞时，您都会增加该词或 2-3 个字母的词组的字数。

我的问题是:

1) 谁能提供在空间和运行时方面更有效的解决方案？

2) 在 C# 中是否有任何简单的方法来完成#1？
我或许可以使用 dom 解析器并解析出所有内部文本。

最佳答案

根据您的情况，您可能过于简单化了问题和/或您最终可能会花费大量精力来实现某些库中已经存在的功能。因此，这不会是一个直接的答案，而是建议采取什么途径来解决这个问题。

您要实现的进程称为 information retrieval .它非常广泛和复杂，但幸运的是在这个领域有很多研究。一部分是提取单词 ngrams (ngram 是连续的字母或单词的集合)。

让我向您展示一些您应该提前考虑的其他问题:

单词中字母的大小写重要吗？
点是你想用来标记句子结尾的唯一标志吗？
你想排除stop words吗？停用词是您不想包含在短语中的词，例如“a”、“the”、“I”、“my”等。
你想stem字？将单词从它们的原始形式转换为词根形式，例如将复数形式转换为单数形式:basketballs -> basketball

以及从 HTML 中提取纯文本:

只提取页面上显示的文本？
也提取提示？ (就像将鼠标悬停在图片上时显示的那样)
任何其他不可见的文本(元标记等)

有些图书馆可以从原 Material 中搜索和提取信息。 “原始 Material ”意味着您必须处理文档(html、doc、pdf、图像...)并将其转换为文本以便搜索引擎对其进行索引(例如提取短语)。一旦文档被索引，它就可以被搜索。 .NET 的此类库之一是 Lucene.NET .它支持不同的词干分析器、分析器、过滤器。

我不确定，但我相信也有用于从 html 中提取文本的库。

基本上，您的方法可能适用于一些更简单的场景，在这些场景中，不太小的错误级别是可以接受的。我最近对信息检索产生了兴趣，发现它非常复杂和有趣。根据您的目标，您可能会从研究该主题中获益。这里有很多关于 stackoverflow 以及 Internet 其余部分的信息。

如果您决定采用这种方式，那么与 Lucene.NET 相比，关于 Lucene(原始 Lucene JAVA 版本，Lucene.NET 是 .NET 的端口)的信息要多得多。因此，如果您没有找到 Lucene.NET 的答案，请立即搜索 Lucene 讨论。

关于c# - 计算 C#/.NET 网页中出现的 1 个词、2 个词和 3 个词短语，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8105427/

24

4

0

文章推荐： c++ - bmp to raw 奇怪的问题

文章推荐： html - div最大高度

文章推荐： c++ - 将 GpuMat 行复制到 std::vector

文章推荐： OpenCV静态链接错误

.net - asp.net 应用程序的最终用户是否需要安装 .net
创建使用.NET框架的asp.net页面时，访问该页面的客户端是否需要在其计算机上安装.NET框架？ IE。用户访问www.fakesite.com/default.aspx，如果他们没有安装框架，他
.net - 在线程之间正确共享变量 (.NET/VB.NET)
我阅读了很多不同的博客和 StackOverflow 问题，试图找到我的问题的答案，但最后我找不到任何东西，所以我想自己问这个问题。我正在构建一个应用程序，其中有一个长时间运行的工作线程，它执行一些
.net - 为什么.NET 被称为.NET？
已锁定。这个问题及其答案是locked因为这个问题是题外话，但却具有历史意义。目前不接受新的答案或互动。我一直想知道为什么微软为这样一个伟大的平台选择了一个如此奇怪的、对搜索引擎不友好的名称。他们就
.Net Framework .Net .NET Standard的概念及区别
.Net Framework .Net .NET Standard的区别 1、.NET Framework 在未来.NET Framework或许成为过去时，目前还是有很多地方在使用的。这一套
.net - ASP.NET Webforms + ASP.NET Ajax与ASP.NET MVC和Ajax框架的自由
如果有选择的话，您会走哪条路？ ASP.NET Webforms + ASP.NET AJAX 或 ASP.NET MVC + JavaScript Framework of your Choice
asp.net - .net asp.net 网络应用试图连接到 crl.verisign.net
我有一个 Web 服务，它通过专用连接通过 https 使用第三方 Web 服务，我应用了 ServicePointManager.ServerCertificateValidationCallbac
asp.net - ASP.NET Web应用程序(.NET Framework)与ASP.NET Core Web应用程序(.NET Framework)
为什么我应该选择ASP.NET Web Application (.NET Framework)而不是ASP.NET Core Web Application (.NET Framework)？我在
.NET Standard、.NET Core 和 .NET Framework 项目解决方案的 .NET 命名约定
我在网络上没有找到任何关于包含 .NET Standard、.NET Core 和 .NET Framework 项目的 .NET 解决方案的公认命名约定。就我而言，我们在 .NET 框架项目中有以
.net - .NET Compact 是 .NET 的完美子集吗？
.NET Compact 是 .NET 的完美子集吗？假设我考虑了屏幕大小和其他限制并避免了 .NET Compact 不支持的类和方法，或者 .NET Compact 是一个不同且不兼容的 GUI
.net - .NET connectionManagement 配置设置是否适用于所有 .Net 应用程序？
我已经阅读了所有我能找到的关于 connectionManagement 中的 maxconnection 设置的文章:即 http://support.microsoft.com/kb/821268
.net - Asp.net MVC json或Json.net？
我现在正在使用asp.net mvc，想知道使用内置的Json或 Json.Net哪个是更好的选择，但我不确定一个人是否比另一个人有优势。另外，如果我确实选择沿用Json.Net的路线，那么我应该选
.net - .NET Core 和 .NET 标准类库项目类型之间有什么区别？
在 Visual Studio 中，您至少可以创建三种不同类型的类库: 类库(.NET Framework) 类库(.NET 标准) 类库(.NET Core) 虽然第一个是我们多年来一直使用的，但我
.net - .NET 和 ASP.NET 有什么区别
.NET 和 ASP.NET 之间有什么区别？它们有什么关系？最佳答案 ASP.Net 基于 .Net 框架构建，提供有关 Web 开发的附加功能。你可以去看看wikipedia article
.net - 在安装新的 .net 框架之前安装以前的 .net 框架吗？
在安装更高版本(3.0)之前，我需要安装.net框架1.1和2.0吗？或者单独安装 3.0 框架就足够了，并为在早期框架版本上编写的软件提供支持？谢谢，丽然最佳答案不，您不必安装以前的框架。我
asp.net - 获取文本框的先前值asp.net vb.net
我正在开发一个项目，人们可以“更新”类别，例如更改类别的名称。我收到以下消息 This is called after clicking update 按钮 with the SQL statemen
.net - .NET System.Net.CookieContainer 线程安全吗？
.NET 类 System.Net.CookieContainer 线程安全吗？ --更新:交 key 答复-- 是否有任何方法可以确保异步请求期间修改的变量(即 HttpWebRequest.Coo
.net - JScript.NET 能否区分不同的.NET 异常类型
我正在使用 JScript.NET 在我编写的 C# WinForms 应用程序中编写脚本。它工作得很好，但我只是尝试在脚本中放置一些异常处理，但我无法弄清楚如何判断我的 C# 代码抛出了哪种类型的异
.net - ASP.NET VB - .NET 的一些数学运算
我需要你的帮助，比如我有一个小数类型的变量，我想这样取整。例如 3.0 = 3 3.1 = 4 3.2 = 4 3.3 = 4 3.4 = 4 3.5 = 4 3.6 = 4 3.7 = 4 3.
.net - ADO.NET 是在 .net 中访问数据库的唯一本地方式吗？
我使用过这样的代码:http://msdn.microsoft.com/en-us/library/dw70f090.aspx在 ASP.NET 中工作之前访问数据库(2-3 年前)。我没有意识到我正
asp.net - 如何在 .NET Framework、.NET Standard 和 .NET Core 项目之间使用相同的配置？
自 ConfigurationManager .NET Standard 中不存在，检索正在执行的程序集的应用程序设置的最佳方法是什么，无论是 web.config或 appSettings.{env

首页

博学

6Ren·AI

商城

c# - 计算 C#/.NET 网页中出现的 1 个词、2 个词和 3 个词短语