- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我将编写一个程序,它接受一个 URL 并计算网页中每个单词、双词和三词短语(可能还有 x 词短语)的出现次数。
这是我能想到的最佳算法:
1).剥离 html 标签
2) 全部小写
3) 将文字按空格拆分,全部放入数组
4) 遍历每个单词,对于每个单词,您必须:将 word[i]、word[i+1]、word[i+2] 放入哈希表中。
每次发生碰撞时,您都会增加该词或 2-3 个字母的词组的字数。
我的问题是:
1) 谁能提供在空间和运行时方面更有效的解决方案?
2) 在 C# 中是否有任何简单的方法来完成#1?
我或许可以使用 dom 解析器并解析出所有内部文本。
最佳答案
根据您的情况,您可能过于简单化了问题和/或您最终可能会花费大量精力来实现某些库中已经存在的功能。因此,这不会是一个直接的答案,而是建议采取什么途径来解决这个问题。
您要实现的进程称为 information retrieval .它非常广泛和复杂,但幸运的是在这个领域有很多研究。一部分是提取单词 ngrams (ngram 是连续的字母或单词的集合)。
让我向您展示一些您应该提前考虑的其他问题:
以及从 HTML 中提取纯文本:
有些图书馆可以从原 Material 中搜索和提取信息。 “原始 Material ”意味着您必须处理文档(html、doc、pdf、图像...)并将其转换为文本以便搜索引擎对其进行索引(例如提取短语)。一旦文档被索引,它就可以被搜索。 .NET 的此类库之一是 Lucene.NET .它支持不同的词干分析器、分析器、过滤器。
我不确定,但我相信也有用于从 html 中提取文本的库。
基本上,您的方法可能适用于一些更简单的场景,在这些场景中,不太小的错误级别是可以接受的。我最近对信息检索产生了兴趣,发现它非常复杂和有趣。根据您的目标,您可能会从研究该主题中获益。这里有很多关于 stackoverflow 以及 Internet 其余部分的信息。
如果您决定采用这种方式,那么与 Lucene.NET 相比,关于 Lucene(原始 Lucene JAVA 版本,Lucene.NET 是 .NET 的端口)的信息要多得多。因此,如果您没有找到 Lucene.NET 的答案,请立即搜索 Lucene 讨论。
关于c# - 计算 C#/.NET 网页中出现的 1 个词、2 个词和 3 个词短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8105427/
创建使用.NET框架的asp.net页面时,访问该页面的客户端是否需要在其计算机上安装.NET框架? IE。用户访问www.fakesite.com/default.aspx,如果他们没有安装框架,他
我阅读了很多不同的博客和 StackOverflow 问题,试图找到我的问题的答案,但最后我找不到任何东西,所以我想自己问这个问题。 我正在构建一个应用程序,其中有一个长时间运行的工作线程,它执行一些
已锁定。这个问题及其答案是locked因为这个问题是题外话,但却具有历史意义。目前不接受新的答案或互动。 我一直想知道为什么微软为这样一个伟大的平台选择了一个如此奇怪的、对搜索引擎不友好的名称。他们就
.Net Framework .Net .NET Standard的区别 1、.NET Framework 在未来.NET Framework或许成为过去时,目前还是有很多地方在使用的。这一套
如果有选择的话,您会走哪条路? ASP.NET Webforms + ASP.NET AJAX 或 ASP.NET MVC + JavaScript Framework of your Choice
我有一个 Web 服务,它通过专用连接通过 https 使用第三方 Web 服务,我应用了 ServicePointManager.ServerCertificateValidationCallbac
为什么我应该选择ASP.NET Web Application (.NET Framework)而不是ASP.NET Core Web Application (.NET Framework)? 我在
我在网络上没有找到任何关于包含 .NET Standard、.NET Core 和 .NET Framework 项目的 .NET 解决方案的公认命名约定。 就我而言,我们在 .NET 框架项目中有以
.NET Compact 是 .NET 的完美子集吗? 假设我考虑了屏幕大小和其他限制并避免了 .NET Compact 不支持的类和方法,或者 .NET Compact 是一个不同且不兼容的 GUI
我已经阅读了所有我能找到的关于 connectionManagement 中的 maxconnection 设置的文章:即 http://support.microsoft.com/kb/821268
我现在正在使用asp.net mvc,想知道使用内置的Json或 Json.Net哪个是更好的选择,但我不确定一个人是否比另一个人有优势。 另外,如果我确实选择沿用Json.Net的路线,那么我应该选
在 Visual Studio 中,您至少可以创建三种不同类型的类库: 类库(.NET Framework) 类库(.NET 标准) 类库(.NET Core) 虽然第一个是我们多年来一直使用的,但我
.NET 和 ASP.NET 之间有什么区别?它们有什么关系? 最佳答案 ASP.Net 基于 .Net 框架构建,提供有关 Web 开发的附加功能。 你可以去看看wikipedia article
在安装更高版本(3.0)之前,我需要安装.net框架1.1和2.0吗?或者单独安装 3.0 框架就足够了,并为在早期框架版本上编写的软件提供支持?谢谢 ,丽然 最佳答案 不,您不必安装以前的框架。 我
我正在开发一个项目,人们可以“更新”类别,例如更改类别的名称。我收到以下消息 This is called after clicking update 按钮 with the SQL statemen
.NET 类 System.Net.CookieContainer 线程安全吗? --更新:交 key 答复-- 是否有任何方法可以确保异步请求期间修改的变量(即 HttpWebRequest.Coo
我正在使用 JScript.NET 在我编写的 C# WinForms 应用程序中编写脚本。它工作得很好,但我只是尝试在脚本中放置一些异常处理,但我无法弄清楚如何判断我的 C# 代码抛出了哪种类型的异
我需要你的帮助, 比如我有一个小数类型的变量,我想这样取整。 例如 3.0 = 3 3.1 = 4 3.2 = 4 3.3 = 4 3.4 = 4 3.5 = 4 3.6 = 4 3.7 = 4 3.
我使用过这样的代码:http://msdn.microsoft.com/en-us/library/dw70f090.aspx在 ASP.NET 中工作之前访问数据库(2-3 年前)。我没有意识到我正
自 ConfigurationManager .NET Standard 中不存在,检索正在执行的程序集的应用程序设置的最佳方法是什么,无论是 web.config或 appSettings.{env
我是一名优秀的程序员,十分优秀!