string - 算法分析 URL 列表和黑名单 URL 与黑名单词-6ren

string - 算法分析 URL 列表和黑名单 URL 与黑名单词

转载作者：塔克拉玛干更新时间：2023-11-03 03:52:18

25

4

假设文本文件中有一个 URL 列表(以百万为单位)，文本文件中还有另一个包含黑名单单词的列表。

我愿意对 URL 列表进行如下处理。

- Parse the URLs and store them in some DS
- Process the URLs and blacklist those URLs which contain atleast one of the 
  blacklisted words.
- If there exists a URL containing 50% or more blacklisted words, add the other 
  words of that URL in the list of blacklisted words.
- Since now the blacklisted words list has been modified then it's probable 
  that the URLs which were not blacklisted earlier can get blacklisted now. So, 
  the algorithm should handle this case as well and mark the earlier whitelisted 
  URLs as blacklisted if they contain these newly added blacklisted words.

最后我应该有一个列入白名单的 URL 列表

有什么建议可以用来实现最有效的时间和空间复杂度解决方案的最佳算法和 DS？

最佳答案

使用矩阵来存储 URL。

首先，将每个 URL 按 Porter Stemmer 拆分为单词，并将它们放入矩阵中(一行对应一个 URL，一项对应一个词)。
然后使用TFIDF对矩阵中的每个词进行评分，并删除低分词(它们将是像“a”、“the”等流行词，它们对判断垃圾邮件没有信息)。
手动初始化黑名单(放入一些常用的黑词)。
按照您给定的方式运行流程。

关于string - 算法分析 URL 列表和黑名单 URL 与黑名单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13882929/

25

4

0

文章推荐： c# - 在递归排序算法中通过引用传递数组的混淆

文章推荐： java - 在java中读/写一个大文件

文章推荐： java - 已接受 XX :UseSSE values for Java JVM?

文章推荐： algorithm - 如何创建一个已经填充了一些数字的幻方？

javascript - 如何使用正则表达式突出显示字符串中的多个关键字/词？
我有以下案例要解决。在短语中突出显示关键字的 Javascript 方法。 vm.highlightKeywords = (phrase, keywords) => { keywords =
regex - 在Dart正则表达式中匹配$(美元符号)词
我要匹配文本中的所有美元符号单词。例如，"Hello $VARONE this is $VARTWO"可以匹配$VARONE和$VARTWO。正则表达式应该是/\$(\w+)/g，但是当我在Dart
javascript - 改变状态的函数的 Redux 词
在 redux 中，对于将状态作为参数、更改状态并返回新状态的特定操作，您会在 switch 语句中调用什么函数？ function reducer(state = DEFAULT_STATE, ac
mysql - 未记录的 MySQL 词
在 MySQL 5.1 中，我将一个字段命名为“Starting”。但是，每次我使用 SQL 查询时，它都会说无效的 SQL 语法。经过一些谷歌搜索，我发现 STARTING 是一个保留的 SQL 词
python - 从列表中找到 secret 词？
我必须使用函数 isIn(secretWord,lettersGuessed) 从列表中找到密码。在下面发布我的代码。 def isWordGuessed(secretWord, lettersGue
c - C语言求两个字符串中最长的公共(public)词？
一段时间以来，我一直无法找到两个字符串中最长的常用词。首先我想到了用“isspace”函数来做这件事，但不知道如何找到一个常用词。然后我想到了“strcmp”，但到目前为止我只能比较两个字符串。我在想
python - 设置长度的python中的契约(Contract)词
我目前正在尝试制作一种“单词混合器”:对于两个给定的单词和指定的所需长度，程序应返回这两个单词的“混合”。然而，它可以是任何类型的混合:它可以是第一个单词的前半部分与第二个单词的后半部分相结合，它可以
javascript - 匹配 "After"如果它后面没有一个 -ing 词
如果 After 之后(逗号之前)没有 -ing 词，我想匹配它。所以 After 和逗号之间不应该有 -ing 词。所需的匹配项(粗体): After sitting down, he began
java - StanfordNLP 词形还原无法处理 -ing 词
我一直在试验 Stanford NLP 工具包及其词形还原功能。我很惊讶它如何使一些词词形还原。例如: depressing -> depressing depressed -> depressed
javascript - 词云中缺少 d3.js 词
js 并尝试根据 [这里] 中的示例代码来做词云:https://github.com/jasondavies/d3-cloud .我想做的是单词的字体大小是基于数组中单词的频率。例如我有 [a,a,
python - Conceptnet Numberbatch(多语言)OOV 词
我正在处理一个文本分类问题(在法语语料库上)，并且正在试验不同的词嵌入。我对 ConceptNet 提供的内容非常感兴趣，所以我决定试一试。我无法为我的特定任务找到专门的教程，所以我听取了他们的建议
search - 在 emacs 中编辑 I-search 词？
当我在文本中搜索时，我输入 C-s，然后输入单词，然后一次又一次地输入 C-s，光标前进到找到的单词的下一个位置。问题是，一旦我转到下一个单词，我无法在按钮处编辑迷你缓冲区中的搜索单词，如果我按 Ba
java - 如何在我的文件夹结构中的 Maven 中运行一个简单的 hello 词？
我正在尝试按照以下结构运行这个 maven Hello Word: ├── pom.xml └── src └── Main.java 使用pom.xml设置: 4.0.0
python - 从图像中删除 OCR 词(OpenCV，Python)
所以，从我可以开始的.. 我正在使用 OCR。该脚本非常适合我的需要。它检测单词的准确性对我来说还可以。这是结果:附加图像 100% 准确。 from PIL import Image import
ms-word - 词: Picture hidden behind text
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
java - Comparable 接口(interface)前无接口(interface)词
这是细节，但我想知道为什么会这样。示例代码: Class klasa = Enum.class; for(Type t : klasa.getGenericInterfaces()) Syst
javascript - 如何使用 JavaScript 创建 .docx 文件而不是 .doc 词
我在用: var header = ""+ "Export HTML to Word Document with JavaScript"; var footer = ""; /
bash - 在变量的字符串中找到一种模式后输出值/词(grep、awk、sed、pearl 等)
我有一个程序可以像这样将数据打印到控制台(以空格分隔): variable1 value1 variable2 value2 variable3 value3 varialbe4 value4 编辑:
bash - 在变量的字符串中找到一种模式后输出值/词(grep、awk、sed、pearl 等)
我有一个程序可以像这样将数据打印到控制台(以空格分隔): variable1 value1 variable2 value2 variable3 value3 varialbe4 value4 编辑:
ruby-on-rails - "use"Ruby/Rails/Rack 代码中的关键字/词
最近我在查看与goliath相关的一些代码时，偶然在Ruby代码中看到了这个词use。 , 中间件等。看起来它不同于include/extend, and require. 有人可以解释为什么存在这个

首页

博学

6Ren·AI

商城

string - 算法分析 URL 列表和黑名单 URL 与黑名单词