code-golf - Code Golf : Quickly Build List of Keywords from Text, 包括实例数-6ren

code-golf - Code Golf : Quickly Build List of Keywords from Text, 包括实例数

转载作者：行者123 更新时间：2023-12-02 22:12:57

24

4

我已经用 PHP 为自己制定了这个解决方案，但我很好奇如何以不同的方式完成它 - 甚至更好。我主要感兴趣的两种语言是 PHP 和 Javascript，但我有兴趣了解当今任何其他主要语言(主要是 C#、Java 等)可以多快地完成此操作。

仅返回出现次数大于 X 的单词
仅返回长度大于 Y 的单词
忽略“and、is、the 等”等常见术语
在处理之前可以随意删除标点符号(即“John's”变为“John”)
以集合/数组的形式返回结果

额外积分

将引用的陈述放在一起，(即“它们显然‘好得令人难以置信’”)
其中“好得令人难以置信”是实际的陈述

额外额外积分

您的脚本能否根据单词出现在一起的频率来确定应该放在一起的单词？这是在事先不知道单词的情况下完成的。例子:
*"The fruit fly is a great thing when it comes to medical research. Much study has been done on the fruit fly in the past, and has lead to many breakthroughs. In the future, the fruit fly will continue to be studied, but our methods may change."*
显然这里的词是“果蝇”，我们很容易找到。您的 search'n'scrape 脚本也能确定这一点吗？

源文本:http://sampsonresume.com/labs/c.txt

答案格式

如果能够看到代码的结果、输出以及操作持续的时间，那就太好了。

最佳答案

GNU 脚本

sed -e 's/ /\n/g' | grep -v '^ *$' | sort | uniq -c | sort -nr

结果:

  7 be
  6 to
[...]
  1 2.
  1 -

出现次数大于 X:

sed -e 's/ /\n/g' | grep -v '^ *$' | sort | uniq -c | awk '$1>X'

仅返回长度大于 Y 的单词(在第二个 grep 中放入 Y+1 个点):

sed -e 's/ /\n/g' | grep -v '^ *$' | grep .... | sort | uniq -c

忽略常见术语，如“and、is、the 等”(假设常见术语在文件“ignored”中)

sed -e 's/ /\n/g' | grep -v '^ *$' | grep -vf ignored | sort | uniq -c

在处理之前随意删除标点符号(即“John's”变成“John”):

sed -e 's/[,.:"\']//g;s/ /\n/g' | grep -v '^ *$' | sort | uniq -c

以集合/数组形式返回结果:它已经像 shell 的数组一样:第一列是计数，第二列是单词。

关于code-golf - Code Golf : Quickly Build List of Keywords from Text, 包括实例数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1038252/

24

4

0

文章推荐： javafx-2 - FX :controller ="" in . FXML

文章推荐： modelica - 计算带有连接器的模型中的方程数量

文章推荐： security - 如何为我的 symfony2 网站实现权限角色/组系统

文章推荐： graphics - 3D图形中的近剪裁距离和远剪裁距离是什么？

django - 我可以在同一个 url 模式中包含两个不同的 url 吗？示例 [路径 ('api/' , 包括 ('quiz.urls' )), 路径 ('api/' , 包括 ('user.urls' )) ]
127.0.0.1:8000/api/仅包含来自第二个应用程序的 url，但我将两个 url 模块链接到相同的模式。甚至有可能做到这一点吗？第一个应用程序: from django.urls imp
ColdFusion 包括
我目前正在学习 ColdFusion。我有 PHP 背景，对此我有点困惑。我有一个选择菜单，我希望将选项保存在不同的文件中。 (例如 options.cfm)当我调用文件时，我想在选择菜单中包含选项
java正则表达式删除数字，包括，
字符串: "75,000", "is", "95%", "or", "95/100" "of", "monthly", "income" o/p: "is","%, "or", "/", "of",
JavaScript 包括
我有 4 个 javascript 文件(每个文件对应一个 HTML 文件)，所有 4 个文件中的 3 个函数都是相同的。我想找到一个顺利的解决方案，我可以以某种方式分别包含这 3 个函数...是否可
php - 包括/要求路径解析
我在 PHP 中有这种情况，其中 include在一台服务器上被遗漏，但在另一台服务器上没有(我没有设置服务器，所以我不能告诉你更多；我不是真正的 devops 人，所以这就是我在这里问的原因)。两台
xsd - 包括/导入具有命名空间的本地模式
这是一个模式文件，midi.xsd定义类型，note ，用于存储 MIDI 音符值: 这是另一个模式文件，octaves.xsd使用
备份多个文件夹(包括/不包括)
我想备份以下文件夹 /home /etc /usr/local /root /var /boot 并排除 /var/tmp /var/run /var/lock /home/*/.thumbnails
重新编码具有许多值的数值变量，包括 NA
如何重新编码具有许多值(包括缺失值)的数值变量，以获得数字 0:n-1哪里n是唯一值的数量，包括 NA ，整齐？例子: df 1 1000 0 2 1000 0 3 N
JQuery:选择一个元素的html，包括？
选择元素的 html(包括在内)的最佳方法是什么？例如: This is just a test. 而$('#testDiv').html()返回"This is just a test."
未处理ESI的 Varnish 包括
我正在尝试设置Varnish来处理本地环境中的ESI包含。我在虚拟机中运行 Varnish ，内容在主机上运行。我有两个文件“index.html”和“test.html”。它们都存储在apach
xml - 使用XPath表达式获取XML中的非空元素，包括
我有以下内容，并且想要检索“ FromEmail”不为空的数据 Simple email@gma
PHP "Global"包括
欧海，我正在编写一个小型 PHP 应用程序，使用一个单独的 config.php 文件和一个functions.php，其中包含我将在应用程序中使用的所有自定义函数。现在，我真的必须在每个函数中包含
javascript - 包括 JavaScript
我知道可以将 JavaScript 放在一个特定的 .js 文件中，然后通过执行以下操作将其包含在任何页面中...... 我注意到，对于包含的这些 .js 文件: 它们实际上不必以 .js 结尾其
java - 包括 & 在我的组合框中
我使用 gwt UIBinder 添加了一些项目到我的 ComboBox。 --select one-- Dispute Referral Form Dispute Settlement Clause
c - 包括.c文件c程序
我可以将一个 first.c 文件包含到另一个 second.c 中吗？ (我正在做一些套接字编程，以将服务器收到的消息存储在链接列表中，因此在第一个程序中，我尝试保留链接列表和第二个程序套接字编程文
java - 包括 NOT IN 条件下的省略记录
我有一个简单的 Spring MVC 数据项目设置，我试图选择 Admin 中尚不存在的用户列表。 table 。这是我的存储库方法 SELECT u FROM User u WHERE u.id N
bash - 删除两个定界符之间的字符串，包括
在 bash 脚本中，使用什么实用程序以及如何删除两个字符串之间的文本，包括字符串。原文: (ABC blah1)blah 2(def blah 5)blah 7)(DEF blah 8)blah
Java - 包括 BST
我有这个 BST 问题，我试图用 Java 解决，但我不知道为什么它不起作用。问题是: 二叉搜索树 (BST) 是一种二叉树，其中每个值节点大于或等于该节点的所有节点中的值左子树并且小于该树中所有节点
java替换字符串中的多个字符，包括 "\u00A2"
我有一个字符串，其中包含“Dollars”和“Cents”符号。我想删除它们。我试过了 string.replaceAll("[\"\\u00A2\" $]", "") 但它不起作用。正确的做法是什么
mysql - 按标签搜索，包括
我在 stories 和 tags 之间有一个多对多的关系，为保存关系而创建的表是 taxonomies。我想搜索所有具有所有给定标签的故事。到目前为止我使用的查询是这个，当然它对我不起作用，它返回

首页

博学

6Ren·AI

商城

code-golf - Code Golf : Quickly Build List of Keywords from Text, 包括实例数