- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
对于我和另一个人正在进行的企业应用程序研究项目,我们希望从页面中删除某些内容,以保持发布的消息的通用性(这意味着不是冒犯性的,本质上是匿名的)。现在,我们希望接收用户发布到留言板上的消息,并删除任何类型的名称、学院或机构的名称以及亵渎(如果以后可能,我们希望删除企业名称)。
有没有可以连接到的数据库,我们可以用它运行清理消息,以检查数据库中的值,以便识别这些值?
最佳答案
这个问题似乎意味着一个在线数据库,它将在处理消息时被查询。业务问题(此类服务的可靠性、响应时间的滞后等)以及完整性问题(需要查询多个数据库,因为没有一个数据库将覆盖项目需求的100%),使得这种在线/实时方法不切实际。不过,有许多数据库可供下载,这将使您能够建立自己的本地数据库的“热词”。
一个好的开始可以是WordNet,如果您可能会使用所有的“实例”单词作为通常需要从消息中删除的单词,因为您要匿名/清除它们。(也许您还需要将“non-instance”单词保存在一个单独的表/单词列表中“更有可能是ok的”)。仅此列表就可以很好地支持应用程序的“0.9”版本。
最后,你将要扩展这个词汇数据库的“坏话”,例如,包括所有大学的缩写词(CMU,UCSD,DU,MIT,UNC等),运动队的名字(凯尔特人,棕熊,棕熊,红袜……),根据你的消息的域,另外的名字的公众人物(Wordnet有几个,比如乔治·布什或罗伯特·德尼罗,但它缺少不太出名的人或最近成名的人:如巴拉克·奥巴马)
为了补充wordnet,我们想到了两种不同的来源:
传统联机数据库
本体论与民俗学
前者的例子是美国邮政总局的“城市/州邮政编码”。后者的例子是由学者、组织或各种个人编制的各种“清单”。无法提供这两种源类型的详尽列表,但以下内容应有所帮助:
DAML.ORG本体目录
US Regions and States本体daml格式示例
Open Directory project开源目录(注意,很快就会变得混乱)
SourceWatch.org例如“列表:新闻/政治界人士”
seach引擎关键词:“列表列表”,或者也可以使用三个或四个你希望在列表中找到的单词。
在更简单的情况下,人们只需下载列表等,或者也可以“剪切粘贴”。本体将被“附加”,需要额外的属性来解析(在将来你可能实际上需要这些属性,并以更传统的方式使用本体,现在,抓住词汇实体是所有需要的)。
这个词汇数据库编译任务可能令人畏惧。但是80-20规则规定,20%的“热词”将占到消息中引用的80%,因此,只要付出相对较小的努力,您就应该能够生成一个覆盖90%以上用例的系统。
展望未来:超越“热门词汇”数据库
使用自然语言处理(NLP)中的各种技术和概念,有很多方法可以完成这项任务。随着您的项目越来越复杂,您可能希望了解其中的一些概念,并可能实现它们。例如,一个简单的pos标记出现在脑海中,因为它可能有助于(部分地)在你的应用程序丢弃冒犯性的单词时区分标记“screw”的各种用法。(“董事会希望拧学生”与“董事会应每码至少用4个螺钉固定”。
甚至在需要这些正式的nlp技术之前,您可以使用一些基于模式的规则来处理与域相关联的常见情况(相对于项目目标的消息类型)。例如,您可以考虑以下几点:
-(文字)国立大学
-参议员(单词以大写字母开头)
-混合字母和数字的单词(这些单词通常用于拼写错误的名称并避开项目希望实现的筛选器类型)
另一个可能有用的工具,特别是在开始时,将是一个收集关于消息语料库的统计信息的系统:单词频率、最常用的单词、最常用的双字(两个连续的单词)等。
关于database - 搜索实体名称数据库(学院,城市,个性,国家...),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1535402/
这个问题在这里已经有了答案: Where am I? - Get country (10 个答案) How can I get my Android device country code with
有办法检查吗?我有一个应用程序 URL,除非用户有英国应用商店,否则我不想打开该 URL。不幸的是,这个应用程序在许多国家/地区都可用,因此当我在链接上添加“gb”时,它会被重定向到用户的本地区域。
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足 Stack Overflow guidelines 。目前不接受答案。 我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题,以
获取设备当前区域的最佳方法是什么?假设用户在德国并使用意大利语作为设备语言。如果我使用 Locale.getDefault(),那么国家和语言就会相互映射,即语言是it,国家是IT。我想要的是它和DE
有人可以给我一个示例或教程,其中显示国家及其代码的下拉列表我的代码显示错误的新西兰语言代码,它显示 mi-NZ 而不是 en-NZ ASP.NET protected void Page_Load(o
我是 Ajax 和 PHP 的新手,遇到动态下拉国家和州的问题。 虽然我已经检查了 stackOverflow 中的所有答案,但我无法清楚地了解我们应该如何成功地编写代码以获得所需的结果。 count
我一直在开发一个注册表单应用程序,其中使用了几个微调器小部件。微调器用于选择国家、州和城市。因此,这些微调器需要以某种方式相互连接(下面的代码将展示我如何尝试实现这一点)。 表单代码: fragmen
如果你去http://profile.microsoft.com并编辑您的个人信息,您将选择您的国家。选择国家/地区后,城市和/或州信息会根据该国家/地区的预期变化。有没有人有任何关于如何实现这一目标
我有一个带有经纬度坐标的 data.frame: df<-data.frame( lat=c(40, 30, 40.864), lon=c(0, 20, 1.274) )
我正在尝试在将与 django-allauth 一起使用的注册表中添加 django-countries。按照说明 https://github.com/SmileyChris/django-coun
嗨,我想为国家和州实现下拉列表。州下拉列表应根据所选国家/地区更改其值。 是否有任何插件或 gem 可以在 Rails 中执行此操作。 最佳答案 试试卡门插件: http://autonomousma
我的服务器上安装了基于PHP的Youtube克隆系统。 几个国家使用相同的系统。假设我有3个域都指向同一系统: www.site.hr www.site.ba www.site.rs 他们都重定向到一
在我的 Azure DNS 和域提供商中设置后,我想使用我的国家/地区域名 mydomain.id,但我仍然无法在应用服务中验证我的域。我已经仔细检查了所有内容,我认为我的设置已经正确。现在我想知道我
最近,我们开始遇到向网络应用程序的用户呈现过时的国家/地区列表的问题。 我们目前有一些数据库表来存储本地化的国家/地区名称及其地区(州)。然而,随着地球的发展,该列表在不断演变,并且事实证明维护起来很
This is the third iteration of this question as errors have been solved (在一些人的感激帮助下)。为了避免对到底发生了什么感到困
全部, 我们的应用程序需要有关 ISO 国家和货币的数据(其中数据必须是最新的)。我们确实从 ISO 自己购买了国家/货币数据,但是我们仍然需要对数据执行大量手动操作,以及编写我们自己的工具来读取数据
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。 我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题,以便
我想使用 PHP 和 jQuery 执行以下操作 https://www.careerbuilder.com/share/register.aspx?sc_cmp1=JS_LoginASPX_RegN
假设我们有一个包含所有国家/地区代码的代码列表。国家代码是 Countries 表的主键,它在数据库中的许多地方用作外键。在我的应用程序中,国家通常显示为多个表单的下拉列表。 一些过去曾经存在的国家不
我想根据语言环境获取当前日期/时间。如果我传递 locale 对象,我需要获取国家/地区的相关日期/时间。 最佳答案 从 Java 8 开始,您有 LocalDateTime 和 ZonedDateT
我是一名优秀的程序员,十分优秀!