- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我想尝试将我的应用程序中传入的文档描述为“写得好”或“写得不好”。我意识到这不是一件容易的事,但即使是一个粗略的想法也会很有用。我觉得这样做的方法是通过具有两个类的朴素贝叶斯分类器,但我愿意接受建议。所以两个问题:
此方法是执行此操作的最佳(考虑到简单性)方法吗假设训练数据库足够大?
ruby 中有库吗 (或任何可集成的 JRuby 或 无论如何)我可以插入我的 Rails 应用程序可以毫不费力地实现这一目标?
谢谢!
最佳答案
您可以尝试使用词汇向量分析。在这里介绍了一些:
http://en.wikipedia.org/wiki/Semantic_similarity
基本上,您会建立一个您认为“写得好”或“写得不好”的文本语料库,并计算某些单词的出现频率。为每个向量创建一个归一化向量,然后计算它们与每个传入文档的向量之间的距离。我不是统计学家,但有人告诉我它类似于贝叶斯过滤,但似乎可以更好地处理拼写错误和异常值。
无论如何,这并不完美。根据您需要的准确度,您可能仍需要人工来做出最终判断。但我们很幸运地使用它作为预过滤器来减少审阅者的数量。
关于ruby-on-rails - NLP 和 Ruby 来表征写作质量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4995381/
我正在尝试使用 http://fsprojects.github.io/ExcelProvider/ 中的 ExcelProvider .我不确定我是否遗漏了什么,但有什么方法可以实际编写 Excel
我正在用 C 编写程序,我想我在内存方面遇到了一些麻烦。 所以我的问题是:我有 2 个返回结构的函数。当我一次只运行一个函数时,我没有任何问题。但是当我一个接一个地运行时,我在写入第二个结构时总是会出
我正在使用以下代码通过 scrapey 抓取数据: from scrapy.selector import Selector from scrapy.spider import Spider clas
我偶然发现了文件处理问题, 第二行无缘无故为您提供9的值, 第三行给出错误io.UnsupportedOperation:不可读 c = open("Test.txt", "w+") c.write(
我正在向 CSV 文件写入一个函数(正在运行),但是它在最后一行中被中途切断。我知道这可能与文件的关闭有关,但我认为我做得正确。 有什么可能出错的地方吗? from itertools import
作为新用户,我设法制作了一个蜘蛛可以爬行的电子商务网站并提取每个产品的标题和变体以及输出的 CSV 文件和产品线,但我希望的是这是逐行的变化,请有人帮助我推进我的项目。 我很期待这个问题,但不幸的是我
我只是一个在业余时间编写 iOS 和 Andorid 应用程序的人。我有一些 Android 应用程序,我认为它们很适合进行更新,使它们能够在 Honeycomb 上本地运行。 但是,由于我没有 Ho
嘿,所以我并没有真正弄乱它太多,但我想知道是否真的有一种方法(在我陷入无休止的兔子洞之前)在 Dart/Flutter 中读取和写入 CSV 文件?我需要写入文件,不一定要读取它们,而且我愿意为此付出
当谈到 OCaml 时,我是一个完整的新手。我最近才开始使用该语言(大约 2 周前),但不幸的是,我的任务是为一种组合语言制作一个语法分析器(解析器 + 词法分析器,其功能是接受或不接受句子)使用门希
你能给我一些很好的引用资料吗,我可以如何通过 .net 资源读写注册表? 我查看了网站,找不到任何有用的信息。 最佳答案 检查 BCL 中的 Registry 类 http://msdn.micros
我正在开发一个可以生成大量数据并将其存储到磁盘的系统。该公司之前开发的一个系统使用普通文件来存储其数据,但由于多种原因,它变得非常难以管理。 我相信 NoSQL 数据库对我们来说是很好的解决方案。我们
如主题标题。当我写:void fun(int *tab){} 和写 void fun(int tab[]){} 一样吗? 最佳答案 是的。 void fun(int *tab){} void fun(
想不通此函数(用于将互联网站点抓取为 pdf 的类的一部分)应该合并使用 pypdf 从网页生成的 pdf 文件。 这是方法代码: def mergePdf(self,mainname,inputli
我是一名优秀的程序员,十分优秀!