- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我发现自己必须一直学习新事物。我一直在想办法加快学习新学科的过程。我认为如果我可以编写一个程序来解析维基百科文章并删除除最有值(value)的信息之外的所有内容,那可能会很好。
我首先阅读了 PDFs 上的 Wikipedia 文章并提取前 100 个句子。我根据我认为它的值(value)给每个句子打分。我最终创建了一个以下格式的文件:
<sentence>
<value>
<sentence>
<value>
etc.
然后我解析了这个文件并试图找到各种函数,这些函数将每个句子与我给它的值相关联。我刚刚开始学习机器学习和统计等等,所以我在这里做了很多摸索。这是我最近的尝试:https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py .
我尝试了一堆似乎根本没有产生任何相关性的东西——平均字长、文章中的位置等。几乎唯一能产生任何有用关系的东西就是长度的字符串(更具体地说,计算小写字母 'e' 的数量似乎效果最好)。但这似乎有点蹩脚,因为很明显更长的句子更有可能包含有用的信息。
在某一时刻,我以为我找到了一些有趣的函数,但是当我尝试删除异常值(仅计算内部四分位数)时,结果发现它们产生的结果更差,然后只为每个句子返回 0。这让我想知道我可能做错了多少其他事情......我也想知道这是否是解决这个问题的好方法。
你认为我在正确的轨道上吗?或者这只是一个傻瓜的差事?链接代码中是否存在明显的缺陷?有谁知道解决总结维基百科文章问题的更好方法?我宁愿有一个快速而肮脏的解决方案,而不是需要很长时间才能完成的完美解决方案。也欢迎任何一般性建议。
最佳答案
考虑到您的问题更多地涉及研究事件而不是编程问题,您可能应该查看科学文献。在这里,您将找到许多算法的已发布详细信息,这些算法完全符合您的要求。谷歌搜索“关键字摘要”发现以下内容:
Single document Summarization based on Clustering Coefficient and Transitivity Analysis
Multi-document Summarization for Query Answering E-learning System
Intelligent Email: Aiding Users with AI
如果您阅读以上内容,然后按照其中包含的引用资料进行操作,您会发现大量信息。当然足以构建一个功能性应用程序。
关于python - 总结维基百科文章,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8691537/
好吧,我看过一些帖子提到其他一些关于不使用 SP wiki 的帖子,因为它们很糟糕。 既然我们正在考虑在 SP 中创建 wiki,我需要知道为什么我们不应该让 6 名自动化开发人员来记录各种自动化流程
在 GitLab Wiki 部分,可以查看保存更改的历史记录。但是,当您单击提交链接时,它将显示该保存中存在的整个文件。有谁知道一种方法来区分提交以仅获取两个提交之间的差异? 这类似于它在 merge
我使用了 Wiki API 文档中的一些示例代码,但是当我输入搜索项时,没有任何反应。控制台中没有错误,什么也没有。如果我将 URL 输入到浏览器中,URL 本身就会起作用,所以我认为代码中的某些内容
我想在我的 wiki 中创建一个层次结构,如下所示: General FooPages Foo1 Foo2 Foo3 ODP Bar Baz 我想创建这些页
我正在尝试使用为 Python 制作的 Wikimapia 的 pymapia API,但无法理解如何正确使用它。 import pymapia as PyMapia a = PyMapia.PyMa
我正在开发适用于 iOS 的客户端应用程序,用于在 Mac OS X 服务器(Snow Leopard 和 Lion)上编辑内置的 Wiki/Blog。 看来我们可以使用 MetaWeblog 、At
我正在编写一些 URL 重写软件,我想从多个角度了解哪种 URL 方案更可取: 博客风格:my-chemistry-answer -- 为什么? -- (不可取,技术性) Wiki 风格:My_Che
我一直试图找到一种方法来在 Azure DevOps Wiki 中创建子页面的目录。我从其他 wiki 服务中找到了方法。 在 Confluence 中,他们有一个用于“ child 显示”的宏 我为
我是一名优秀的程序员,十分优秀!