- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我目前正在运行一个 python 代码,该代码遍历文本文件的每一行并解析该行的日期。如果它确实在该行中找到了日期,则将该行复制到一个新的输出文件中。我在 100 个文档上重复这个过程,最后,我得到一个输出文件,其中包含日期为“2013 年、2014 年 8 月、01-11-1987 等等”的行。
问题在于,它没有提供与某些日期相关的事件的准确信息。
有没有更优雅的方法来解决这个问题?下面是我试图提取 2010 年 12 月日期的事件的文件
Taipei is the most competitive place among all major cities andcounties, according to a study published by a local magazineyesterday. Taipei came in first in each of the categories - economy,employment, education, environmental protection, public safety,medical care and local finances - evaluated in the study by GlobalView Magazine. In terms of overall competitiveness, Taipei istherefore number one, followed by Hsinchu City, Chiayi City and NewTaipei. Taipei, with more than six decades of privileged developmentheavily funded by the central government, will remain unchallenged inthe foreseeable future, Global View commented. Taipei and New Taipeiare two of the country's five Cabinet-level special municipalities,but the other three - Taichung, Tainan and Kaohsiung - failed toreceive good ratings in the study though they have more resources thanmost other local governments. Taichung ranks seventh, Tainan 12th andKaohsiung 15th of all 19 local governments graded in the study. Thethree special municipalities grew to the present size by mergingneighboring counties in December 2010. But Global View said themergers crippled their competitiveness. But all five specialmunicipalities are in the top-10 in terms of economic competitiveness.At the bottom is the agricultural Pingtung County. But anotheragricultural county, Taitung, made it to the top-10, occupying theeighth place mainly because of its low crime rate, the magazine said.
如您所见,当我解析包含 2010 年 12 月的行时,我并没有真正获得任何有意义的信息但实际上,有一件大事就是邻县合并。这没有被捕获。因此,我需要知道是否有任何算法/库可以帮助我捕获在特定日期发生的事件。
最佳答案
我建议您试用 Python 的 NLTK 库。你可以在这里得到它,这里还有一些基本手册: http://www.nltk.org/book/ch07.html
它有大量用于从文本中提取含义的算法。它还具有一些模块,允许您:
1) 提取实体2)提取日期3) 建立抽取实体与日期的关系。
建议关注NLTK库中的timex.py模块: https://github.com/nltk/nltk_contrib/blob/master/nltk_contrib/timex.py
它主要用于标记文本中的日期和时间。
这是提取实体关系的指南: http://www.nltk.org/howto/relextract.html
所以我相信您可以从您的文本中提取有趣的实体(比如您提到的事件),您可以提取日期作为另一组实体,并且使用 NLTK 可以在这些提取的实体之间建立关系。因此,您应该得到所需的东西 - 什么时候发生的事情。
关于python - 从文本语料库中提取日期和与日期相关的事件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28437945/
第一段代码工作正常,并给出了我需要的结果。我现在想做的是让它在 'as num' 上返回 3 个数字值对于“as num”上的 3 个不同值,对于同一列上的 3 个不同位置 SELEC
我想分析一些数据以编写定价算法。以下日期可用: 我需要三个变量/维度的函数/相关因子,它显示三个维度(pers_capacity、卧室数量、浴室数量)增长时中位数(价格)的变化。例如Y(#pers_c
正如标题所说 - 我的 Sprite Kit 游戏时不时地在后台崩溃,总是出现此错误 - Exception Type: EXC_BAD_ACCESS (SIGSEGV) Exception Sub
假设我尝试保存以下数据,并且Songs模型的name属性上设置了Phalcon \ Mvc \ Model \ Validator \ PresenceOf验证器 // Get an existing
我有一个 if 控件,如下所示; if (Directory.Exists(System.IO.Path.Combine(systemPath, "Reports", companyName))
有人可以告诉我我们使用 ReadLine() 从文件 (.txt) 中读取特定行吗?现在我想读取文件的全部内容(不仅仅是第一行)。为此我需要使用什么方法。我用谷歌搜索了很多,但找不到解决方案。 我的代
我相信在大学时我用从 C 派生的语言为 FPGA 编写了一个程序。我了解 VHDL 和 verilog 等语言。但是,我不明白的是程序员在使用哪个方面有多少选择?它依赖于FPGA吗?我将使用 Xili
我有一个 if 控件,如下所示; if (Directory.Exists(System.IO.Path.Combine(systemPath, "Reports", companyName))
如何在运行时更改 Dashcode (Javascript) 中图像对象的源? 我试过: var image = document.getElementById("image").object;ima
我有几个相互关联的类,它们将被多种不同的算法使用 例子: struct B; struct A { B* parent; }; struct B { std::vector child
我正在开发一个网站,用户在客户收到的表中输入金额,如果任何客户没有提供分期付款(金额),则用户不会在表中输入任何金额,并且用户希望获取违约者的信息客户以10天为基础。所以我的问题是应该定义什么表和属性
我试图从上一个条目中选择一个值,并每次将该数字加一。我让它工作到选择当前条目值(默认 1000)并递增 1 并重新插入该值(因此每次最终都是 1001)。我需要它来选择该字段的最后一个条目,这样它将变
我不擅长“制作”查询。假设这是我的数据库: artist pics ------------------- -
最近,我要为我的网站做一个即时通知系统。我听说 COMET 在这种情况下必不可少。 我已经搜索 PHP 和 Comet 一段时间了,但是,我发现的指南和文章似乎只是循环中的 ajax 请求。例如,有一
我正在开发一款 iOS 游戏,我希望 clown 在场景外生成,然后向下移动。我的想法是全部创建它们,并将它们以 360 像素的距离放置在不可见的场景中。 像这样: SKSpriteNode *clo
我有以下子订单表。 mysql> select * from suborder; +-------------+------------------+ | order_state | bookin
这可能是一个有点初学者的问题,但考虑到在 Java 中调试编码是相当相关的:什么时候编码与 String 对象相关? 假设我有一个要保存到文件中的字符串对象。 String 对象本身是否使用某种我应该
首先我想说我是 CPP 的新手(我从 cpp11 开始):)考虑以下实体:学生(名字+姓氏)和组(描述+更多学生)。我在 C++ 中创建了以下 2 个类: class Student { privat
我正在尝试在单击该复选框时同步更新我的数据库。我决定使用 aJax,但它似乎无法识别 ajax。 代码:将成为 Switch_Active(this.id) 函数的元素 ... Deactivat
我正在创建一个菜单。菜单如下。 $('.category').mouseover(function() { $(this).removeClass('category').addClass('cate
我是一名优秀的程序员,十分优秀!