- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我一直在尝试各种方法,但无论我做什么,我都会得到空白输出。这是我尝试导入和解析的文件中内容的简短版本:
<PRESOL>
<DATE>0310
<AGENCY>Defense Logistics Agency
<DESC>*(this is full of HTML tags and the such)*
<URL>https://www.fbo.gov/spg/DLA/J3/DSCR-BSM/SPE4A713R0575/listing.html
<SETASIDE>N/A
</PRESOL>
我想创建一个表,其中每个日期、机构、描述、URL 和 SETASIDE 有一列,因为“PRESOL”标签之间有数百个这样的条目。每个标签数据后面还有回车,当我将其拉入 python 时,它会显示为“\n”。这是我到目前为止尝试过的正则表达式(s 是我读入文件并 re 已导入的变量):
testall = re.findall(r'<PRESOL>\n<DATE>(.*?)\n<AGENCY>(.*?)\n<DESC>(.*?)\n<URL>(.*?)\n<SETASIDE>(.*?)\n</PRESOL>', s)
我尝试了不使用“\n”以及使用 (.+?) 而不是 (.*?) 的操作。
如果您需要更多信息来帮助我,请告诉我,我们将不胜感激。我的最终目标是能够轻松地从 ftp://ftp.fbo.gov/FBOFeed20130311 导入数据(似乎有多种表类型,但我目前专注于 PRESOL,只是为了让这个概念证明落地。
最佳答案
花了一些时间,为 FBO 数据构建了一个解析器函数。怀疑您是否仍然需要它,但这也许会对其他人有所帮助。
def fbo_parser(fbo):
split_fbo = fbo.split('<PRESOL>')
n_ops = len(split_fbo)
all_ops_dict = {}
for i in range(1, n_ops):
strings = fbo.split('<PRESOL>')[i].replace('</PRESOL>', '')
strings = strings.split('<')
lists = [x.split('>') for x in strings]
opp_dict = {}
desc_count = 0
desc = ['OpDesc', 'URL_Desc', 'EMAIL_Desc']
for ii in lists:
if len(ii) == 2:
if ii[0] == 'DESC':
#TODO: Figure out a better name for the duplicate DESC
ii[0] = ii[0] + str(desc_count)
desc_count += 1
opp_dict[ii[0]] = ''.join([x for x in filter(None, ii[1].split('\\n'))])
all_ops_dict[i] = opp_dict
return all_ops_dict
f = open('FBOFeed19991231', 'rb')
fbo = str(f.read())
fbop = fbo_parser(fbo)
fbop[68]
RETURNS:>>
{'ADDRESS': 'Christel.Wittmer@ramstein.af.mil',
'AGENCY': 'Department of the Air Force',
'CLASSCOD': '32',
'CONTACT': 'Christel Wittmer, Ms., Phone (49) 631 3539 174, Fax (49) 631 3539 158, Email Christel.Wittmer@ramstein.af.mil - Ursula Nabinger, Ms., Phone (49) 631 3539 178, Fax (49) 631 3539 158, Email Ursula.Nabinger@ramstein.af.mil',
'DATE': '0720',
'DESC0': 'WORKBENCH FOR VEHICLE MAINTENANCE,2 METER LONG, TOP IS METAL COVERWERKBANK, 2 METER LANG, SCHICHSTOFF OEL AND FEUCHTIGKEITSBESTAENDIG (22EA/STCK)WORKBENCH FOR VEHICLE MAINTENANCE, 2 METER LONG TOP CONSISTS 40 MM TICK WOODWERKBANK, 2 METER LANG ARBEITSPLATTE HOLZ MEHRSCHICHTVERLEIMTESBUECHENHOLZ (22EA/STCK)FOR MORE INFO CALL MRS WITTMER 0631-3539-174!',
'DESC1': 'Link to FedBizOpps document.',
'DESC2': 'Christel Wittmer',
'EMAIL': '',
'LINK': '',
'LOCATION': '700 CONS',
'OFFADD': 'United States Air Force, United States Air Force Europe, Rhine Ordnance Barracks, USAFE CONS, UNIT 3115, Germany, . 09094-3115',
'OFFICE': 'United States Air Force Europe',
'RESPDATE': '073099',
'SOLNBR': 'F61521-99T0607',
'SUBJECT': 'WORKBENCH FOR VEHICLE MAINTENANCE',
'URL': 'http://www.fbo.gov/spg/USAF/USAFE/ROB/F61521-99T0607/listing.html',
'YEAR': '99',
'ZIP': '09021'}
关于python - 使用 RegEx 从伪标签之间提取数据(不能使用 BeautifulSoup),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15423142/
我是 javascript 的新手(今天开始弄乱它)。 我正在尝试更改名为“bar”的元素(div)的高度。条形图将成为图表的一部分。 我可以毫无问题地将按钮连接到更改栏高度的函数。一切正常,除了条形
错误 -> “UIVIew”没有名为“addSubView”的成员 override func viewDidLoad() { super.viewDidLoad() // Do an
我在命令行工具项目中复制并粘贴了 main.swift 下面链接中的代码。 How do you use CGEventTapCreate in Swift? 它构建没有错误,但是当我运行时, gua
我在尝试编译我的代码时遇到以下错误。 ERROR! ..\myCode\CPOI.cpp:68:41: error: cannot dynamic_cast 'screenType' (of type
我正在尝试将多个字符串连接到一个我已为其分配内存的字符串指针。这是一个例子: char *finalNumString = malloc(sizeof(char)*1024); finalNumStr
我在使用 dup2() 和 pipe() 时遇到问题。 当我尝试将管道的写入端 dup2 到 STDOUT_FILENO 时,我收到了 EBADF。 我用 gdb 在 dup2(pout[1], ST
首先,我应该说我运行的是 Windows 7。 因此,今天早上我尝试像往常一样从我的存储库中提取数据,但我做不到。我得到了错误: The authenticity of host 'github.co
刚开始在虚拟环境中运行Python,乱用Django,无法激活虚拟环境。 花了最后 4 个小时尝试在本地终端/VS 代码上激活虚拟环境 (venv),但没有成功。 避免使用“sudo pip inst
Tidyverse 的粉丝经常给出使用小标题而不是数据框的几个优点。它们中的大多数似乎旨在保护用户免于犯错误。例如,与数据框不同,小标题: 不需要 ,drop=FALSE不从数据中删除维度的论据。 不
我一直在对 Elm 应用程序进行 docker 化时遇到问题。据我所知,我已经创建了一个完整且有效的 Docker 文件……但它不起作用。 我会解释的。 所以我的脚本在 3 个文件中运行。 首先是启动
我可以在 Controller 中使用@Autowired,例如 @RestController public class Index { @Autowired HttpServlet
我定义了一个方法和一个函数: def print(str:String) = println val intToString = (n:Int) => n.toString 现在我想创作它们。 我的问
当我控制台单独记录变量“pokemons”时,它确实返回一个数组。但是当我尝试映射它时,出现错误: TypeError: pokemons.map is not a function 我的代码: im
每当我尝试在 Python 解释器中导入 smtplib 时,都会收到此错误: ImportError: cannot import name fix_eols 我该如何解决这个问题? 编辑:这是完整
我正在使用 Meteor.js 开发一个项目,但在使用 Handlebar 时遇到了一些问题:我想检索集合的最后一项,并显示字段:其中包含 html 的文本: 这是我的javascript代码: Te
你好,我想使用 Service 实现 GestureDetector 但是我有这个错误The method onTouchEvent(MotionEvent) of type GestureServi
我正在尝试在 Controller bean 中 Autowiring 接口(interface) 在我放置的上下文配置文件中 和 我的 Controller 类是 @Controller pub
我试图在 mainwindow.cpp 中包含 QtSvg,但是当我编译时它说无法打开包含文件:QtSvg。我已经在我的 *.pro 文件中添加了这个(QT += svg)。我可以知道可能是什么问题吗
鉴于以下 PostgreSQL 代码,我认为这段代码不容易受到 SQL 注入(inject)攻击: _filter 'day' _start 1 _end 10 _sort 'article_name
我想执行以下操作。这在 MySQL 中是非法的。 PostGRESQL 中关联的 CTE(“with”子句)有效。这里的假设是 MySQL 中的子查询不是完全限定的 CTE。 请注意:这个查询显然非常
我是一名优秀的程序员,十分优秀!