gpt4 book ai didi

python - 检查 RSS 提要标题中的单词。仅打印包含单词的标题

转载 作者:太空宇宙 更新时间:2023-11-03 17:08:43 26 4
gpt4 key购买 nike

我正在尝试构建一个 RSS 解析器来检查每个标题的关键字。所以我只获取我感兴趣的提要。到目前为止,我可以使用正则表达式获取标题。但我不确定如何继续。我想检查多个关键字的标题,因此最好从 .txt 文件加载它们。我只希望打印出那些具有积极匹配的标题。有人能指出我正确的方向吗?

到目前为止我的代码:

import urllib2
from urllib2 import urlopen
import re
import cookielib
from cookielib import CookieJar
import time
# -*- coding: utf-8 -*-

cj = CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent', 'Mozilla/5.0')]

def main():
try:
page = 'http://randomdomainXYZ.com/news-feed.xml'
sourceCode = opener.open(page).read()
#print sourceCode

try:
titles = re.findall(r'<title>(.*?)</title>', sourceCode)
for title in titles:
print title

except Exception, e:
print str(e)

except Exception, e:
print str(e)

main()

最佳答案

因此,您想要打印包含某个列表中的单词之一的标题。尝试:

for title in titles:
if any(word in title for word in word_list):
print title

至于读取单词列表,您可以使用以下命令读取文件中的所有行:

with open('word_list.txt') as f:
word_list = f.readlines()

# Make sure words don't end with a newline character ('\n')
word_list = [word.strip() for word in word_list]

关于python - 检查 RSS 提要标题中的单词。仅打印包含单词的标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34342341/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com