gpt4 book ai didi

python - 使用 Python 抓取英文单词

转载 作者:太空宇宙 更新时间:2023-11-03 13:51:54 25 4
gpt4 key购买 nike

我想从纽约时报头版等网站上抓取所有英文单词。我用 Python 写了这样的东西:

import re
from urllib import FancyURLopener

class MyOpener(FancyURLopener):
version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'

opener = MyOpener()
url = "http://www.nytimes.com"
h = opener.open(url)
content = h.read()
tokens = re.findall("\s*(\w*)\s*", content, re.UNICODE)
print tokens

这没问题,但我得到了 HTML 关键字,例如“img”、“src”以及英文单词。有没有一种简单的方法可以从 Web scaping/HTML 中只获取英文单词?

我看到了this post,好像只讲抓取的机制,提到的工具都没有讲如何过滤掉非语言元素。我对链接、格式等不感兴趣。只是简单的文字。任何帮助,将不胜感激。

最佳答案

您确定要“英语”字词——就它们出现在某些词典中的意义而言吗?例如,如果您抓取了 NYT 的一篇文章,您是否希望包括“奥巴马”(或“佩林”,对你们这些蓝州人来说),即使它们可能还没有出现在任何词典中?

在许多情况下,更好的做法是解析 HTML(如 Bryan 所建议的那样使用 BeautifulSoup)并仅包含文本节点(可能还有一些针对人类的属性,如“title”和“alt”)。

关于python - 使用 Python 抓取英文单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6418785/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com