gpt4 book ai didi

python - 用于企业名称的 python 网络抓取器的逻辑

转载 作者:太空宇宙 更新时间:2023-11-03 18:12:07 25 4
gpt4 key购买 nike

我是 python 新手,想知道是否有一种方法可以通过 python 脚本获取网站的公司名称。

我有 1000 家企业需要验证其名称,并且想知道是否可以通过查看其网站或地址并在地址下找到注册的企业名称来扩大规模。

在我浪费我的研究时间来研究这是否可能之前,我想在这里问这个问题。

感谢您提前提供的任何帮助。

最佳答案

在某些情况下,网站主页的页面标题可能是完整公司名称的近似值。

以下是一个非常简单的示例,ping 网站主页并返回 <title>标签,企业名称的近似值。您需要安装 requests 和 lxml 库。

import requests
from lxml import etree
from StringIO import StringIO

parser = etree.HTMLParser()

urls = ['http://google.com', 'http://facebook.com', 'http://stackoverflow.com']
for url in urls:
r = requests.get(url)
html = r.text
tree = etree.parse(StringIO(html), parser)
title = tree.xpath('//title/text()')
print url, title

>>>
http://google.com ['Google']
http://facebook.com ['Welcome to Facebook - Log In, Sign Up or Learn More']
http://stackoverflow.com ['Stack Overflow']

在其他情况下,如果您需要查找完整的合法企业名称,您可能需要导航至“法律”或“联系我们”页面。这要棘手得多,因为名称不一定与任何 html 标签相关联;它可能只是漂浮在页面上某处的自由文本。

关于python - 用于企业名称的 python 网络抓取器的逻辑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25728710/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com