python - 使用 BeautifulSoup 查找标签并评估它是否符合某些标准-6ren

python - 使用 BeautifulSoup 查找标签并评估它是否符合某些标准

转载作者：太空宇宙更新时间：2023-11-04 10:36:37

24

4

我正在编写一个程序来从网站中提取文本并将其写入文本文件。文本文件中的每个条目都应该有 3 个值，用制表符分隔。第一个值硬编码为 XXXX，第二个值应初始化为网站上的第一个项目，第三个值是网站上的下一个项目。我要介绍的逻辑是寻找第一个并将关联的字符串写入文本文件。然后找到下一个并将关联的字符串写入文本文件。然后，寻找下一个p类。如果是“style4”，则另起一行，如果是另一个“style5”，则将其与第一个 style5 条目一起写入文本文件，但用逗号分隔(或者，程序可以跳过下一个 style5。

我停留在程序的粗体部分。也就是说，让程序寻找下一个 p 类并根据 style4 和 style5 对其进行评估。因为我在查找和评估 p 类标签时遇到问题，所以我选择将我的代码从循环中拉出来，并尝试完成初学者任务的第一次迭代。到目前为止，这是我的代码:

import urllib2
from bs4 import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://www.kcda.org/KCDA_Awarded_Contracts.htm').read())
next_vendor = soup.find('p', {'class': 'style4'})
print next_vendor
next_commodity = next_vendor.find_next('p', {'class': 'style5'})
print next_commodity
next = next_commodity.find_next('p')
print next

如果有人能提供任何帮助，我将不胜感激!提前致谢!

最佳答案

我不完全确定您期望的输出结果如何。我假设您正在尝试以以下格式获取网页中的数据:

Alphabet \t Vendor \t Category

你可以这样做:

# The basic things
import urllib2
from bs4 import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://www.kcda.org/KCDA_Awarded_Contracts.htm').read())

获取感兴趣的td:

table = soup.find('table')
data = table.find_all('tr')[-1]
data = data.find_all('td')[1:]

现在，我们将创建一个嵌套的输出字典，其中字母作为键，内部字典作为值。内部字典以供应商名称作为键，以类别信息作为值

output_dict = {}
current_alphabet = ""
current_vendor = ""
for td in data:
    for p in td.find_all('p'):
        print p.text.strip()
        if p.get('class')[0] == 'style6':
            current_alphabet = p.text.strip()
            vendors = {}
            output_dict[current_alphabet] = vendors
            continue
        if p.get('class')[0] == 'style4':
            print "Here"
            current_vendor = p.text.strip()
            category = []
            output_dict[current_alphabet][current_vendor] = category
            continue
        output_dict[current_alphabet][current_vendor].append(p.text.strip())

这会以以下格式获取 output_dict:

{   ...

    u'W': { u'WTI - Weatherproofing Technologies': [u'Roofing'],
            u'Wenger Corporation': [u'Musical Instruments and Equipment'],
            u'Williams Scotsman, Inc': [u'Modular/Portable Buildings'],
            u'Witt Company': [u'Interactive Technology']
        },
    u'X': { u'Xerox': [u"Copiers & MFD's", u'Printers']
        }
}

为简洁起见，跳过前面的部分。现在只需访问该字典并将其写入制表符分隔的文件即可。

希望这对您有所帮助。

关于python - 使用 BeautifulSoup 查找标签并评估它是否符合某些标准，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22998272/

24

4

0

文章推荐： linux - Grails 的 JAVA_HOME 问题

文章推荐：在 linux 驱动程序中定期调用 spi_write

文章推荐： java - Android:单击按钮时切换相机

SwiftUI 符合 Hashable
我们如何让 SwiftUI 对象，尤其是 Image，符合 Hashable 协议(protocol)？我知道它们符合 Equatable 协议(protocol)，所以主要问题是如何获取哈希值，或
ios - 符合 AVAudioPlayerDelegate
我遇到了一些符合 AVAudioPlayerDelegate 的奇怪问题。以下正是我在一个全新的 Xcode 项目中所拥有的: import UIKit import AVFoundation cla
swift - 符合 NSCoding
我一辈子都弄不明白为什么我会收到此类不符合 NSCoding 协议(protocol)的错误。也许另一双眼睛会有所帮助。我试图添加注释以明确每个函数在做什么。 import Foundation im
符合 C 标准的结构对齐方式
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 9 年前。 Improve t
xhtml - 符合 XHTML 的意义何在？
所有现代浏览器都理解 HTML，所以除了在键盘最右侧编写更多字符之外，兼容 XHTML 的意义何在。最佳答案没有一点我能想到的。 W3C 已经取消了 XHTML 2.0，尽管应该有一个 XHTML
oop - 符合 Liskov 的状态设计模式
我正在设计一个订单系统，状态设计模式似乎很合适，因为订单可以更改其状态，从而更改订单允许的功能。下面是我的基本类图: 我不喜欢这种方法，因为客户端无法查看某个方法是否受支持并且违反了里氏原则。我在下面
neo4j - 符合 neo4j 中的模式
我正在考虑使用图形数据库来存储 IFC数据。理想情况下，数据库应该提供一种方法来定义 IFC 架构中定义的所有规则类型。但是，我不认为有任何这样的数据库，因为 IFC 中的某些规则类型非常复杂并且需要
fips - 符合 FISMA/其他联邦信息系统要求的散列算法
我所在的组织必须满足 FISMA 对启用 FIPS 的系统的要求。我正在尝试做的一件事是为我们的密码实现哈希算法。我对此有很多选择:SHA-2、MD5、bcrypt(使用 Blowfish)、RIPE
Swift:CoreData 符合 MKAnnotation
我正在尝试实现我的自定义 CoreData Carpark 实体以符合 MKAnnotation，就像我们如何使 class 对象符合 >MKAnnotation. 我根据以下帖子调整了我的实现:th
swift - 符合 'CBCentralManagerDelegate'协议(protocol)
我在 project-Swift.h 文件中收到名为“CBCentralManagerDelegate”的 No 类型或协议(protocol)。不知道我在这里哪里出错了。我认为这与 swift.h
c++ - 从原始内存中读取值(符合 MISRA)
我正在尝试读取之前写入 NVM 闪存的变量的值。我的代码是: uintptr_t address = getAddress(); //[MISRA C++ Rule 5-2-8] cast from
java - 符合 .implements 的数组
所以我有这个练习要解决。我必须创建第一个。一个名为 Printable 的接口(interface)，它有一个 put() 方法，该方法将接受实现 Comparable 的对象。完成 interfa
c - 符合 IEEE754 的结构
我的问题涉及 IEEE 754 单精度数字。假设我有一个结构: typedef struct __ieee754 { int sign; int exponent; int mant
c++ - 符合 STL 的内存分配器库
我需要使用 map，键为 uint32_t，值为 Meshes。我希望将网格布局在连续的内存中以 boost 性能，因为它们将经常被连续访问。我想知道有哪些内存分配器库可以提供以下内容；分配给连续
符合 C++ STL 的分配器
在处理小对象时，有哪些分配器可用于 STL。我已经尝试过使用 Boost 的池分配器，但没有得到任何性能提升(实际上，在某些情况下性能下降相当大)。最佳答案你没有说你使用的是什么编译器，但它可能带
符合 c++ STL 的迭代器迭代器
我想做什么我有一种划分事物的方法。此方法不会对数组进行完全排序；它只是简单地对数组进行分区，以便一侧的所有元素(某些预先确定的“中心”或“中点值”——但它不必导致均匀拆分)小于“中心”和另一侧的所有
http - 符合 RESTful 标准的设计
假设我需要开发一个 REST 银行应用程序允许创建/销毁银行账户以及对帐户进行以下操作:withdraw/credit/getBalance。创建帐户 PUT/银行/约翰这里我使用 PUT 而不是
ios - 符合 Equatable 的单元测试策略
假设我有一个 struct 符合我的模型的 Equatable，如下所示: struct Model: Equatable { var a: Int = 0 var b: String
swift - 符合 Decodable 的类不需要初始化器
我目前正在研究 Decodable、Encodable 和 friend ，试图理解它背后的“魔法”。以下是我发现不寻常的一件事: class Person: Decodable { var n
swift - 符合 RawRepresentable 的枚举
在 Swift 书中，枚举的例子很好用 enum CompassPoint: String { case north, south, east, west } var northCom = C

首页

博学

6Ren·AI

商城

python - 使用 BeautifulSoup 查找标签并评估它是否符合某些标准