python - BeautifulSoup:从表单中抓取答案-6ren

python - BeautifulSoup:从表单中抓取答案

转载作者：太空宇宙更新时间：2023-11-03 14:56:30

25

4

我需要从以下link中抓取问题的答案，包括复选框。

这是我到目前为止所拥有的:

from bs4 import BeautifulSoup
import selenium.webdriver as webdriver

url = 'https://www.adviserinfo.sec.gov/IAPD/content/viewform/adv/Sections/iapd_AdvPrivateFundReportingSection.aspx?ORG_PK=161227&FLNG_PK=05C43A1A0008018C026407B10062D49D056C8CC0'

driver = webdriver.Firefox()
driver.get(url)

soup = BeautifulSoup(driver.page_source)

以下为我提供了所有书面答复(如果有的话):

soup.find_all('span', {'class':'PrintHistRed'})

我想我可以将所有复选框的答案拼凑起来:

soup.find_all('img')

但这些不会正确排序，因为这不会获取未以红色书写的“未提交信息”答案。

我还觉得有更好的方法可以做到这一点。理想情况下，我希望(对于前 6 个问题)返回:

['APEX INVESTMENT FUND, V, L.P',
 '805-2054766781',
 'Delaware',
 'United States',
 'APEX MANAGEMENT V, LLC',
 'X',
 'O',
 'No Information Filed',
 'NO',
 'NO']

编辑

下面马丁的答案似乎可以解决问题，但是当我将其放入循环中时，结果在第三次迭代后开始发生变化。有什么想法可以解决这个问题吗？

from bs4 import BeautifulSoup
import requests
import re

for x in range(5):
    url = 'https://www.adviserinfo.sec.gov/IAPD/content/viewform/adv/Sections/iapd_AdvPrivateFundReportingSection.aspx?ORG_PK=161227&FLNG_PK=05C43A1A0008018C026407B10062D49D056C8CC0'
    html = requests.get(url)
    soup = BeautifulSoup(html.text, "lxml")

    tags = list(soup.find_all('span', {'class':'PrintHistRed'}))
    tags.extend(list(soup.find_all('img', alt=re.compile('Radio|Checkbox')))[2:])       # 2: skip "are you an adviser" at the top
    tags.extend([t.parent for t in soup.find_all(text="No Information Filed")])

    output = []

    for entry in sorted(tags):
        if entry.name == 'img':
            alt = entry['alt']
            if 'Radio' in alt:
                output.append('NO' if 'not selected' in alt else 'YES')
            else:
                output.append('O' if 'not checked' in alt else 'X')
        else:
            output.append(entry.text)

    print output[:9]

最佳答案

该网站不会通过 Javascript 生成任何所需的 HTML，因此我选择仅使用 requests 来获取 HTML(这应该更快)。

解决问题的一种方法是将三种不同类型的所有标签存储到一个数组中。如果随后对其进行排序，则会导致标签按树顺序排列。

第一个搜索仅使用您的 PrintHistRed 来获取匹配的范围标签。其次，它查找所有 img 标签，其 alt 文本包含单词 Radio 或 Checkbox。最后，它搜索找到 No Information Filed 的所有位置并返回父标记。

现在可以对标签进行排序，并构建一个合适的输出数组，其中包含所需格式的信息:

from bs4 import BeautifulSoup
import requests
import re

url = 'https://www.adviserinfo.sec.gov/IAPD/content/viewform/adv/Sections/iapd_AdvPrivateFundReportingSection.aspx?ORG_PK=161227&FLNG_PK=05C43A1A0008018C026407B10062D49D056C8CC0'
html = requests.get(url)
soup = BeautifulSoup(html.text, "lxml")

tags = list(soup.find_all('span', {'class':'PrintHistRed'}))
tags.extend(list(soup.find_all('img', alt=re.compile('Radio|Checkbox')))[2:])       # 2: skip "are you an adviser" at the top
tags.extend([t.parent for t in soup.find_all(text="No Information Filed")])

output = []

for entry in sorted(tags):
    if entry.name == 'img':
        alt = entry['alt']
        if 'Radio' in alt:
            output.append('NO' if 'not selected' in alt else 'YES')
        else:
            output.append('O' if 'not checked' in alt else 'X')
    else:
        output.append(entry.text)

print output[:9]        # Display the first 9 entries

给你:

[u'APEX INVESTMENT FUND V, L.P.', u'805-2054766781', u'Delaware', u'United States', 'X', 'O', u'No Information Filed', 'NO', 'YES']

关于python - BeautifulSoup:从表单中抓取答案，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45532846/

25

4

0

文章推荐： c# - 返回未授权状态时调用两次 OnAuthorization

文章推荐： python - Python 正态性检验中 p 值的解释

文章推荐： python - 如何在 python 中打破导入行？

symfony - 多对多 Ajax 表单(Symfony2 表单)
我在 mongodb 中的玩家和锦标赛之间存在多对多关系。我希望能够一次将许多玩家添加到锦标赛中。如果没有 ajax，这很简单，但我们有一个包含数千名玩家的数据库，因此表单选择变得巨大。我们想为此
java - spring 表单 vs html 表单
这个问题已经有答案了: When should I use html's and when spring's in Spring MVC web app? (3 个回答) 已关闭 6 年前。我正
delphi - 如何将对话框(表单)中的 20 个项目的值传递给调用者(表单)
我正在 C++ Builder XE4 上使用 VCL。我有以下组件。 FormMain 具有 TButton *B_select; FormSelect(或DialogSelect)具有 TCom
delphi - 表单 :Transparent, 表单 :non Transparent? 上的控件
如何在不影响表单控件的情况下更改表单的 alphablend？德尔福XE7 最佳答案此问题的一个解决方案是使用多设备应用程序(如果无法使用VCL)。如果您需要保留透明的TForm，只需更改属性T
php - 动态 JavaScript 表单，无 HTML 表单
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
django 表单 is_valid 总是失败(扩展 django-registration 表单)
我正在尝试扩展 Django 注册以包含我自己的注册表单。原则上这是相当简单的。我只需要编写自己的表单( CustomRegistrationForm )，它是原始表单( RegistrationFo
python - ListView 中的 Django 表单，表单 POST 时出错
我正在尝试为我的网站实现聊天功能。为了做到这一点，我遵循了以下教程:https://channels.readthedocs.io/en/latest/tutorial/ 然后我稍微更改了代码以实现它
python - 一个 html 表单，几个相互关联的 django 表单 - 如何保存？
有一个问题，我需要用一个 html 表单提交两个相互关联的模型表单。我知道如何提交两个单独的表格，但是在相关模型表格的情况下外键让我发疯。问题是，第二个表单应该用外键填充字段到第一个表单的实例。在
javascript - 从 XSD 创建 Web 表单，然后输出 xml 表单
我正在创建一个工具，允许某人输入食谱，然后将其保存为 XML 文件，我已经创建了 XSD，但我想知道如何在我的网页上制作一个表单以允许用户输入他们的食谱并遵守模式。我一直在研究 Ajax 和 Jque
c# - .net win 表单(如 asp.net web 表单)中是否有可用的验证控件？
在 .net win 表单(如 asp.net web 表单)中是否有可用的验证控件？因为很难为我的每个控件设置正确的条件，所以我的表单中也有很多重复的代码。正确的做法是什么？最佳答案看看这个
Javascript 表单
我有一个简短的问题。我正在学习如何使用 javascript 制作注册表，发现此链接非常有用。 http://www.w3resource.com/javascript/form/javascript
JavaScript/表单
我正在开发一个项目，该项目将使用循环将许多表单添加到 mysql 数据库中。在 javascript 部分中，我无法让 var i 在函数 updatesum() 中工作。有人可以帮我吗？我试图避免
Android - 表单
在我的应用程序上有一个包含 2 个字段和一个保存按钮的表单。在我的 onClick 结束时我需要什么来将光标返回到第一个字段。我有这个来清除它们 txtData.setText("
类似于谷歌日历重复选项的javascript插件/表单
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
表单数字字符验证正则
<input type="text" name="textfield" onKeyPress="javascript:alert(event.
基本模板上的 Django 表单
我正在构建的网站有一个登录表单，作为所有其他模板扩展的 base.html 模板的一部分；因此，我需要以某种方式处理每个页面上的登录/注销逻辑。目前每个页面都在单独的 View 中加载，那么实现它的
Django UpdateView 表单
我有一个表单类，看起来像.. #forms.py class ExampleForm(forms.Form): color = forms.CharField(max_length=25)
django 表单 error_class
有没有办法在表单定义中给表单一个特殊的错误渲染函数？在 customizing-the-error-list-format 下的文档中它展示了如何为表单提供特殊的错误呈现函数，但似乎您必须在实例化表单
Redux 表单 - 如何将字段设置为触摸
我正在处理由多个页面组成的表单，我想解决验证问题。当我点击提交按钮时，当前页面上的所有字段都会在下方显示错误消息，但是如果我更改页面，那么我需要再次点击提交，因为这些字段未设置为已触摸。如果我可以
Django 表单 - 附加到类元排除和小部件
是否可以附加到继承表单的 exclude 或 widgets 变量？到目前为止，我有以下设置。 class AddPropertyForm(forms.ModelForm): num_mon

首页

博学

6Ren·AI

商城

python - BeautifulSoup:从表单中抓取答案