python - beautifulsoup find_all 无法获取div数据-6ren

python - beautifulsoup find_all 无法获取div数据

转载作者：太空宇宙更新时间：2023-11-03 16:24:59

24

4

我尝试从网站获取html数据，但data_table返回null并尝试跟踪代码，当我尝试获取 header 数据时，它将返回 html 上下文

    import requests
    from bs4 import BeautifulSoup
    import html.parser
    from html.parser import HTMLParser
    import time
    from random import randint
    import sys
    from IPython.display import clear_output
    import pymysql

links = ['https://www.ptt.cc/bbs/Gossiping/index'+str(i+1)+'.html' for i in range(10)]
    data_links=[]

for link in links:
    res = requests.get(link)
    soup = BeautifulSoup(res.text.encode("utf-8"),"html.parser")
    data_table = soup.findAll("div",{"id":"r-ent"})
    print(data_table)

最佳答案

当您在浏览器中访问该页面时，您必须确认自己已年满 18 岁，然后才能看到实际内容，因此这就是您所看到的页面，您需要将帖子发送到 https://www.ptt.cc/ask/over18 包含数据 yes=yes 和 from = "/bbs/Gossiping/index{the_number}.html"，如果打印返回的源代码，您可以看到该表单。

<form action="/ask/over18" method="post">
    <input type="hidden" name="from" value="/bbs/Gossiping/index1.html">
    <div class="over18-button-container">
        <button class="btn-big" type="submit" name="yes" value="yes">我同意，我已年滿十八歲<br><small>進入</small></button>
    </div>
    <div class="over18-button-container">
        <button class="btn-big" type="submit" name="no" value="no">未滿十八歲或不同意本條款<br><small>離開</small></button>
    </div>
</form>

页面上也没有r-ent，只有div:

import requests
from bs4 import BeautifulSoup

links = ['https://www.ptt.cc/bbs/Gossiping/index{}.html' for i in range(1,11)]
data_links = []
data = {"yes":"yes"}
head = {"User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"}

for ind, link in enumerate(links, 1):
    with requests.Session() as s:
        data["from"] = "/bbs/Gossiping/index{}.html".format(ind)
        s.post("https://www.ptt.cc/ask/over18", data=data, headers=head)
        res = s.get(link, headers=head)
        soup = BeautifulSoup(res.text,"html.parser")
        data_divs= soup.select("div.r-ent")
        print(data_divs)

上面的代码获取了所有带有r-ent类的div。

使用 session 发布一次可能就可以了，因为 cookie 会被存储，所以下面的代码应该可以正常工作。

links = ['https://www.ptt.cc/bbs/Gossiping/index{}.html' for i in range(1,11)]
data_links=[]
data = {"yes":"yes"}
head = {"User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"}
with requests.Session() as s:
    data["from"] = "/bbs/Gossiping/index1.html"
    s.post("https://www.ptt.cc/ask/over18", data=data, headers=head)
    for link in links:
        res = s.get(link, headers=head)
        BeautifulSoup(res.text,"html.parser")
        data_divs= soup.select("div.r-ent")
        print(data_divs)

关于python - beautifulsoup find_all 无法获取div数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38071406/

24

4

0

文章推荐： ruby-on-rails - Ruby 哈希硬编码编程最佳实践

文章推荐： ruby - 中间人博客——自定义排序

文章推荐： ruby - 错误 100002(安全错误 - 安全 header 无效)

文章推荐： c# - 新线程中的 WebBrowser 控件

html - 自动居中

我有一个 div(我认为是容器？)我希望它成为中心页面。 Billede 2 我只想让所有上下文都位于页面中心，这怎么可能？最佳答案 Billede 2 根据您的要求
javascript - $ ('div div' ) 和 $ ('div' ) 之间的区别。找到 ('div' )？
我只是在研究 jQuery，偶然发现了 Find 函数。我是这样测试的: $(document).ready(function(){ $('button').click(function()
html - div(如果里面有另一个 div)+ div {}
如何制定一个规则来做这样的事情: .container .unit:first-child(if it has inside div.box1.extra) + .box2 { top: 50px;}
css -
与

我想了解为什么浏览器显示和的方式不同？这是一个示例:片段 #1 的预期输出是三个并排的框:[黑色]、[蓝色]、[红色]。代码段 #2 仅显示 [black] 和 [red] - 为什么代码段 #
jquery - 为什么 $ ("div > div") 的工作方式与 $ ("div").children ("div") 不同？
我有一个奇怪的问题，我无法使用正常的嘶嘶声选择器来正确选择 jQuery 中的某些内容: 这两行代码不做同样的事情。 ele.children("div.a > div").addClass("bad
javascript - Div 包括另外两个总计大于父 div 的 div。需要显示更多的第一个 div 内容。
我有一个包含另外两个 div 的 div first div second div 父 div 有最大高度，因此不能增长超过一定数量。但是两个子 div 可以有任何大小(动态
html - 父 div 的 div 背景中的 div 不适用于嵌套 div
我在两个 div 之间有问题。 div#mainbody 是父 div 有一个背景，div 2 子 div 有自己的背景所以 div 2 浮出父级 div 但我希望它位于父级 div 中。 HTML:
javascript - 我在另一个具有特定宽度的 div 中有一个 div，但我希望子 div 的宽度与浏览器屏幕大小的百分比而不是其父 div？
我在另一个具有特定宽度的 div 中有一个 div，但我希望子 div 的宽度与浏览器屏幕大小成百分比而不是与其父 div 的百分比，这意味着当我将子 div 的宽度设置为 50% 时，我希望它的大小
javascript - 两个 Angular div，我需要隐藏一个 div 并在按下 div 中的按钮时显示另一个 div
我有以下代码。当单击 div 1 中的按钮时，我需要隐藏 div 1 并显示 div2。 (在 Angular HTML5 中)。我有一个带有 Controller 等的 JS 文件，目前我有两个不同
html - 在一个 div 中居中一个 div，并根据内部 div 使外部 div 自动调整大小
现在我可以将容器 div 的大小自动调整到内部 div，或者我可以将整个东西居中...但我不知道如何同时进行这两项操作。下面是我拥有的 CSS/布局。现在 page 和 main 元素都居中，但如果
html - 当一个单元格 div 包含绝对定位的 div 时，如何在表格 div 中顶部对齐两个单元格 div？
当一个单元格 div 包含绝对定位的 div 时，如何在表格 div 中顶部对齐两个单元格 div？在此示例中，不包含绝对定位的 div 的单元格 div 被下推。 HTML: 1
javascript - 在 div 已经附加到一个 div 之后，将 div 附加到另一个 div
我的程序是一个游戏，从 4 个可玩 Angular 色开始，每个 Angular 色都在自己的类 charContainer 中，这 4 个 div 位于类 character 的容器中。当玩家通过点
html - Div 父 div 不包含子 div
我有这样的东西: 现在，#page 中没有任何格式。它适用于一些内容，我的意思是，当内容更大时，#page 也有更高的高度。但是，当今天我在其中应用 #con
html - 使 div in div in div 可滚动并溢出
我有一个 React 应用程序，并且在一些 CSS 方面遇到了一个稍微大一点的问题。我有一个 View 分为两部分。但这两个部分位于一个更大的组件中。左侧部分显示一些联系人，右侧我想显示这些联系人的
html - 如何在一个 div 中制作 4 个 div，div 1[div left, div 3 left] 和 div 4 right
我想像 facebook 注册页面一样，一个div1(section width:1024px)有四个div，左边div2(width:50%) 有div3(fb slogan)，下面div4(con
html -
和
有区别吗？
在我的网页上遇到一个问题，母版页中的页脚对于某个特定页面没有正确显示。在那个页面上，我有一个在底部。在我的头上敲了一会儿之后，我发现要让页脚正确显示，我需要做的就是将该行更改为: 我不明白为什么
javascript - 将鼠标悬停在容器 div 上会显示隐藏的 div。当光标放在隐藏的 div 上时，容器 div 的行为发生变化
我正在使用 this plugin用于跨浏览器兼容的灰度图像。基本上，图像最初处于低不透明度的灰度模式。当用户将鼠标悬停在图像上时，灰度逐渐变为彩色，不透明度返回到 1，之前隐藏的 div 从底部向上
javascript - 同一行中的两个 div(在箭头形的父 div 中)，其中一个 div 中的文本根据第二个 div 的宽度被剪裁
这是一个 jsfiddle link of my issue HTML 8.123456 huh-fjiuetie 条件是: h
html - 当前一个 div 文本溢出时，内联 div 行的第二个 div 从下一行开始而不是在前一个 div 之后
当前面的 div 中的文本溢出时，如何防止后面的内联 div 换行显示。如您所见，对于第一个帖子，主要内容换行到第二行，因此它后面的链接显示在新行上(这是不正确的)。但是对于第 3 篇文章，主标题
javascript - 将鼠标悬停在 div 上会触发 div，如果悬停在该 div 上，该 div 将保留
我有一个 div，当它悬停在上面时，它会激活另一个 div。当用户将鼠标移动到激活的 div 上时，我希望该 div 保留下来。这是一个片段。当您将鼠标悬停在金色框上时，紫色框会隐藏并显示灰色框。当

首页

博学

6Ren·AI

商城

python - beautifulsoup find_all 无法获取div数据