- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 Python BeautifulSoup 抓取这个网站。我下面的代码首先从页面中获取所有链接。在获取链接时,它会从原始链接中剥离“&”符号和参数。我想知道为什么?有人知道吗?我这里有代码和输出。
from bs4 import BeautifulSoup as bs
import requests
url = requests.get ("http://mnregaweb4.nic.in/netnrega/demand_emp_demand.aspx?lflag=eng&file1=dmd&fin=2017-2018&fin_year=2017-2018&source=national&Digest=x44uSVqhiyzomN66Te0ELQ")
soup = bs(url.text, 'xml')
state= soup.find(id = "t1")
state_links = []
for link in soup.find_all('a', href= True):
state_links.append(link['href'])
state_links = [e for e in state_links if e not in ("javascript:history.go(-1);", "http://164.100.129.6/netnrega/MISreport4.aspx?fin_year=2013-2014rpt=RP&source=national", "javascript:__doPostBack('ctl00$ContentPlaceHolder1$LinkButton1','')")]
for dis_link in state_links:
# print (dis_link)
link_new = "http://mnregaweb4.nic.in/netnrega/"+dis_link
print (link_new)
输出:
实际链接: http://mnregaweb4.nic.in/netnrega/demand_emp_demand.aspx?file1=dmd &page1=s&lflag=eng&state_name=ANDHRA+PRADESH&state_code=02&fin_year =2017-2018&source=national&Digest=4jL5hchs+iT7xqB6T/UXzw
(抓取的链接中缺少代码中突出显示的内容)
最佳答案
这可能是因为您尝试使用“xml”解析它,而不是尝试使用“html.parser”解析它,
我使用下面的代码得到以下结果:
from bs4 import BeautifulSoup as bs
import requests
url = requests.get ("http://mnregaweb4.nic.in/ne....")
soup = bs(url.text, 'html.parser')
state_links = []
for link in soup.find_all('a', href=True):
state_links.append(link['href'])
print(state_links)
# 'demand_emp_demand.aspx?file1=dmd&page1=s&lflag=eng&state_name=ANDHRA+PRADESH&state_code=02&fin_year=2017-2018&source=national&Digest=4jL5hchs+iT7xqB6T/UXzw'
关于python - 为什么 Python Beautiful Soup 从抓取的 URL 中剥离参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50829622/
有没有一种快速的方法(无需显式循环遍历字符串中的每个字符)并剥离或保留它。在 Visual FoxPro 中,有一个函数 CHRTRAN() 可以很好地完成这项工作。它是 1:1 字符替换,但如果替换
在 python/pandas 中清理多类型数据框的值,我想修剪字符串。我目前正在按照两个说明进行操作: import pandas as pd df = pd.DataFrame([[' a '
通常情况下,我正在编写剥离新类型的唯一构造函数的函数,例如在以下函数中返回不是 Nothing 的第一个参数: process (Pick xs) = (\(First x) -> x) . mcon
我正在尝试逐渐将 AOSP 从其默认应用程序中剔除。但是我想知道我要应用的方法是否是正确 并且是最有效 . 在查看了这样做的方法后,我来到了以下 方法: (示例应用程序 - “package_name
使用时 hg log --template "{date|isodate} --- {rev}:{node|short} --- ... " 2011-10-07 19:25 -0400 --- 1:
我想在 mySQL 中创建数据库位置记录。我在选择框中有以下 html 字符串: Aka AkaArarimuAwhituBombayBuckland '> 我不想在数据库中手动输入记录,而是想去掉
我目前正在开发一个 Android 项目,其中我使用 Android NDK 用 C 语言进行一些计算。 只要我不运行 proguard,我的应用程序就可以正常工作,但是当我运行时,“reportPr
我想要一个通用的 .js 文件,对于页面上遇到的每个 form,在提交时,它会从所有 textarea、 中删除 HTML input 和 select 元素。我觉得我缺少一个基本技巧。 $("for
我正在尝试编写一个简单的 Python 脚本,它将文本文件作为输入,删除每个非文字字符,并将输出写入另一个文件中。通常我会采取两种方式: 使用正则表达式结合 re.sub 将每个非字母字符替换为空字符
我敢肯定这个问题以前有人问过,但我已经看过了,但找不到答案,或者我只是做错了什么。 HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.Htm
我有这行代码: var newmsg = $('' + ""+dateFormat(timesp)+ " | " + pseudo + ' : '); newmsg.find(".msg").text
我正在尝试从 Windows 路径中删除前缀。我尝试使用 strip_prefix 来做到这一点方法,但它失败了。您可以在 Rust Playground 上试用.即使在 RUST_BACKTRACE
使用这个 question ,我正在试验 substr 和 strrpos,但似乎无法正确处理。 我有一个来自 MySQL 数据库的名称列,其中包含名字和姓氏,如下所示: Doe, Jane A 现有
好的,我如何使用正则表达式删除 http AND/OR www 只是为了让 http://www.domain.com/ 进入 domain.com 假设 x 是任何类型的 TLD 或 cTLD 输入
我正在尝试从 this website 中抓取项目. 项目是:品牌、型号和价格。由于页面结构的复杂性,spider 使用了 2 个 xpath 选择器。 品牌和型号商品来自同一个 xpath,价格来自
这个问题在这里已经有了答案: 关闭 11 年前。
我有一个包含一些 html 标签的字符串,如下所示: " This is a test " 我想去掉标签之间的所有多余空格。我尝试了以下方法: In [1]: import re In [
我目前有一个 URL 列表 http://www.website.com/dynamic/download.ashx?id=123/12/12345 http://www.website.com/dy
我环顾四周,找不到一种简单/单行的方法来去除 numpy 数组中的空格:: print(type(p)) print(p) [{' SPL', 'GPU', 'bcc'} {'ANZ ', 'ROI
我有一个自定义共享点应用程序,其安全模型取决于 HTTP header 。当从移动设备发出请求时,每个请求都会添加一个名为 HTTP_RIM_DEVICE_EMAIL 的 http header 。我
我是一名优秀的程序员,十分优秀!