gpt4 book ai didi

python - 如何删除/r 并解决我在 BeautifulSoup 中遇到的奇怪格式问题?

转载 作者:行者123 更新时间:2023-12-01 07:26:37 25 4
gpt4 key购买 nike

我尝试从 PGA 网站抓取 PGA 高尔夫赛程 https://www.pgatour.com/tournaments/schedule.html但当我用 Beautiful Soup 解决这个问题时遇到了问题。当我打印数据帧时,它有一个奇怪的格式和很多\r 符号,我无法像用\n 那样替换它们。

...

URL = "https://www.pgatour.com/tournaments/schedule.html"
response = requests.get(URL)
soup = BeautifulSoup(response.text,"html.parser")

table = soup.find("table",{"class":"table-styled"}).tbody

rows = table.find_all("tr")
columns = [v.text.replace("\n","",) for v in rows [0].find_all("td")]


print(df)

不幸的是我得到了困惑:

   Oct\r            4 - 7\r          \
0 Oct\r 11 - 14\r

Safeway Open\r\r \r \r Silverado Resort and Spa North, \r Napa, \r CA \r \r \r \r • Purse: $6,400,000\r \
0 CIMB Classic\r\r \r ...

\
0

\r \r \r \r \r \r Kevin Tway\r \r \r \r \r $1,152,000\r \r \r \
0 \r \r \r ...

500
0 500

所以我有以下问题:

  1. 为什么我有很多\r 符号以及如何相应地替换/删除它们?
  2. 为什么格式如此困惑?我该如何解决这个问题?

感谢您的帮助!

我尝试用同样的方法来替换\n 但没有成功:

columns = [v.text.replace("\r","",) for v in rows [0].find_all("td")]

最佳答案

您可以使用pandas库来read_html()将数据加载到数据框中。不过,您可以将数据导入到 csv 文件中。 BeautufulSoup 不是必需的。

import pandas as pd
dfs=pd.read_html('https://www.pgatour.com/tournaments/schedule.html')
print(dfs[1])
#To import data into csv file
dfs[1].to_csv('outdata.csv',index=False)

关于python - 如何删除/r 并解决我在 BeautifulSoup 中遇到的奇怪格式问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57414524/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com