gpt4 book ai didi

python - 使用 selectorgadget.com 解析 HTML 文件

转载 作者:行者123 更新时间:2023-11-28 18:56:03 25 4
gpt4 key购买 nike

如何才能用美汤和selectorgadget抓取一个网站。例如我有一个网站 - (a newegg product)我希望我的脚本返回该产品的所有规范(点击规范),我的意思是 - 英特尔,台式机,......,2.4GHz,1066Mhz,......,3 年有限的。

使用 selectorgadget 后我得到了字符串-.desc

我该如何使用它?

谢谢:)

最佳答案

检查页面,我可以看到规范放在 ID 为 pcraSpecs 的 div 中:

<div id="pcraSpecs">
<script type="text/javascript">...</script>
<TABLE cellpadding="0" cellspacing="0" class="specification">
<TR>
<TD colspan="2" class="title">Model</TD>
</TR>
<TR>
<TD class="name">Brand</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
</TR>
<TR>
<TD class="name">Processors Type</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>
</TR>
...
</TABLE>
</div>

desc 是表格单元格的类。

你要做的是提取这个表的内容。

soup.find(id="pcraSpecs").findAll("td") 应该让你开始。

关于python - 使用 selectorgadget.com 解析 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/592910/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com