- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的代码可以工作。现在我想做一点修改来从多个 URL 中获取日期,但 URL 只有一个单词的差异。
这是我的代码,我仅从一个 URL 获取。
from string import punctuation, whitespace
import urllib2
import datetime
import re
from bs4 import BeautifulSoup as Soup
import csv
today = datetime.date.today()
html = urllib2.urlopen("http://www.99acres.com/property-in-velachery-chennai-south-ffid").read()
soup = Soup(html)
print "INSERT INTO `property` (`date`,`Url`,`Rooms`,`place`,`PId`,`Phonenumber1`,`Phonenumber2`,`Phonenumber3`,`Typeofperson`,` Nameofperson`,`typeofproperty`,`Sq.Ft`,`PerSq.Ft`,`AdDate`,`AdYear`)"
print 'VALUES'
re_digit = re.compile('(\d+)')
properties = soup.findAll('a', title=re.compile('Bedroom'))
for eachproperty in soup.findAll('div', {'class':'sT'}):
a = eachproperty.find('a', title=re.compile('Bedroom'))
pdate = eachproperty.find('i', {'class':'pdate'})
pdates = re.sub('(\s{2,})', ' ', pdate.text)
div = eachproperty.find('div', {'class': 'sT_disc grey'})
try:
project = div.find('span').find('b').text.strip()
except:
project = 'NULL'
area = re.findall(re_digit, div.find('i', {'class': 'blk'}).text.strip())
print ' ('
print today,","+ (a['href'] if a else '`NULL`')+",", (a.string if a else 'NULL, NULL')+ "," +",".join(re.findall("'([a-zA-Z0-9,\s]*)'", (a['onclick'] if a else 'NULL, NULL, NULL, NULL, NULL, NULL')))+","+ ", ".join([project] + area),","+pdates+""
print ' ), '
以下是我想同时获取的网址
http://www.99acres.com/property-in-velachery-chennai-south-ffid
http://www.99acres.com/property-in-thoraipakkam-chennai-south-ffid
http://www.99acres.com/property-in-madipakkam-chennai-south-ffid
因此您可以看到每个网址中只有一个词不同。
我正在尝试创建一个如下所示的数组
for locality in areas (http://www.99acres.com/property-in-velachery-chennai-south-ffid
, http://www.99acres.com/property-in-thoraipakkam-chennai-south-ffid, http://www.99acres.com/property-in-madipakkam-chennai-south-ffid):
link = "str(locality)"
html = urllib2.urlopen(link)
soup = Soup(html)
这似乎不起作用,实际上我只想将一个单词传递给像这样的 URL
for locality in areas(madipakkam, thoraipakkam, velachery):
link = “http://www.99acres.com/property-in-+ str(locality)+-chennai-south-ffid"
html= urllib2.urlopen(link)
soup = BeautifulSoup(html)
希望我说清楚了
最佳答案
这个:
for locality in areas (http://www.99acres.com/property-in-velachery-chennai-south-ffid, http://www.99acres.com/property-in-thoraipakkam-chennai-south-ffid, http://www.99acres.com/property-in-madipakkam-chennai-south-ffid):
link = "str(locality)"
…由于多种原因,行不通。
首先,您正在调用一个从未在任何地方定义过的 areas
函数。而且我不确定您希望该函数做什么。
其次,您尝试传递 http://www.99acres.com/property-in-velachery-chennai-south-ffid
,就好像它是一个有意义的 Python 表达式一样,当它是甚至无法解析。如果要传递字符串,则必须将其放在引号中。
第三,“str(locality)”
是文字字符串str(locality)
。如果您想对 locality
变量调用 str
函数,请勿在其两边加上引号。但实际上,根本没有理由调用 str
; locality
已经是一个字符串。
最后,您没有缩进 for
循环的主体。您必须缩进 link =
行以及之前在顶层执行的所有操作,以便它位于 for
下。这样,循环中的每个值都会发生一次,而不是在所有循环完成后总共发生一次。
试试这个:
for link in ("http://www.99acres.com/property-in-velachery-chennai-south-ffid",
"http://www.99acres.com/property-in-thoraipakkam-chennai-south-ffid",
"http://www.99acres.com/property-in-madipakkam-chennai-south-ffid"):
# all the stuff you do for each URL
<小时/>
您的做法是正确的:
for locality in areas(madipakkam, thoraipakkam, velachery):
link = “http://www.99acres.com/property-in-+ str(locality)+-chennai-south-ffid"
使用“模板字符串”来避免重复几乎总是一个好主意。
但是,还是存在很多问题。
首先,您再次调用了一个不存在的 areas
函数,并尝试使用不带引号的裸字符串。
其次,您遇到了与上一个问题相反的问题:您尝试将要计算的表达式 +
和 str(locality)
放入字符串的中间。您需要将其分解为两个单独的字符串,它们可以成为 +
表达式的一部分。
再说一次,您没有缩进循环体,并且您不必要地调用了 str
。
所以:
for locality in "velachery", "thoraipakkam", "madipakkam":
link = “http://www.99acres.com/property-in-" + locality + "-chennai-south-ffid"
# all the stuff you do for each URL
<小时/>
当我们使用格式化函数而不是尝试将字符串连接在一起时,通常会更容易阅读代码,并且更容易确保没有出错。例如:
for locality in "velachery", "thoraipakkam", "madipakkam":
link = "http://www.99acres.com/property-in-{}-chennai-south-ffid".format(locality)
# all the stuff you do for each URL
在这里,每个地点适合字符串的位置、字符串的外观以及连字符的位置等等都一目了然。
关于python - 使用 beautifulsoup 从多个 url 中抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18821388/
假设我拥有域 mydomain.com,并且我在服务器上有一个 Web 应用程序,网址为 http://99.99.99.99:1234/MyApplication/startpage.somethi
我正在尝试通过以下方式更新已解析的 URL: u, _ := url.Parse(s) if u.Scheme == "" { u.Scheme = "https" } if u.Path =
如何将 www.somesite.com/api(.*) 映射到 www.somesite.com/$1:9000? (我需要将/api 映射到运行 @ 端口 9000 的 Play 框架应用程序)
我有一个资源结构,如航类 > 座位 > 预订,所以预订属于某个航类的某个座位: http://example.com/jdf_3prGPS4/1/jMBDy46PbNc
我想知道以下网址是否有效。 路径中的点,在主机之后: http://www.example.com/v.b.w..com 主机中的点,作为子域的一部分: http://v.b.w..co.manufa
我有两个域 - crmpicco.co.uk 和 ayrshireminis.com - 如果我浏览到: www.crmpicco.co.uk/mini/new我希望能够重定向到 www.ayrshi
我正在尝试使用 URL 重写和应用程序请求路由来重写到外部 URL。我设置了以下规则: 在规则中,“patternToMatch”是我试
我已经安装了带有 SharePoint 和 Url Rewrite 模块的 IIS 7.0。 是以下句子还是我配置错误才能看到这个结果? Url Redirect 可以将 url 重定向到任何内部(在
我想知道,为了获得良好的 SEO,您必须在 URL 中使用自然语言。您知道字符中单词或短语的最大大小吗?例如: www.me.com/this-is-a-really-long-url.htm 我问这
有人知道在 SEO 友好 URL 中使用逗号有什么问题吗?我正在使用一些在其 SEO 友好 URL 中使用大量逗号的软件;但我 100% 肯定我见过一些程序/平台无法正确识别 URL 并在第一个逗号后
我有一个网站,我正在为所有链接使用干净的 URL。我想知道对于简短的基本 URL 与较长的描述性 URL 有何看法。 例如,如果我的网站是关于 Georgia Bulldog 足球新闻的,那么哪个网站
我正在编写一个类似于 tinyurl 的 URL 缩短器,我想知道如何跟踪已经使用我的服务缩短的 URL?例如,tinyurl 为相同的长 URL 生成相同的小 URL,而不管是谁创建的。如
我是 magento 的新手。我正在开发一个模块。为此,我有一些要显示链接的 css 和 js 文件。我目前有类似 的链接 getSkinUrl('module_tryouts/css/jquery.
我想基于 HTTP_URL 重写 URL 以重定向到不同的端口,同时保留其余的 URL 和查询字符串(如果指定)。例如, http://host/john/page.aspx 应该重定向到 http:
我遇到了以下问题: 我的 Grails (2.2.0) 应用程序具有以下 URL 映射: "/api/clientQuote/$labcode/$cliCode/$quoCode"(controlle
我有一个很长的 URL,它不适合 URL 字段。它一直在修剪。该怎么办?有没有办法增加 SharePoint 2010 中的 URL 字段字符限制? 或者解决方法来容纳长 URL。例如,以下 URL
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题? Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
我们从客户以前的开发人员那里继承了相当多的 Google Apps 脚本项目。 Apps 脚本通过嵌入式小部件部署在 Google 网站 (sites.google.com) 的各个页面上。每当我们需
我正在编写一些文档,但遇到了一些词汇问题: http://www.example.com/en/public/img/logo.gif 被称为“绝对”网址,对吗? ../../public/img/l
我们从客户以前的开发人员那里继承了相当多的 Google Apps 脚本项目。 Apps 脚本通过嵌入式小部件部署在 Google 网站 (sites.google.com) 的各个页面上。每当我们需
我是一名优秀的程序员,十分优秀!