- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我确定我写了一些相当有问题的代码,但它似乎可以完成工作。问题是它正在将数据打印到电子表格和列中,如果广告中的第一个词不是年份,我希望在该列中找到车辆的年份,然后它会显示可能是制造商的第一个词。
本质上我想设置 if 语句,这样如果车辆年份不在第一个单词中但在字符串中的其他地方,它仍然会找到它并将其打印到我的 .csv 中。
此外,我一直在努力解析多个页面,希望这里的人也能提供帮助。 url 中有 page=2 等,但我无法让它解析所有 url 并获取所有页面上的数据。目前,我尝试过的所有内容都只出现在第一页。您可能已经猜到,我对 Python 还很陌生。
import csv ; import requests
from bs4 import BeautifulSoup
outfile = open('carandclassic-new.csv','w', newline='', encoding='utf-8')
writer = csv.writer(outfile)
writer.writerow(["Link", "Title", "Year", "Make", "Model", "Variant", "Image"])
url = 'https://www.carandclassic.co.uk/cat/3/?page=2'
get_url = requests.get(url)
get_text = get_url.text
soup = BeautifulSoup(get_text, 'html.parser')
car_link = soup.find_all('div', 'titleAndText', 'image')
for div in car_link:
links = div.findAll('a')
for a in links:
link = ("https://www.carandclassic.co.uk" + a['href'])
title = (a.text.strip())
year = (title.split(' ', 1)[0])
make = (title.split(' ', 2)[1])
model = (title.split(' ', 3)[2])
date = "\d"
for line in title:
yom = title.split()
if yom[0] == "\d":
yom[0] = (title.split(' ', 1)[0])
else:
yom = title.date
writer.writerow([link, title, year, make, model])
print(link, title, year, make, model)
outfile.close()
有人可以帮我解决这个问题吗?我意识到底部的 if 语句可能有偏差。
代码成功地从字符串中获取了第一个单词,遗憾的是数据的结构方式并不总是车辆的制造年份 (yom)
最佳答案
Comment
"1978 Full restored Datsun 280Z"
becomes'1978' '1978' '280Z'
.
Rather than'1978' 'Datsun' '280z'
改进 year
验证,更改为使用 re
模块:
import re
if not (len(year) == 4 and year.isdigit()):
match = re.findall('\d{4}', title)
if match:
for item in match:
if int(item) in range(1900,2010):
# Assume year
year = item
break
The output becomes:
'1978 Full restored Datsun 280Z', '1978', 'Full', '280Z'
关于 false 结果 make='Full'
你有两个选项。
停用词列表
使用 ['full', 'restored', etc.]
等术语构建停用词列表和 loop
title_items
在停用词列表中找到第一个项不。
制作人名单
建立一个 Maker 列表,例如 ['Mercedes', 'Datsun', etc.]
和 loop
title_items
找到第一个匹配项。
Question: find the vehicle's year if the first word in the advert isn't the year
二手 build-in
和 module
:
使用的示例标题:
# Simulating html Element
class Element():
def __init__(self, text): self.text = text
for a in [Element('Mercedes Benz 280SL 1980 Cabriolet in beautiful condition'),
Element('1964 Mercedes Benz 220SEb Saloon Manual RHD')]:
获取 title
来自 <a
Element
并按 blanks
拆分.
title = a.text.strip()
title_items = title.split()
默认值为 title_items
在索引 0, 1, 2
.
# Default
year = title_items[0]
make = title_items[1]
model = title_items[2]
验证 year
是否满足条件4位
# Verify 'year'
if not (len(year) == 4 and year.isdigit()):
循环所有item
在 title_items
, 如果满足条件则中断。
# Test all items
for item in title_items:
if len(item) == 4 and item.isdigit():
# Assume year
year = item
break
更改为假设,title_items
在索引 0, 1
是make
和 model
make = title_items[0]
model = title_items[1]
检查是否model
以数字开头
Note: This will fail if a Model does not met this criteria!
# Condition: Model have to start with digit
if not model[0].isdigit():
for item in title_items:
if item[0].isdigit() and not item == year:
model = item
print('{}'.format([title, year, make, model]))
Output:
['Mercedes Benz 280SL 1980 Cabriolet in beautiful condition', '1980', 'Mercedes', '280SL']
['1964 Mercedes Benz 220SEb Saloon Manual RHD', '1964', 'Mercedes', '220SEb']
使用 Python 测试:3.4.2
关于python - 如何解析字符串以查找特定的单词/数字并在找到时显示它们,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54560756/
我一直在使用 AJAX 从我正在创建的网络服务中解析 JSON 数组时遇到问题。我的前端是一个简单的 ajax 和 jquery 组合,用于显示从我正在创建的网络服务返回的结果。 尽管知道我的数据库查
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我在尝试运行 Android 应用程序时遇到问题并收到以下错误 java.lang.NoClassDefFoundError: com.parse.Parse 当我尝试运行该应用时。 最佳答案 在这
有什么办法可以防止etree在解析HTML内容时解析HTML实体吗? html = etree.HTML('&') html.find('.//body').text 这给了我 '&' 但我想
我有一个有点疯狂的例子,但对于那些 JavaScript 函数作用域专家来说,它看起来是一个很好的练习: (function (global) { // our module number one
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 8 年前。 Improve th
我需要编写一个脚本来获取链接并解析链接页面的 HTML 以提取标题和其他一些数据,例如可能是简短的描述,就像您链接到 Facebook 上的内容一样。 当用户向站点添加链接时将调用它,因此在客户端启动
在 VS Code 中本地开发时,包解析为 C:/Users//AppData/Local/Microsoft/TypeScript/3.5/node_modules/@types//index而不是
我在将 json 从 php 解析为 javascript 时遇到问题 这是我的示例代码: //function MethodAjax = function (wsFile, param) {
我在将 json 从 php 解析为 javascript 时遇到问题 这是我的示例代码: //function MethodAjax = function (wsFile, param) {
我被赋予了将一种语言“翻译”成另一种语言的工作。对于使用正则表达式的简单逐行方法来说,源代码过于灵活(复杂)。我在哪里可以了解更多关于词法分析和解析器的信息? 最佳答案 如果你想对这个主题产生“情绪化
您好,我在解析此文本时遇到问题 { { { {[system1];1;1;0.612509325}; {[system2];1;
我正在为 adobe after effects 在 extendscript 中编写一些代码,最终变成了 javascript。 我有一个数组,我想只搜索单词“assemble”并返回整个 jc3_
我有这段代码: $(document).ready(function() { // }); 问题:FB_RequireFeatures block 外部的代码先于其内部的代码执行。因此 who
背景: netcore项目中有些服务是在通过中间件来通信的,比如orleans组件。它里面服务和客户端会指定网关和端口,我们只需要开放客户端给外界,服务端关闭端口。相当于去掉host,这样省掉了些
1.首先贴上我试验成功的代码 复制代码 代码如下: protected void onMeasure(int widthMeasureSpec, int heightMeasureSpec)
什么是 XML? XML 指可扩展标记语言(eXtensible Markup Language),标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。 你可以通过本站学习 X
【PHP代码】 复制代码 代码如下: $stmt = mssql_init('P__Global_Test', $conn) or die("initialize sto
在SQL查询分析器执行以下代码就可以了。 复制代码代码如下: declare @t varchar(255),@c varchar(255) declare table_cursor curs
前言 最近练习了一些前端算法题,现在做个总结,以下题目都是个人写法,并不是标准答案,如有错误欢迎指出,有对某道题有新的想法的友友也可以在评论区发表想法,互相学习🤭 题目 题目一: 二维数组中的
我是一名优秀的程序员,十分优秀!