python - 如何解析字符串以查找特定的单词/数字并在找到时显示它们-6ren

python - 如何解析字符串以查找特定的单词/数字并在找到时显示它们

转载作者：太空宇宙更新时间：2023-11-04 00:04:42

25

4

我确定我写了一些相当有问题的代码，但它似乎可以完成工作。问题是它正在将数据打印到电子表格和列中，如果广告中的第一个词不是年份，我希望在该列中找到车辆的年份，然后它会显示可能是制造商的第一个词。

本质上我想设置 if 语句，这样如果车辆年份不在第一个单词中但在字符串中的其他地方，它仍然会找到它并将其打印到我的 .csv 中。

此外，我一直在努力解析多个页面，希望这里的人也能提供帮助。 url 中有 page=2 等，但我无法让它解析所有 url 并获取所有页面上的数据。目前，我尝试过的所有内容都只出现在第一页。您可能已经猜到，我对 Python 还很陌生。

import csv ; import requests

from bs4 import BeautifulSoup

outfile = open('carandclassic-new.csv','w', newline='', encoding='utf-8')
writer = csv.writer(outfile)
writer.writerow(["Link", "Title", "Year", "Make", "Model", "Variant", "Image"])

url = 'https://www.carandclassic.co.uk/cat/3/?page=2'

get_url = requests.get(url)

get_text = get_url.text

soup = BeautifulSoup(get_text, 'html.parser')


car_link = soup.find_all('div', 'titleAndText', 'image')


for div in car_link:
    links = div.findAll('a')
    for a in links:
        link = ("https://www.carandclassic.co.uk" + a['href'])
        title = (a.text.strip())
        year = (title.split(' ', 1)[0])
        make = (title.split(' ', 2)[1])
        model = (title.split(' ', 3)[2])
        date = "\d"
        for line in title:
        yom = title.split()
        if yom[0] == "\d":
            yom[0] = (title.split(' ', 1)[0])
        else:
            yom = title.date

        writer.writerow([link, title, year, make, model])
        print(link, title, year, make, model)



outfile.close()

有人可以帮我解决这个问题吗？我意识到底部的 if 语句可能有偏差。

代码成功地从字符串中获取了第一个单词，遗憾的是数据的结构方式并不总是车辆的制造年份 (yom)

最佳答案

Comment "1978 Full restored Datsun 280Z" becomes '1978' '1978' '280Z'.
Rather than '1978' 'Datsun' '280z'

改进 year验证，更改为使用 re模块:

import re

if not (len(year) == 4 and year.isdigit()):
    match = re.findall('\d{4}', title)
    if match:
        for item in match:
            if int(item) in range(1900,2010):
                # Assume year
                year = item
                break

The output becomes:

'1978 Full restored Datsun 280Z', '1978', 'Full', '280Z'

关于 false 结果 make='Full'你有两个选项。

停用词列表
使用 ['full', 'restored', etc.] 等术语构建停用词列表和 loop title_items在停用词列表中找到第一个项不。
制作人名单
建立一个 Maker 列表，例如 ['Mercedes', 'Datsun', etc.]和 loop title_items找到第一个匹配项。

Question: find the vehicle's year if the first word in the advert isn't the year

二手 build-in和 module :

使用的示例标题:

# Simulating html Element
class Element():
    def __init__(self, text): self.text = text

for a in [Element('Mercedes Benz 280SL 1980 Cabriolet in beautiful condition'),
          Element('1964 Mercedes Benz 220SEb Saloon Manual RHD')]:

获取 title来自 <a Element并按 blanks 拆分.

    title = a.text.strip()
    title_items = title.split()

默认值为 title_items在索引 0, 1, 2 .

    # Default
    year = title_items[0]
    make = title_items[1]
    model = title_items[2]

验证 year 是否满足条件4位

    # Verify 'year'
    if not (len(year) == 4 and year.isdigit()):

循环所有item在 title_items , 如果满足条件则中断。

        # Test all items
        for item in title_items:
            if len(item) == 4 and item.isdigit():
                # Assume year
                year = item
                break

更改为假设，title_items在索引 0, 1是make和 model

        make = title_items[0]
        model = title_items[1]

检查是否model以数字开头

Note: This will fail if a Model does not met this criteria!

    # Condition: Model have to start with digit
    if not model[0].isdigit():
        for item in title_items:
            if item[0].isdigit() and not item == year:
                model = item

    print('{}'.format([title, year, make, model]))

Output:

['Mercedes Benz 280SL 1980 Cabriolet in beautiful condition', '1980', 'Mercedes', '280SL']
['1964 Mercedes Benz 220SEb Saloon Manual RHD', '1964', 'Mercedes', '220SEb']

使用 Python 测试:3.4.2

关于python - 如何解析字符串以查找特定的单词/数字并在找到时显示它们，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54560756/

25

4

0

文章推荐： html - div相对重叠

文章推荐： python - 变量拒绝添加到

文章推荐： python - 如何计算 Pandas 滚动窗口的累积乘积？

文章推荐： python - 使用 SciPy 拟合 Levy-Stable 分布

javascript - 控制台错误 - 解析 AJAX JSON 解析
我一直在使用 AJAX 从我正在创建的网络服务中解析 JSON 数组时遇到问题。我的前端是一个简单的 ajax 和 jquery 组合，用于显示从我正在创建的网络服务返回的结果。尽管知道我的数据库查
xml - Json 解析 vs xml 解析？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
android - java.lang.NoClassDefFoundError : com. 解析。解析
我在尝试运行 Android 应用程序时遇到问题并收到以下错误 java.lang.NoClassDefFoundError: com.parse.Parse 当我尝试运行该应用时。最佳答案在这
python - 解析 HTML 内容时防止 etree 解析 HTML 实体
有什么办法可以防止etree在解析HTML内容时解析HTML实体吗？ html = etree.HTML('&') html.find('.//body').text 这给了我 '&' 但我想
javascript - 使用 JSON 解析/解析 js 对象时，返回方法中的函数范围会丢失
我有一个有点疯狂的例子，但对于那些 JavaScript 函数作用域专家来说，它看起来是一个很好的练习: (function (global) { // our module number one
java - 使用 Java 解析 HTML 数据(DOM 解析)
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 8 年前。 Improve th
php - 在服务器上用 PHP 解析 HTML 还是在最终用户端用 JavaScript 解析 HTML 会更好？
我需要编写一个脚本来获取链接并解析链接页面的 HTML 以提取标题和其他一些数据，例如可能是简短的描述，就像您链接到 Facebook 上的内容一样。当用户向站点添加链接时将调用它，因此在客户端启动
node.js - 为什么 npm 包从/AppData 解析，而不是从 local/node_modules 解析？
在 VS Code 中本地开发时，包解析为 C:/Users//AppData/Local/Microsoft/TypeScript/3.5/node_modules/@types//index而不是
php - 解析 json 错误 : SyntaxError: JSON. 解析:JSON 数据的第 1 行第 2 列出现意外字符
我在将 json 从 php 解析为 javascript 时遇到问题这是我的示例代码: //function MethodAjax = function (wsFile, param) {
php - 解析 json 错误 : SyntaxError: JSON. 解析:JSON 数据的第 1 行第 2 列出现意外字符
我在将 json 从 php 解析为 javascript 时遇到问题这是我的示例代码: //function MethodAjax = function (wsFile, param) {
解析，在哪里可以了解
我被赋予了将一种语言“翻译”成另一种语言的工作。对于使用正则表达式的简单逐行方法来说，源代码过于灵活(复杂)。我在哪里可以了解更多关于词法分析和解析器的信息？最佳答案如果你想对这个主题产生“情绪化
正则表达式 {} 解析
您好，我在解析此文本时遇到问题 { { { {[system1];1;1;0.612509325}; {[system2];1;
JavaScript 解析？
我正在为 adobe after effects 在 extendscript 中编写一些代码，最终变成了 javascript。我有一个数组，我想只搜索单词“assemble”并返回整个 jc3_
JavaScript 解析
我有这段代码: $(document).ready(function() { // }); 问题:FB_RequireFeatures block 外部的代码先于其内部的代码执行。因此 who
解析.netcore项目中IStartupFilter使用教程
背景： netcore项目中有些服务是在通过中间件来通信的，比如orleans组件。它里面服务和客户端会指定网关和端口，我们只需要开放客户端给外界，服务端关闭端口。相当于去掉host，这样省掉了些
解析:继承ViewGroup后的子类如何重写onMeasure方法
1.首先贴上我试验成功的代码复制代码代码如下: protected void onMeasure(int widthMeasureSpec, int heightMeasureSpec)
Python如何对XML 解析
什么是 XML？ XML 指可扩展标记语言（eXtensible Markup Language），标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。你可以通过本站学习 X
解析:php调用MsSQL存储过程使用内置RETVAL获取过程中的return值
【PHP代码】复制代码代码如下: $stmt = mssql_init('P__Global_Test', $conn) or die("initialize sto
解析:清除SQL被注入恶意病毒代码的语句
在SQL查询分析器执行以下代码就可以了。复制代码代码如下: declare @t varchar(255),@c varchar(255) declare table_cursor curs
【JavaScript】前端算法题40道题+解析
前言最近练习了一些前端算法题，现在做个总结，以下题目都是个人写法，并不是标准答案，如有错误欢迎指出，有对某道题有新的想法的友友也可以在评论区发表想法，互相学习🤭 题目题目一: 二维数组中的

首页

博学

6Ren·AI

商城

python - 如何解析字符串以查找特定的单词/数字并在找到时显示它们