gpt4 book ai didi

python - 如何提高文本解析函数的性能?

转载 作者:太空宇宙 更新时间:2023-11-03 14:40:28 24 4
gpt4 key购买 nike

我正在尝试从 Wine 名称中解析年份。我希望通过下面的代码获得大约 50% 的准确率,但如果可能的话我想改进它。有人知道我可以做些什么来提高准确性吗?

示例标题及其返回的解析年份:

Quinta dos Avidagos 2011 Avidagos Red (Douro) -> 0 incorrect
Rainstorm 2013 Pinot Gris (Willamette Valley) -> 2011 incorrect
Louis M. Martini 2012 Cabernet Sauvignon -> 2012 correct
Mirassou 2012 Chardonnay (Central Coast) -> 2012 correct

我正在执行的代码:

from dateutil.parser import parse
from datetime import datetime, timezone

df = "my pandas dataframe with wine titles"
dt = datetime.now()
dt.replace(tzinfo=timezone.utc)

year_parse = []
for i in range(len(df['title'])):
try:
ans = parse(df.title[i], fuzzy=True).year
year_parse.append(int(ans))
except:
ans = 0
year_parse.append(int(ans))

非常感谢任何建议!

最佳答案

您可以为此使用正则表达式。我希望酒名有相同的模式。

import re
exp = re.compile(r'\d{4}')
year_parse = list()
for name in df['title']:
year = exp.findall(name)[0]
year_parse.append(year)

year_parse 获取列表中的所有年份。

关于python - 如何提高文本解析函数的性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53800735/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com