gpt4 book ai didi

python - 文本中的日期识别 - 拉丁语

转载 作者:行者123 更新时间:2023-11-28 18:09:30 26 4
gpt4 key购买 nike

我正在处理一些包含日期的拉丁文本,并使用各种正则表达式模式和基于规则的语句来提取日期。我想知道我是否可以使用一种算法来训练来提取这些日期,而不是我目前使用的方法。谢谢

这是我的算法的摘录:

def checkLatinDates(i, record, no):
if(i == 0 and isNumber(record[i])): #get deed no
df.loc[no,'DeedNo'] = record[i]
rec = record[i].lower()
split = rec.split()
if(split[0] == 'die'):
items = deque(split)
items.popleft()
split = list(items)
if('eodem' in rec):
n = no-1
if(no>1):

while ( pd.isnull(df.ix[n]['LatinDate'])):
n = n-1
print n
df['LatinDate'][no] = df.ix[n]['LatinDate']

if(words_in_string(latinMonths, rec.lower()) and len(split)<10):
if not (dates.loc[dates['Latin'] == split[0], 'Number'].empty):
day = dates.loc[dates['Latin'] == split[0], 'Number'].iloc[0]
split[0] = day
nd = ' '.join(map(str, split))
df['LatinDate'][no] = nd
elif(convertArabic(split[0])!= ''):
day = convertArabic(split[0])
split[0] = day
nd = ' '.join(map(str, split))
df['LatinDate'][no] = nd

最佳答案

您可以使用一些机器学习算法,例如 adaboost,使用 IOB tagging添加一些上下文特征,比如单词的类型、检测它是否明显是日期的正则表达式、周围的单词类型等。 Here是一个教程。

关于python - 文本中的日期识别 - 拉丁语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51581620/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com