gpt4 book ai didi

python - POS 标记的性能缓慢。我可以做一些预热吗?

转载 作者:太空狗 更新时间:2023-10-29 17:09:31 26 4
gpt4 key购买 nike

我正在使用 NLTK 对网络请求中的数百条推文进行 POS 标记。如您所知,Django 为每个请求实例化一个请求处理程序。

我注意到这一点:对于一个请求(约 200 条推文),第一条推文需要约 18 秒来标记,而所有后续推文需要约 120 毫秒来标记。我可以做些什么来加快这个过程?

我可以执行“预热请求”以便为每个请求加载模块数据吗?

class MyRequestHandler(BaseHandler):
def read(self, request): #this runs for a GET request
#...in a loop:
tokens = nltk.word_tokenize( tweet)
tagged = nltk.pos_tag( tokens)

最佳答案

前 18 秒是将词性标注器从磁盘中提取到 RAM 中。如果您想解决这个问题,请在请求函数之外自行加载标记器。

import nltk.data, nltk.tag
tagger = nltk.data.load(nltk.tag._POS_TAGGER)

然后将nltk.pos_tag替换为tagger.tag。代价是应用程序启动现在需要 +18 秒。

关于python - POS 标记的性能缓慢。我可以做一些预热吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11610076/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com