- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我从事 NLP 工作,我需要从 10MB 到 300MB 的原始输入文本文件中对大量标记进行词形还原,我决定使用 Inline::Python
和 spacy
做这个任务。问题是它非常慢。在此之后,我创建了词袋,将其放入余弦相似度模块中,以对过去几年的文本进行分类。有没有一种方法可以处理得更快、多处理、多线程,或者是通往 Python 的管道很慢?我有 i9、64GB RAM、RTX 2080TI 和通过 nvme 连接的 SSD。
这是一段用法语对一些文本内容进行词形还原和过滤停用词的代码:
use Inline Python => <<'END_OF_PYTHON';
import spacy
from spacy.lang.fr.stop_words import STOP_WORDS as fr_stop
nlp = spacy.load('fr_core_news_md')
nlp.max_length = 40000000
def lemmatizer(words):
doc = nlp(words)
return list(filter(lambda x: x not in list(fr_stop), list(map(lambda token: token.lemma_ , doc))))
END_OF_PYTHON
不幸的是,Perl 中没有好的法语词形还原器,而词形还原使我将文本文件分类到好类别中的准确性提高了 5%。如果没有它你已经有 90% 的好结果,这很重要。在这段代码中,在此之后我只使用了 Perl 中的函数 lemmatizer
。我不会每次都重新加载法语的 nlp spacy
模块(我想?)
我考虑过为每个文件创建一个线程。我有 15 个大文本文件要进行词形还原。近年来每个类别一个文件。但是 imo,I/O 是问题所在。你有什么想法吗?我无法显示更多代码,因为有 1500 行。我需要 1000 秒来处理最小类别的自动分类(当年的 50/60 个文件)。最大的比最小的大 10 倍。
最佳答案
您可以尝试许多速度改进:
yield
(实际上是 yield from
)而不是在返回之前在内存中构建列表。另外,我认为您不需要根据 map
的结果创建列表:def lemmatizer(words):
doc = nlp(words)
yield from filter(lambda x: x not in list(fr_stop), map(lambda token: token.lemma_, doc))
fr_stop = set(fr_stop)
def lemmatizer(words):
doc = nlp(words)
yield from filter(lambda x: x not in fr_stop, map(lambda token: token.lemma_ , doc))
这些应该有助于减少处理时间和内存压力。
关于python - 在 Perl 中使用 Spacy 和 Inline::Python 对多 MB 的原始文本进行词形还原。为什么这么慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67397321/
看看这个 fiddle http://jsfiddle.net/9S4zc/2/ 为什么这在 firefox 和 chrome 中看起来不同(文本对齐方式不同) 如何让 inner:before 元素
我从文档中了解到的是 %{ %} 之间的内容。被插入到包装器中,%inline %{ %} 呢? ? 是一样的吗?如果不是,有什么区别? 也许我们可以找到很多%inline %{ %}的出现。但仅出现
当我使用 显示:inline-flex; 或 显示:内联网格; 似乎有一些额外的“空间”或某种额外的重点计算发生。我不确定到底发生了什么。当使用箭头键在 contentediatble div 中导航
如果我想让一个 div 与容器 div 的其他内联元素内联,而我的目的仅此而已,我应该更喜欢使用 inline-block 或 display property 还是 inline-flex?不能使用
这个问题在这里已经有了答案: Why does an inline-block align to top if it has no content? (2 个答案) 关闭 8 年前。
Ada 信息交换所 states the following : The use of pragma Inline does have its disadvantages. It can create
Name
我问这个基本问题是为了让记录更正。已转介 this question和 its currently accepted answer ,这没有说服力。然而second most voted answer
你好, 在管理面板中,我创建了用于添加产品的表单。表单包括 2 个内联表单集,因为有一些与产品相关的模型。用户可以创建产品,然后定义该产品的不同属性的变体。我将举例说明这一点。用户拥有一个品牌的 3
有很多关于 inline 的使用以及如何正确执行此操作以达到所需目的的信息,例如此处(我目前将其用作引用)Inline Functions in C . 当我尝试实现页面中指定的内容时,出现编译器错误
我正在编写 gtk 代码。我经常有不需要闭包的简短回调,因为它们传递了它们需要的所有参数。例如,我在创建一些 gtk.TreeViewColumns 时将其置于循环中: def widthChange
这个问题在这里已经有了答案: What is the difference between display: inline and display: inline-block? (7 个答案) 关闭
我已经搜索了很长时间来找到答案,但是我没有找到解决方案... 我制作了一个无序列表的链接,并将它们放在标题下,就像导航栏一样。然而,在 IE 中(是的那个恶魔..)我的链接似乎没有对齐到中间。下面是我
我想将两张 table 并排放置。由于我不是 floating 或使用“css hacks”的忠实拥护者,您有什么建议?没有它是否可以解决,还是我运气不好? 最佳答案 使用 table-cell显示以
这个问题在这里已经有了答案: Why is this inline-block element pushed downward? (8 个答案) 关闭 6 年前。
CSS display 的 inline 和 inline-block 值到底有什么区别? 最佳答案 视觉答案 想象一个 中的元素.如果你给 例如,元素高度为 100px 和红色边框,它看起来像这
我想使用 /纯 CSS 弹出窗口的标签,但是 表现为内联 block ,我无法将其更改为内联。 有没有办法强制表现得像 display:inline 而不是 inline-block?
我的想法是这是不可能的,或者我缺少一个额外的步骤。无论哪种方式,我都被卡住了,无法弄清楚。 使用内联模板的原因是能够使用 Laravel Blade 语法并结合 Vue Js 的强大功能。似乎是两者中
http://christianselig.com/wp/ 对于主导航,如果我使用 display: inline,它们将显示为 block 。我心血来潮添加了 display: inline-blo
Firefox 的 -moz-inline-box 和 -moz-inline-stack 专有显示值有什么区别? 最佳答案 https://developer.mozilla.org/en/CSS/
我是一名优秀的程序员,十分优秀!