python - 如何有效地将 pos_tag_sents() 应用于 pandas 数据框-6ren

python - 如何有效地将 pos_tag_sents() 应用于 pandas 数据框

转载作者：太空狗更新时间：2023-10-29 18:03:34

25

4

在您希望对存储在 pandas 数据框中的一列文本进行 POS 标记的情况下，每行 1 个句子，SO 上的大多数实现都使用 apply 方法

dfData['POSTags']= dfData['SourceText'].apply(
                 lamda row: [pos_tag(word_tokenize(row) for item in row])

NLTK 文档 recommends using the pos_tag_sents()用于有效标记多个句子。

这是否适用于此示例？如果适用，代码是否会像将 pso_tag 更改为 pos_tag_sents 一样简单，或者 NLTK 是否表示段落的文本源

如评论中所述，pos_tag_sents() 旨在减少每次感受器的负载但问题是如何做到这一点并仍然在 pandas 数据框中生成一列？

Link to Sample Dataset 20kRows

最佳答案

输入

$ cat test.csv ID,Task,label,Text 1,Collect Information,no response,cozily married practical athletics Mr. Brown flat 2,New Credit,no response,active married expensive soccer Mr. Chang flat 3,Collect Information,response,healthy single expensive badminton Mrs. Green flat 4,Collect Information,response,cozily married practical soccer Mr. Brown hierachical 5,Collect Information,response,cozily single practical badminton Mr. Brown flat

长话短说

>>> from nltk import word_tokenize, pos_tag, pos_tag_sents >>> import pandas as pd >>> df = pd.read_csv('test.csv', sep=',') >>> df['Text'] 0 cozily married practical athletics Mr. Brown flat 1 active married expensive soccer Mr. Chang flat 2 healthy single expensive badminton Mrs. Green ... 3 cozily married practical soccer Mr. Brown hier... 4 cozily single practical badminton Mr. Brown flat Name: Text, dtype: object >>> texts = df['Text'].tolist() >>> tagged_texts = pos_tag_sents(map(word_tokenize, texts)) >>> tagged_texts [[('cozily', 'RB'), ('married', 'JJ'), ('practical', 'JJ'), ('athletics', 'NNS'), ('Mr.', 'NNP'), ('Brown', 'NNP'), ('flat', 'JJ')], [('active', 'JJ'), ('married', 'VBD'), ('expensive', 'JJ'), ('soccer', 'NN'), ('Mr.', 'NNP'), ('Chang', 'NNP'), ('flat', 'JJ')], [('healthy', 'JJ'), ('single', 'JJ'), ('expensive', 'JJ'), ('badminton', 'NN'), ('Mrs.', 'NNP'), ('Green', 'NNP'), ('flat', 'JJ')], [('cozily', 'RB'), ('married', 'JJ'), ('practical', 'JJ'), ('soccer', 'NN'), ('Mr.', 'NNP'), ('Brown', 'NNP'), ('hierachical', 'JJ')], [('cozily', 'RB'), ('single', 'JJ'), ('practical', 'JJ'), ('badminton', 'NN'), ('Mr.', 'NNP'), ('Brown', 'NNP'), ('flat', 'JJ')]] >>> df['POS'] = tagged_texts >>> df ID Task label \ 0 1 Collect Information no response 1 2 New Credit no response 2 3 Collect Information response 3 4 Collect Information response 4 5 Collect Information response Text \ 0 cozily married practical athletics Mr. Brown flat 1 active married expensive soccer Mr. Chang flat 2 healthy single expensive badminton Mrs. Green ... 3 cozily married practical soccer Mr. Brown hier... 4 cozily single practical badminton Mr. Brown flat POS 0 [(cozily, RB), (married, JJ), (practical, JJ),... 1 [(active, JJ), (married, VBD), (expensive, JJ)... 2 [(healthy, JJ), (single, JJ), (expensive, JJ),... 3 [(cozily, RB), (married, JJ), (practical, JJ),... 4 [(cozily, RB), (single, JJ), (practical, JJ), ...

在长:

首先，您可以将 Text 列提取到字符串列表中:

texts = df['Text'].tolist()

然后你可以应用word_tokenize函数:

map(word_tokenize, texts)

请注意，@Boud 的建议几乎相同，使用 df.apply:

df['Text'].apply(word_tokenize)

然后将标记化的文本转储到字符串列表中:

df['Text'].apply(word_tokenize).tolist()

然后你可以使用pos_tag_sents:

pos_tag_sents( df['Text'].apply(word_tokenize).tolist() )

然后将该列添加回 DataFrame:

df['POS'] = pos_tag_sents( df['Text'].apply(word_tokenize).tolist() )

关于python - 如何有效地将 pos_tag_sents() 应用于 pandas 数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41674573/

25

4

0

文章推荐： c# - ASP.NET MVC 是无状态的吗？

文章推荐： c# - 如何在 ASP.NET MVC3 中创建图形？

文章推荐： c# - 组合 Lambda 表达式

文章推荐： c# - Entity Framework 迁移的空引用

r - 确定和分组完全相关的变量(有效地)
我收到未知数据，我想以编程方式查看相关性，并将所有完全相关的变量组合在一起(忽略方向)。在下面的数据集中，我可以手动查看相关性并说 a, f, g, h一起去吧b, d, e .我怎样才能以编程方
有效地 reshape 总结的结果
这个问题在这里已经有了答案: use dplyr's summarise_each to return one row per function? (3 个答案) 关闭 4 年前。作为探索性工作的
c++ - (有效地)动态存储多项式
我想要完成的是使用数组存储未知大小的多项式。我在互联网上看到的是使用一个数组，每个单元格都包含系数，度数是单元格编号，但这不是有效的，因为如果我们有一个多项式，如:6x^14+x+5。这意味着我们将从
java - 一个正则表达式来统治它们(有效地)？
嘿伙计们，我一直在尝试解析 HTML 文件以从中抓取文本，但时不时地，我会得到一些非常奇怪的字符，例如 à€œ。我确定是“智能引号”或弯头标点符号导致了我的所有问题，因此我的临时修复是搜索所有这些字符
r - 如何从访问过的地方列表(有效地)构建边缘列表？
我原来的 data.table 由三列组成。 site、observation_number 和 id。例如以下是 id = z 的所有观察结果 |site|observation_number|i
python - pandas *有效地*按组将有效值复制到其他行
"Premature optimisation is the root of all evil (but it's nice to have once you have an ugly solutio
python - 有效地 reshape 这个数组
给定这个数组 X: [1 2 3 2 3 1 4 5 7 1] 和行长度数组R: [3 2 5] 表示转换后每行的长度。我正在寻找一个计算效率高的函数来将 X reshape 为数组 Y: [[ 1
r - 如何从数据框列表中(有效地)创建箱线图？
我有一些 data.frame s: # Sample data a <- data.frame(c(1:10), c(11:20)) names(a) <- c("A", "B") b <- dat
c++ - 列表如何知道在哪里插入(有效地)但不能进行随机访问？
我有点困惑。列表擅长任意位置插入，但不善于随机访问？ (怎么可能)如果你不能随机访问，你怎么知道在哪里插入？同样，如果你可以在任何位置插入，为什么你不能从那个位置高效地读取？最佳答案如果您已经有
matlab - 我如何(有效地)计算向量的移动平均值？
我有一个向量，我想计算它的移动平均值(使用宽度为 5 的窗口)。例如，如果有问题的向量是[1,2,3,4,5,6,7,8]，那么结果向量的第一个条目应该是 [1,2,3,4,5] 中所有条目的总和
java - 如何从连续运行的随机整数生成器中(有效地)找到整数簇的数量？
有一个随机整数生成器，它生成随机整数并在后台运行。需求设计一个API，调用时返回当时的簇数。簇:簇是连续整数的字典顺序。例如，在这种情况下，10,7,1,2,8,5,9 簇是 3 (1,2--5--
algorithm - 如何在仅使用一次元素对的同时(有效地)生成不相交的集合？
我想做的是将一组 (n) 项分成大小相等的组(大小为 m 的组，并且为简单起见，假设没有剩余，即 n 可以被 m 整除)。这样做多次，我想确保同一组中的任何项目都不会出现两次。为了使这稍微更具体一些
c++ - 我怎样才能*有效地*从嵌套表达式生成所有类型的元组？
假设我有一些包含类型排列的模板表达式，在本例中它们来自 Abstract Syntax Tree : template
python - 有效地 merge python中的两个大字符串
我已经在这方面工作了几天，似乎没有我需要的答案。由于担心这个被标记为重复，我将解释为什么其他问题对我不起作用。使用 DIFFLIB for Python 的任何答案都无助于我的需求。 (我在下面描
python - 有效地 reshape numpy 数组
我正在使用 NumPy 数组。我有一个 2N 长度向量 D，并希望将其一部分 reshape 为 N x N 数组 C. 现在这段代码可以满足我的要求，但对于较大的 N 来说是一个瓶颈: ``` i
python - 有效地 reshape pandas 数据框列中的数组
我有一个问题: 让我们考虑这样的 pandas 数据框: Width Height Bitmap 67 56 59 71 61 73 ...
c - 有效地 "Wrapping"C 中的常量字符串
我目前正在用 C 语言编写一个解析器，设计它时我需要的东西之一是一个可变字符串“类”(一组对表示实例的不透明结构进行操作的函数)，我将其称为 my_string。 string 类的实例只不过是包装
python - 如何(有效地)检查任何两个元素是否相差 10
假设我在 --pandas-- 数据框中有以下列: x 1 589 2 354 3 692 4 474 5 739 6 731 7 259 8 723
c++ - 有效地 const_cast-ing 常量引用参数
我有一个成员函数，它接受另一个对象的常量引用参数。我想 const_cast 这个参数以便在成员函数中轻松使用它。为此，以下哪个代码更好？: void AClass::AMember(const BC
java - 有效地 "modifying"一个 ImmutableMap
我们目前正在将 Guava 用于其不可变集合，但我惊讶地发现他们的 map 没有方法可以轻松创建只需稍作修改的新 map 。最重要的是，他们的构建器不允许为键分配新值或删除键。因此，如果我只想修改一

首页

博学

6Ren·AI

商城

python - 如何有效地将 pos_tag_sents() 应用于 pandas 数据框