python - 接收索引错误 : string index out of range when using apply-6ren

python - 接收索引错误 : string index out of range when using apply

转载作者：太空宇宙更新时间：2023-11-03 12:56:51

25

4

我想通过

从数据框中挑选最常用的名词

从我的数据的每一行中分离出名词。
为它们存储一个名为 train['token'] 的新列

为此，我将我的函数传递给应用函数，但我收到此错误

IndexError:字符串索引超出范围

这是我的代码

import pandas as pd
import numpy as np
import nltk

train= pd.read_csv(r'C:\Users\JKC\Downloads\classification_train.csv',names=['product_title','brand_id','category_id'])

train['product_title'] = train['product_title'].apply(lambda x: x.lower())

def preprocessing(x):
    tokens = nltk.pos_tag(x.split(" "))
    list=[]
    for y,x in tokens:
        if(x=="NN" or x=="NNS" or x=="NNP" or x=="NNPS"):
            list.append(y)
    return(' '.join(list))
# My function works fine if I use preprocessing(train['product_title'][1])    



train['token'] = train['product_title'].apply(preprocessing,1)

回溯:

IndexError                                Traceback (most recent call last)
<ipython-input-53-f9f247eec617> in <module>()
     10 
     11 
---> 12 train['token'] = train['product_title'].apply(preprocessing,1)
     13 

C:\Users\JKC\Anaconda3\lib\site-packages\pandas\core\series.py in apply(self, func, convert_dtype, args, **kwds)
   2235             values = lib.map_infer(values, boxer)
   2236 
-> 2237         mapped = lib.map_infer(values, f, convert=convert_dtype)
   2238         if len(mapped) and isinstance(mapped[0], Series):
   2239             from pandas.core.frame import DataFrame

pandas\src\inference.pyx in pandas.lib.map_infer (pandas\lib.c:63043)()

<ipython-input-53-f9f247eec617> in preprocessing(x)
      1 def preprocessing(x):
----> 2         tokens = nltk.pos_tag(x.split(" "))
      3         list=[]
      4         for y,x in tokens:
      5                 if(x=="NN" or x=="NNS" or x=="NNP" or x=="NNPS"):

C:\Users\JKC\Anaconda3\lib\site-packages\nltk\tag\__init__.py in pos_tag(tokens, tagset)
    109     """
    110     tagger = PerceptronTagger()
--> 111     return _pos_tag(tokens, tagset, tagger)
    112 
    113 

C:\Users\JKC\Anaconda3\lib\site-packages\nltk\tag\__init__.py in _pos_tag(tokens, tagset, tagger)
     80 
     81 def _pos_tag(tokens, tagset, tagger):
---> 82     tagged_tokens = tagger.tag(tokens)
     83     if tagset:
     84         tagged_tokens = [(token, map_tag('en-ptb', tagset, tag)) for (token, tag) in tagged_tokens]

C:\Users\JKC\Anaconda3\lib\site-packages\nltk\tag\perceptron.py in tag(self, tokens)
    150         output = []
    151 
--> 152         context = self.START + [self.normalize(w) for w in tokens] + self.END
    153         for i, word in enumerate(tokens):
    154             tag = self.tagdict.get(word)

C:\Users\JKC\Anaconda3\lib\site-packages\nltk\tag\perceptron.py in <listcomp>(.0)
    150         output = []
    151 
--> 152         context = self.START + [self.normalize(w) for w in tokens] + self.END
    153         for i, word in enumerate(tokens):
    154             tag = self.tagdict.get(word)

C:\Users\JKC\Anaconda3\lib\site-packages\nltk\tag\perceptron.py in normalize(self, word)
    224         elif word.isdigit() and len(word) == 4:
    225             return '!YEAR'
--> 226         elif word[0].isdigit():
    227             return '!DIGITS'
    228         else:

IndexError: string index out of range

Data:
                                           product_title brand_id category_id
    0  120gb hard disk drive with 3 years warranty fo...     3950           8
    1  toshiba satellite l305-s5919 laptop lcd screen...    35099         324
    2  hobby-ace pixhawk px4 rgb external led indicat...    21822         510
    3                                  pelicans mousepad    44629         260
    4    p4648-60029 hewlett-packard tc2100 system board    42835          68

我的数据中没有空行:

train.isnull().sum()
Out[12]: 
product_title    0
brand_id         0
category_id      0
dtype: int64

最佳答案

您的输入在某些地方包含两个或多个连续空格。当您使用 x.split("") 拆分它时，您会在相邻空格之间获得零长度的“单词”。

通过使用 x.split() 拆分来修复它，它将任何连续的空白字符视为标记分隔符。

关于python - 接收索引错误 : string index out of range when using apply，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38420922/

25

4

0

文章推荐： python - 在 conda 环境中使用 pdb 进行调试

文章推荐： python - Pandas pd.isnull() 函数

文章推荐： java - 从 Bitmap 类创建 .bmp 图像文件

文章推荐： c# - .NET Native 编译器不断抛出编译错误

java - 为什么 `index = index++` 不增加 `index` ？
这个问题已经有答案了: 已关闭14 年前。 ** 重复:What's the difference between X = X++; vs X++;? ** 所以，即使我知道你永远不会在代码中真正做到
c - 这条语句背后的逻辑是什么: for (--index; index >= 0; --index)?
我在一本C语言的书上找到了这个例子。此代码转换输入数字基数并将其存储在数组中。 #include int main(void) { const char base_digits[16] =
flutter - 未处理的异常 : RangeError (index): Index out of range: index should be less than
尝试使用“pdf_dart”库保存 pdf 时遇到问题。我认为问题与我从互联网下载以尝试附加到 pdf 的图像有关，但我不确定它是什么。代码 import 'dart:io'; import 'p
linux - 访问某些 index.php 或 index.html 时出现 Apache 403 错误，尽管每个 index.php 或 index.html 具有相似的权限
我的 Apache 服务器曾经可以正常工作，但它随机开始对几乎每个目录发出 403 错误。两个目录仍然有效，我怎样才能使/srv/www/htdocs 中的所有目录正常工作？我查看了两个可用目录的权
PHP 数组索引 : $array[$index] vs $array ["$index"] vs $array ["{$index}"]
这些索引到 PHP 数组的方法之间有什么区别(如果有的话): $array[$index] $array["$index"] $array["{$index}"] 我对性能和功能上的差异都感兴趣。更
indexing - 实现 Index 特征以返回一个不是引用的值
我有一个简单的结构，我想为其实现 Index，但作为 Rust 的新手，我在借用检查器方面遇到了很多麻烦。我的结构非常简单，我想让它存储一个开始值和步长值，然后当被 usize 索引时它应该返回 st
indexing - marklogic 中的 element-range-index 和 field-range-index 有什么区别？
我对 MarkLogic 中的 element-range-index 和 field-range-index 感到困惑。请借助示例来解释差异。最佳答案这两个都是标量索引:特定类型的基于值的排序
indexing - marklogic 中的 element-range-index 和 field-range-index 有什么区别？
我对 MarkLogic 中的 element-range-index 和 field-range-index 感到困惑。请借助示例来解释差异。最佳答案这两个都是标量索引:特定类型的基于值的排序
python - Pandas .at 抛出 ValueError : At based indexing on an integer index can only have integer indexers
所以我有一个 df，我在其中提取一个值以将其存储在另一个 df 中: import pandas as pd # Create data set d = {'foo':[100, 111, 222],
php - ci : google indexing address with index. php 但站点中没有与 index.php 的链接
我有一个由 codeigniter 编写的网站，我已经通过 htaccess 从地址中删除了 index.php RewriteCond $1 !^(index\.php|resources|robo
sql - MySQL: `... ADD INDEX(a); ... ADD INDEX(b);` 和 `... ADD INDEX(a,b);` 之间的区别？
谁能告诉我这两者有什么区别: ALTER TABLE x1 ADD INDEX(a); ALTER TABLE x1 ADD INDEX(b); 和 ALTER TABLE x1 ADD INDEX(
javascript - Firefox 上的嵌套 z-index 问题，较高的 z-index 落后于较低的 z-index
我在 Firefox 和其他浏览器上遇到嵌套 z-index 的问题，我有一个 div，z-index 为 30000，位于 label 下方> zindex 为 9000。我认为这是由 z-inde
c++ - 如果 index == 0，为什么 v [index] < v [index - 1] 返回 true？
Link to the function image编写了一个函数来查找中枢元素(起始/最低)的索引排序和旋转数组。我解决了这个问题并正在检查边缘情况，它甚至适用于索引为零的情况。任何人都可以解
python - 类型错误 : cannot perform __sub__ with this index type:
我正在尝试运行有关成人人口普查数据的示例代码。当我运行这段代码时: X_train, X_test, y_train, y_test = cross_validation.train_test_spl
apache - 如何 htaccess 将 index.html 重定向到 index.php 并将 index.php 重定向到/
我最近将我的 index.html 更改为 index.php - 我希望能够进行重定向以反射(reflect)这一点，然后还进行重写以强制 foo.com/index.php 成为 foo.com/
apache - 如何 htaccess 将 index.html 重定向到 index.php 并将 index.php 重定向到/
我最近将我的 index.html 更改为 index.php - 我希望能够进行重定向以反射(reflect)这一点，然后还进行重写以强制 foo.com/index.php 成为 foo.com/
python - <类 'pandas.indexes.numeric.Int64Index'> 的类型错误 : cannot do slice indexing on with these indexers [(2, )]
我有一个用户定义的函数，如下所示:- def genre(option,option_type,*limit): option_based = rank_data.loc[rank_data[
python - 减去索引 - TypeError : cannot perform __sub__ with this index type:
我有两个巨大的数据框我正在合并它们，但我不想有重复的列，因此我通过减去它们来选择列: cols_to_use=df_fin.columns-df_peers.columns.difference(['
javascript - 如何在 React Native 中使用 index.js 而不是 (index.ios.js, index.android.js) 进行跨平台应用程序？
感谢您从现在开始的回答，我是React Native的新手，我想做一个跨平台的应用所以我创建了index.js: import React from 'react'; import { Co
indexing - Field.Index.NOT_ANALYZED_NO_NORMS 是什么意思
我知道 not_analyzed 是什么意思。简而言之，该字段不会被指定的分析器标记化。然而，什么是 NO_NORMS 方法？我看到了文档，但请用简单的英语解释我。什么是索引时间字段和文档提升和字段

首页

博学

6Ren·AI

商城

python - 接收索引错误 : string index out of range when using apply