python - 数据框 : Cell Level: Convert Comma Separated String to List-6ren

python - 数据框 : Cell Level: Convert Comma Separated String to List

转载作者：行者123 更新时间：2023-12-05 08:19:56

26

4

我有一个 CSV 文件，其中包含有关驾车旅行的信息。

我想处理这些数据，以便每次旅程(每一行)都有一个列表。该列表应包含 journey_code 作为列表中的第一项，然后所有后续 MGRS 单元作为单独的项目。最后，我希望将所有这些旅程列表分组到一个父列表中。

如果我手动执行此操作，它将如下所示:

journeyCodeA = ['journeyCodeA', 'mgrs1', 'mgrs2', 'mgrs3']
journeyCodeB = ['journeyCodeB', 'mgrs2', 'mgrs4', 'mgrs7']
combinedList = [journeyCodeA, journeyCodeB]

这是我到目前为止为每行创建一个列表并组合所需列的方法。

comparison_journey_mgrs = pd.read_csv(r"journey-mgrs.csv", delimiter = ',')
comparison_journey_mgrs['mgrs_grids'] = comparison_journey_mgrs['mgrs_grids'].str.replace(" ","")
comparison_journey_list = []

for index, rows in comparison_route_mgrs.iterrows():
        holding_list = [rows.journey_code, rows.mgrs_grids]
        comparison_journey_list.append(holding_list)

问题在于它将 mgrs_grids 列视为单个字符串。

我的列表是这样的:

[['7211863-140','18TWL927129,18TWL888113,18TWL888113,...,18TWL903128']]

但我希望它看起来像这样:

[['7211863-140','18TWL927129', '18TWL888113', '18TWL888113',..., '18TWL903128']]

我正在努力寻找一种方法来遍历数据帧的每一行，引用 mgrs_grids 列，然后将逗号分隔的字符串就地转换为列表。

感谢您的帮助!

{'driver_code': {0: 7211863, 1: 7211863, 2: 7211863, 3: 7211863},
 'journey_code': {0: '7211863-140',
  1: '7211863-105',
  2: '7211863-50',
  3: '7211863-109'},
 'mgrs_grids': {0: '18TWL927129,18TWL888113,18TWL888113,18TWL887113,18TWL888113,18TWL887113,18TWL887113,18TWL887113,18TWL903128',
  1: '18TWL927129,18TWL939112,18TWL939112,18TWL939113,18TWL939113,18TWL939113,18TWL939113,18TWL939113,18TWL939113,18TWL960111,18TWL960112',
  2: '18TWL927129,18TWL889085,18TWL889085,18TWL888085,18TWL888085,18TWL888085,18TWL888085,18TWL888085,18TWL890085',
  3: '18TWL927129,18TWL952106,18TWL952106,18TWL952106,18TWL952106,18TWL952106,18TWL952106,18TWL952106,18TWL952105,18TWL951103'}}

最佳答案

使用pandas.Series.str.split将字符串拆分为 list。

# use str split on the column
df.mgrs_grids = df.mgrs_grids.str.split(',')

# display(df)
   driver_code journey_code                                                                                                                                       mgrs_grids
0      7211863  7211863-140                            [18TWL927129, 18TWL888113, 18TWL888113, 18TWL887113, 18TWL888113, 18TWL887113, 18TWL887113, 18TWL887113, 18TWL903128]
1      7211863  7211863-105  [18TWL927129, 18TWL939112, 18TWL939112, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL960111, 18TWL960112]
2      7211863   7211863-50                            [18TWL927129, 18TWL889085, 18TWL889085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL890085]
3      7211863  7211863-109               [18TWL927129, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952105, 18TWL951103]

print(type(df.loc[0, 'mgrs_grids']))
[out]:
list

每个值单独一行

在创建一列列表之后。
使用pandas.DataFrame.explode为列表中的每个值创建单独的行。

# get a separate row for each value
df = df.explode('mgrs_grids').reset_index(drop=True)

# display(df.hea())
   driver_code journey_code   mgrs_grids
0      7211863  7211863-140  18TWL927129
1      7211863  7211863-140  18TWL888113
2      7211863  7211863-140  18TWL888113
3      7211863  7211863-140  18TWL887113
4      7211863  7211863-140  18TWL888113

更新

这里是另一种选择，将'journey_code'组合到'mgrs_grids'的前面，然后将字符串拆分成一个列表。
- 此列表分配回 'mgrs_grids'，但也可以分配给新列。

# add the journey code to mgrs_grids and then split
df.mgrs_grids = (df.journey_code + ',' + df.mgrs_grids).str.split(',')

# display(df.head())
   driver_code journey_code                                                                                                                                                    mgrs_grids
0      7211863  7211863-140                            [7211863-140, 18TWL927129, 18TWL888113, 18TWL888113, 18TWL887113, 18TWL888113, 18TWL887113, 18TWL887113, 18TWL887113, 18TWL903128]
1      7211863  7211863-105  [7211863-105, 18TWL927129, 18TWL939112, 18TWL939112, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL939113, 18TWL960111, 18TWL960112]
2      7211863   7211863-50                             [7211863-50, 18TWL927129, 18TWL889085, 18TWL889085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL888085, 18TWL890085]
3      7211863  7211863-109               [7211863-109, 18TWL927129, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952106, 18TWL952105, 18TWL951103]

# output to nested list
df.mgrs_grids.tolist()

[out]:
[['7211863-140', '18TWL927129', '18TWL888113', '18TWL888113', '18TWL887113', '18TWL888113', '18TWL887113', '18TWL887113', '18TWL887113', '18TWL903128'],
 ['7211863-105', '18TWL927129', '18TWL939112', '18TWL939112', '18TWL939113', '18TWL939113', '18TWL939113', '18TWL939113', '18TWL939113', '18TWL939113', '18TWL960111', '18TWL960112'],
 ['7211863-50', '18TWL927129', '18TWL889085', '18TWL889085', '18TWL888085', '18TWL888085', '18TWL888085', '18TWL888085', '18TWL888085', '18TWL890085'],
 ['7211863-109', '18TWL927129', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952106', '18TWL952105', '18TWL951103']]

关于python - 数据框 : Cell Level: Convert Comma Separated String to List，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63982912/

26

4

0

文章推荐： reactjs - 无法为 react 使用历史读取未定义的属性 'push'

文章推荐： typescript - 如何在 Typescript 4 中编写 curry 和 compose？

文章推荐： java - Maven 上未知的生命周期阶段

java - 'level.tick()' 和 'Level.tick(level)' 之间的区别
我是业余时间的 Java 开发者，我只是想知道 level.tick() 和 Level.tick(level) ('Level' 是类的名称，'level' 是该类的对象) 我知道，由于 java
asp.net-mvc - 在 asp.net MVC 中的 Level Views Level 或 Model level 中验证更明智
在 asp.net MVC 中的 Level Views Level 或 Model level 中验证更明智以及有关 MVC 中验证的良好教程的链接？最佳答案验证应始终在可能的情况下在客户端和
随机数发生器 : Class level or Method level?
当使用随机数生成器时，为了使新值具有更大的随机性，这是更好的使用方式: 有没有一种每次都实例化一个新的 RNG 实例然后返回一个值的方法？在类级别有一个 RNG 实例，它在构造函数中实例化一次，并且
oop - 单一责任原则: class level or method level
我在理解“单一责任原则”时遇到问题。应该在类级别或方法级别应用SRP。可以说我有学生类，我需要创建学生，更新学生和删除学生。如果我创建一个具有用于这三个操作的方法的服务类，则会违反SRP原则。最
c++ - 初学者 : Should I start High Level or Low Level?
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
debugging - 在日志记录中，Level.INFO 和 Level.DEBUG 之间的概念差异是什么
这个问题与语言无关。枚举级别之间有什么区别。在应用程序中，我看到许多 INFO 消息对我来说似乎是 DEBUG 信息，反之亦然。最佳答案对此有多种不同的解释。我个人的看法是: 信息 - 与申请状态
haskell FFI : Top-level FunPtr to a top-level function?
似乎最好只为顶级函数创建一次 FunPtr，而不是在需要时创建一个新的函数(同一函数)并处理其释放。除了 foreign import ccall "wrapper" 之外，我是否忽略了获取 Fun
c# - 依赖倒置原则 : High Level and Low Level module example
我正在经历以下 link了解在依赖倒置原则的背景下高级和低级模块的含义。根据那里给出的解释，以下代码片段是一个好的/合适的示例吗？ public class HighLevel { priv
java - App URLRewrite设计方法: rewrite on container level or on app level and why?
我很好奇在 Java 应用程序中执行 URL 重写的最佳方法是什么。假设您有一个名为 test_app 的应用程序，我将其部署在 tomcat 上。通过 URL 重写，我的意思是我不想通过 host
Python low-level vs high-level performance(回文函数运行时分析)
我试图找到最有效的方法来检查给定的字符串是否为回文。首先，我尝试了蛮力，其运行时间为 O(N)。然后我通过只进行 n/2 次比较而不是 n 次来稍微优化代码。代码如下: def palindrom
sql - 如何传递 "select level from dual connect by level < "中的行数？
我有一个包含一些随机自然数的表格，例如: number ------- 2 3 1 我想从这个表中检索一个集合，其中每一行都将包含与值显示的次数一样多的次数，例如上面它将是: number -----
python - 使用 pytest : module level or test level? 导入单元测试资源
我一直在了解测试驱动开发的优势，并尝试使用 pytest 开发我的第一个 TDD 应用程序和 setuptools 开发选项。到目前为止进展顺利。我有一个问题:我的 test_* 模块中应该将要测试
Python 日志记录 : propagate messages of level below current logger level
我想将特定记录器名称、特定级别或更高级别(比如 INFO 及以上)的消息记录到特定的日志处理程序，比如文件处理程序，同时仍然获取所有日志消息到控制台。 Python 是 2.7 版。到目前为止我尝试
javascript - DOM Level 0 事件与 DOM Level 2 事件有什么区别？
DOM Level 0 事件与 DOM Level 2 事件有什么区别？我问是因为有人告诉我 Firefox 和 IE 以不同的顺序调用它们，而我以前从未听过这些术语。最佳答案 DOM Level
python - NLP 任务中的 token-level 和 segment-level 有什么区别？
其实我对token不是很了解..当我阅读 googleresearch/bert model 时，我看到了这些词。 # In the demo, we are doing a simple class
asp.net - 哪个更好 : to sort results at the database level or at the application level
假设我们在站点中有一个页面，它显示了数据库中的一些记录。我们需要显示按某列排序的记录。哪种方法可以提供更好的性能:检索从数据库中排序的数据或在网格上应用排序？谢谢最佳答案这取决于您要显示的数
python - NLP 任务中的 token-level 和 segment-level 有什么区别？
其实我对token不是很了解..当我阅读 googleresearch/bert model 时，我看到了这些词。 # In the demo, we are doing a simple class
CSS 下拉菜单 : Third-level list doesn't hide after leaving through second-level
我有以下 CSS 下拉菜单标记: FieldOne LevelOne FieldTwo LevelOne FieldThree LevelOne
javascript - DOM level 2 相对于 DOM level 0 的优势是什么？
这个问题已经有答案了: What is the difference between DOM Level 0 events vs DOM Level 2 events? (2 个回答) 已关闭 9 年
php - 删除 level 1 array search by value on level 2
如何通过搜索数组(第 2 级)中的重复值来删除一行数组(第 1 级)？ $array = array( 0 => array('name' => 'haha1', 'dateline' => '

首页

博学

6Ren·AI

商城

python - 数据框 : Cell Level: Convert Comma Separated String to List

每个值单独一行

更新