python - 使用 Pandas 基于正则表达式分离列数据-6ren

python - 使用 Pandas 基于正则表达式分离列数据

转载作者：行者123 更新时间：2023-12-04 01:04:03

25

4

我有一个如下所示的数据框

df = pd.DataFrame({'val': ['>1234','<>','<1000','<test','31sadj',123,43.21]})

我想创建 3 个新列

val_num - 将仅存储带有符号的数字值，例如:1234(来自 >1234)和 1000(来自 <1000)但不会存储 31(来自 31sadj)，因为它没有任何符号

val_str - 将只存储 NUMBER 的混合值, symbols , ALPHABETS或者只是简单的字母表，例如:31sadj。它可以有任何符号，除了 > , < , =

val_symbol - 将仅存储 3 个符号，如 > , < , =

我试过下面的但它不准确

df['val_SYMBOL'] = df['val'].str.extract(r'([<>=]+)').fillna('=')
df['val_num'] = df['val'].str.extract(r'([0-9]+)')
df['val_str'] = df['val'].str.extract(r'([a-zA-Z0-9\s-]+)')

我希望我的输出如下所示

最佳答案

你可以使用

df['val_SYMBOL'] = df['val'].astype(str).str.extract(r'([<>=]+)').fillna('=')
df['val_num'] = df['val'].astype(str).str.extract(r'\b(\d+(?:\.\d+)?)\b')
df['val_str'] = df['val'].astype(str).str.extract(r'([^<>=]*[a-zA-Z][^<>=]*)')

您想处理混合数据类型的列，因此第一个操作是使用 astype(str) 将数据转换为字符串.

val_num列填充了 \b(\d+(?:\.\d+)?)\b匹配，整数或 float 作为整个单词匹配(\b 代表单词边界)。

val_str列填充了 ([^<>=]*[a-zA-Z][^<>=]*)匹配，搜索除 < 以外的零个或多个字符, >和 = , 然后是一个字母，然后是 < 以外的零个或多个字符, >和 = .

我得到的输出:

>>> df
      val val_SYMBOL val_num val_str
0   >1234          >    1234     NaN
1      <>         <>     NaN     NaN
2   <1000          <    1000     NaN
3   <test          <     NaN    test
4  31sadj          =     NaN  31sadj
5     123          =     123     NaN
6   43.21          =   43.21     NaN

关于python - 使用 Pandas 基于正则表达式分离列数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67090684/

25

4

0

文章推荐： ruby-on-rails - 如何创建一个网络服务

文章推荐： javascript - Flexbox Justify Content Space 元素之间的分布不均匀

jpa - 同一实体的多个表示正在合并、分离
我在尝试使用 jpa2.0 将包含持久实体和分离实体(新创建的实体)的实体列表更新到我的数据库中时遇到错误。我的实体包含在合并数据时出现错误(在标题中提到)的内部实体: Class supercla
java - 分离 JLayeredPane
我在分层 Pane 中有一组面板。我需要一个分隔符来将 sideBar 与 topBar 和 tabbedPanel 分开。我留了一个 10 像素的缓冲区来放置它。不幸的是，可能由于它是 JLayer
android - 分离 EditText
在我从数据库中读取的代码中，我还使用自定义适配器打印出每一行，该行中有一个 texttview、2 个按钮和一个 edittext。这一切都很好，但是当按下按钮时，edittext 会递增或递减，有没
java - 分离/逐出具有非持久化子对象的对象树
我有一个由 Hibernate 4.3.4 管理的实体，它有一个其他实体的一对多集合。在我的处理过程中，我必须分离父实体(将分离级联到子列表)。但是，当我向列表中添加一个尚未持久化的新项目并执行分离
javascript - 确保附加行始终是动态创建的行组成的表中的最后一行。。分离()
我想追加一行，该行应该是表格的最后一行。在我的代码中，它似乎在第一次动态添加行时起作用。但是当添加其他行时它不会成为最后一行。我总是希望“subtot”行成为最后一行，但是当我追加其他行时，它不
html - 分离 Div
我试图用它们之间的空格分隔这 2 个 div(请参见图 1)。问题是当我添加边距或填充时会发生这种情况(请参见图 2)。这是我的代码，请注意我没有使用 Bootstrap: .row { mar
c# - 如何检测远程参与者断开连接(分离)？
我的服务器包含一些 ServerActor。该 actor 接收 RegisterClient 消息并将 ActorRefs 添加到已注册客户端列表中。我还有多个客户端，每个客户端都包含 Clien
Clojure:分离 comp 和部分参数
假设我有一个需要两个参数的函数，并且参数的顺序会影响结果。是否可以将第一个参数传递给 partial 或 comp 函数，然后将另一个参数传递给它，如下所示: (defn bar [arg1 arg
clojure - 分离 map 的多个后代键？
如何搜索和分离多个后代键。例子: (def d {:foo 123 :bar { :baz 456 :bam { :w
scala - Slick:动态创建查询连接/分离
我正在尝试为 Slick 表创建一个类型安全的动态 DSL，但不确定如何实现这一点。用户可以通过以 form/json 格式发送过滤器来将过滤器发布到服务器，我需要使用所有这些来构建一个 Slick
Reactjs 分离 UI 和业务逻辑
我是新来的，我发现看到充满大量函数和变量初始化以及 UI 的组件时眼睛很痛。是否可以将它们分开？而不是默认设置，如下所示。如何将业务逻辑分离到另一个文件中？ function MyComponent
r - 传递一个字符 arg。分离
我试图通过将参数粘贴在一起来使用分离。这应该是一件容易的工作，但不适合我。当我想到使用 eval(parse()) 时，我知道是时候寻求帮助了通常，如果我加载一个包，我可以按如下方式分离它: det
clojure - 与 pred 分离
(dissoc :a m)允许我解除给定的键。但是，有没有办法使用谓词函数来分离 pred 为真的任何键？ (dissoc-with-pred pred? m) 所以给了一张 map - {:a 2
r - 分离 R 包以升级它的可靠过程是什么？
我编写了一个使用 devtools 来包含内部数据的包: devtools::use_data(.data, internal = T, overwrite = T) 我最近更改了该数据并重建了包。我
terminal - 运行脚本时 tmux 分离
所以我有一个脚本，我想在我的服务器上运行它而不会打扰我。所以我想我会在 tmux 窗口中运行服务器，然后 detach这样我就可以简单地 attach如果我想查看进度(此脚本需要数天才能运行)。但是
javascript - 分离 ThreeJS 模型和动画数据
ThreeJS中动画数据和模型数据是否可以解耦？这样就可以交换模型并保留动画？我认为这可能非常强大我知道如何在 ThreeJS 中做到这一点的方法是将每个动画一个接一个地打包在一个模型中，这似乎是
docker - 分离 Docker 文件和应用程序源文件以优化生产环境
我有一堆(Ruby)脚本存储在服务器上。到目前为止，我的团队通过打开一个启动脚本名称列表的访问器应用程序来使用它们，然后他们在工作文件夹中的文件上选择要在该实例中运行的脚本。脚本直接从服务器运行，因此
javascript - 分离 Javascript 函数
我想知道 javascript 如何包含在 jsp 中 - 我们是否可以在 .js 文件中放置 jsp 能够识别的任何代码，而不仅仅是 javascript 代码？我有一些常见的 JavaScrip
默认为后台运行的 Dockerfile 选项(分离)
您是否可以在 Dockerfile 中指定一个选项，默认使用它构建的容器以分离方式运行。这将导致与 -d 相同的结果: docker run -d 这样 docker run 默认情况下会分离运
Java:分离 JAR 版本
我正在为现有的 Java 程序开发 Java 插件。现有程序使用特定版本的 eclipse.uml2.*，我的插件也是如此。不幸的是，我的插件需要更新版本。为了运行该插件，我需要将其导出到 Jar

首页

博学

6Ren·AI

商城

python - 使用 Pandas 基于正则表达式分离列数据