python - 如何在存在联合条件和两个单独条件的 sframe 中提取行？-6ren

python - 如何在存在联合条件和两个单独条件的 sframe 中提取行？

转载作者：太空宇宙更新时间：2023-11-03 10:58:46

我有这样一个 sframe:

+---------+------+-------------------------------+-----------+------------------+
| term_id | lang |            term_str           | term_type | reliability_code |
+---------+------+-------------------------------+-----------+------------------+
| IATE-14 |  ro  |    Agenție de aprovizionare   |  fullForm |        3         |
| IATE-84 |  bg  | компетенции на държави чле... |  fullForm |        3         |
| IATE-84 |  cs  | příslušnost členských stát... |  fullForm |        3         |
| IATE-84 |  da  |     medlemsstatskompetence    |  fullForm |        3         |
| IATE-84 |  de  | Zuständigkeit der Mitglied... |  fullForm |        3         |
| IATE-84 |  el  | αρμοδιότητα των κρατών μελ... |  fullForm |        3         |
| IATE-84 |  en  | competence of the Member S... |  fullForm |        3         |
| IATE-84 |  es  | competencias de los Estado... |  fullForm |        3         |
| IATE-84 |  et  |     liikmesriikide pädevus    |  fullForm |        3         |
| IATE-84 |  fi  |   jäsenvaltioiden toimivalta  |  fullForm |        3         |
| IATE-84 |  fr  |  compétence des États membres |  fullForm |        3         |
| IATE-84 |  ga  |    inniúlacht na mBallstát    |  fullForm |        3         |
| IATE-84 |  hu  |       tagállami hatáskör      |  fullForm |        3         |
| IATE-84 |  it  | competenza degli Stati membri |  fullForm |        3         |
| IATE-84 |  lt  |  valstybių narių kompetencija |  fullForm |        2         |
| IATE-84 |  lv  |     dalībvalstu kompetence    |  fullForm |        3         |
| IATE-84 |  nl  |  bevoegdheid van de lidstaten |  fullForm |        3         |
| IATE-84 |  pl  | kompetencje państw członko... |  fullForm |        3         |
| IATE-84 |  pt  | competência dos Estados-Me... |  fullForm |        3         |
| IATE-84 |  ro  | competența statelor membre... |  fullForm |        3         |
+---------+------+-------------------------------+-----------+------------------+

我需要提取所有 lang == 'de' 或 lang == 'en' 的行，但我使用 lang == 'en' 提取的行需要有相应的 lang == 'de' 以便它们共享相同的 term_id。

我一直在使用 graphlab 和 sframe 这样做:

sf = gl.SFrame.read_csv('iate.csv', delimiter='\t', quote_char='\0', column_type_hints=[str,str,unicode,str,int])
de = sf[sf['lang'] == 'de']
de_termids = de['term_id']

和de.print_rows(10):

+------------+------+-------------------------------+-----------+------------------+
|  term_id   | lang |            term_str           | term_type | reliability_code |
+------------+------+-------------------------------+-----------+------------------+
|  IATE-84   |  de  | Zuständigkeit der Mitglied... |  fullForm |        3         |
|  IATE-290  |  de  | Schutz der öffentlichen Ge... |  fullForm |        3         |
|  IATE-662  |  de  | mengenmäßigen Ausfuhrbesch... |  fullForm |        3         |
|  IATE-801  |  de  |     Eintragungshindernisse    |  fullForm |        2         |
| IATE-1326  |  de  | Sonderregelung für Reisebü... |  fullForm |        4         |
| IATE-1702  |  de  |          Erwerbslose          |  fullForm |        4         |
| IATE-2818  |  de  |    Verwaltungsvorschriften    |  fullForm |        3         |
| IATE-21139 |  de  |    frisches Obst und Gemüse   |  fullForm |        3         |
| IATE-21563 |  de  | chemische Erzeugnisse zur ... |  fullForm |        3         |
| IATE-21564 |  de  |         Mineralsäuren         |  fullForm |        3         |
+------------+------+-------------------------------+-----------+------------------+

然后:

en = sf[sf['lang'] == 'en']
en.print_rows(10)

[输出]:

+------------+------+-------------------------------+--------------+------------------+
|  term_id   | lang |            term_str           |  term_type   | reliability_code |
+------------+------+-------------------------------+--------------+------------------+
|  IATE-84   |  en  | competence of the Member S... |   fullForm   |        3         |
|  IATE-254  |  en  | award of public works cont... |   fullForm   |        3         |
|  IATE-290  |  en  |    public health protection   |   fullForm   |        3         |
|  IATE-662  |  en  | quantitative restriction o... |   fullForm   |        3         |
|  IATE-801  |  en  |      grounds for refusal      |   fullForm   |        2         |
| IATE-1299  |  en  |              CEP              | abbreviation |        3         |
| IATE-1326  |  en  | special scheme for travel ... |   fullForm   |        3         |
| IATE-2818  |  en  |          regulations          |   fullForm   |        3         |
| IATE-7128  |  en  |          company name         |   fullForm   |        2         |
| IATE-21139 |  en  |  fresh fruits and vegetables  |   fullForm   |        3         |
+------------+------+-------------------------------+--------------+------------------+

我试过:

en_de = en[en['term_id'] in de_termids]

但是我的语法错误，给我这个错误:

---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
<ipython-input-12-9656091794b8> in <module>()
      1 en = sf[sf['lang'] == 'en']
----> 2 en_de = en[en['term_id'] in de_termids]

/usr/local/lib/python2.7/dist-packages/graphlab/data_structures/sarray.pyc in __contains__(self, item)
    691 
    692         """
--> 693         return (self == item).any()
    694 
    695     def contains(self, item):

/usr/local/lib/python2.7/dist-packages/graphlab/data_structures/sarray.pyc in __eq__(self, other)
    973                 return SArray(_proxy = self.__proxy__.vector_operator(other.__proxy__, '=='))
    974             else:
--> 975                 return SArray(_proxy = self.__proxy__.left_scalar_operator(other, '=='))
    976 
    977 

/usr/local/lib/python2.7/dist-packages/graphlab/cython/context.pyc in __exit__(self, exc_type, exc_value, traceback)
     47             if not self.show_cython_trace:
     48                 # To hide cython trace, we re-raise from here
---> 49                 raise exc_type(exc_value)
     50             else:
     51                 # To show the full trace, we do nothing and let exception propagate

RuntimeError: Runtime Exception. Array size mismatch

我应该如何过滤 sframe 以便我得到带有 en 和 de 以及相应的 term_id 的行？

生成的数据框应如下所示:

+---------+-----------------+-------------+
| term_id |     term_str_en | term_str_de | 
+---------+-------------------------------+
| IATE-999 |    something    |  etwas      |
...
+---------+-----------------+-------------+

如何对 pandas 执行相同的操作？

最佳答案

假设您已经有两个数据框，其中包含两种语言的过滤数据:df_en 和 df_de。然后你可以合并它们:

new_df = pd.merge(df_en[['term_id','term_str']], df_de[['term_id','term_str']], how = 'inner', on ='term_id', suffixes = ('_en', '_de'))

inner 方法负责跳过所有不匹配的行。您可以在 pandas docs 中找到更多合并选项和 refs

编辑

没有创建两个数据框的相同结果(df 是包含所有条目的原始数据框，也可能包含其他语言):

new_df = pd.merge(df.loc[df['lang']=='en',['term_id','term_str']], df.loc[df['lang']=='de',['term_id','term_str']], how = 'inner', on ='term_id', suffixes = ('_en', '_de'))

关于python - 如何在存在联合条件和两个单独条件的 sframe 中提取行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36732100/

文章推荐： python - 如何使 Python C 函数调用乘以 2 个 float ？

文章推荐： mysql - 在线商店的数据库

文章推荐： PHP/MYSQL 故障排除我看不出有什么问题

文章推荐： python - 从多索引数据框中删除列

去泛型 - 联合
我正在通过修改我为处理 slice 而创建的库来玩转泛型。我有一个 Difference接受 slice 并返回仅在其中一个 slice 中找到的唯一元素列表的函数。我修改了函数以使用泛型，并且我正
数组和对象类型的 typescript 联合
Typescript 编译器在我尝试使用联合或多个类型/接口(interface)时不断抛出错误。 My requirement 我从服务器收到一个对象作为响应，其中一个键 ('errorMessa
具有不同列数的 SQLAlchemy 联合
我需要在 SQLAlchemy 中执行 2 选择。例如: select1 = Session.query(col1, col2, col3, col4).filter(...) select2 = S
单独列中的 SQL 联合
我建立了一个数据库来输入我所有的头痛和偏头痛跟踪数据。我正在提取一些查询，这些查询显示某一年中按月计算的不同头痛严重程度的计数。我有一个查询按月得到所有头痛，另一个在一定严重程度下得到头痛，最后一个在
sql - 联合、排除或拦截以在选择中使用默认数据？
我有三个表，一个是默认值表。我需要做的是选择 TableA 和 TableB 的值，并从默认值的选择中回填任何缺失的值。每个表都有一个键和值列。数据的一个例子可能是这样的: DefaultTab
多个不同路径的 JSONPath 联合
我正在尝试构建一个单个 JSONPath 查询，它将测试是否存在两个或多个路径。让我们考虑以下示例文档: { "firstName": "John",
基于嵌套对象内部属性的 Typescript 联合
我正在尝试基于对象中的嵌套属性创建联合类型。请参见下面的示例: type Foo = { abilities: { canManage: boolean } } typ
MySQL 联合、连接和限制
我有以下查询: SELECT result.globalId AS id, result.date, p1.playerName AS player, p2.playerName AS targe
MySQL 表合并/联合？
我有两张 table 。第一个每天刷新。(该表有超过 10 列，但其中 2 列是相关的)我想根据 vid (这是一个唯一的 id )和人口进行每日统计。新的视频 ID 每天都会出现和消失。例如: 第一
返回时具有不同列的 MySQL 联合
这个问题已经有答案了: How to know what table a result came from when using UNION in MySQL (1 个回答) 已关闭 6 年前。让我
MySQL 联合/完全外连接未返回预期结果
我有 2 个表，一个列出人员及其与其属性的关系，另一个表列出属性(名字、姓氏等)。人员表中的每个人可能不具有属性表中列出的所有属性。我想要的是每个人都为每个属性返回一行，无论他们是否有链接。举个例
mysql - 联合 - 启用麻烦
假设我们有 MySQL 服务器 A，我们需要在其中创建位于服务器 B 上的表的“副本”。我们没有启用联合。重置服务器 A 会造成很多麻烦，我相信，我们不能在不重置的情况下启用联合。我也认为在B服务器
java - 在方法内部测试方法的最佳方法是什么？ (联合)
我有一个 Java 类 A。A 的构造函数调用了几个方法 m1、m2。 class A{ public A(){ m1(); m2(); ......
algorithm - 范围交集/联合
我正在开发一种编程语言，我想为其提供一个Range 数据类型，目前它不是通常的int 对列表。值 (x,y)约束条件是 x < y .我说不像通常那样，因为通常一个范围只是一对，但在我的例子中，它超过
C# 合并两个排序列表(联合？)
我正在寻找加速一段合并两个 SortedLists 的代码。 C# 4.0 通用 SortedList:http://msdn.microsoft.com/en-us/library/ms132319
javascript - 具有依赖类型的 Typescript 联合
如果我有以下包含函数及其参数的联合，我该如何调用它？ type Wrapper = { fn: (a: string) => void arg: string } | { fn: (a:
delphi - 移植 C 联合
我正在尝试移植一个内部有一个联合的 C 结构。 Winapi.Winsock2.pas 中的默认结构记录中缺少某些字段。但这是正确的方法吗？谢谢。 typedef struct _WSACOMPLE
SQL:排序依据、子字符串、联合
我希望通过“版本”编号的前 8 个字符的子字符串对以下查询的结果进行排序。我理解 SUBSTRING()，所以不要用这个来打扰我。我的问题是尝试实际放置关于 UNION 的 ORDER BY。更新:
symfony - 与 Doctrine 联合
我需要创建一个带有联合的 QueryBuilder，这可能吗？ $qb = $this->em->createQueryBuilder() ->select('table1.numObject
php - 加入、联合、合并？
我正在为 Magic the Gathering Cards 创建库存系统，需要使用主要卡片信息更新价格。我有两个表，卡片和价格卡片有以下列:ID、姓名、Ed、价格价格有以下列:姓名、Ed、价格

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何在存在联合条件和两个单独条件的 sframe 中提取行？