- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Pandas 从 Redshift 读取数据。我有一个 bigint
( int8
) 列以指数形式出现。
我尝试了以下方法,但在这些情况下会截断数据。
该列中数据的样本值为:635284328055690862
.读作 6.352843e+17
.
我试着把它转换成 int64
在 Python 中。
import numpy as np
df["column_name"] = df["column_name"].astype(np.int64)
这种情况下的输出是:
635284328055690880
.在这里我丢失了我的数据,它正在将其缩放到
0
在末尾。
635284328055690862
甚至,如果我这样做,我也会得到相同的结果。
pd.set_option('display.float_format', lambda x: '%.0f' % x)
输出:
635284328055690880
预期输出:
635284328055690862
这似乎是 Pandas 的正常行为。我什至尝试使用列表创建一个 Dataframe 并且仍然得到相同的结果。
import pandas as pd
import numpy as np
pd.set_option('display.float_format', lambda x: '%.0f' % x)
sample_data = [[635284328055690862, 758364950923147626], [np.NaN, np.NaN], [1, 3]]
df = pd.DataFrame(sample_data)
Output:
0 635284328055690880 758364950923147648
1 nan nan
2 1 3
我注意到的是,每当我们有
nan
在数据框中,我们遇到了这个问题。
from sqlalchemy import create_engine
import pandas as pd
connstr = 'redshift+psycopg2://<username>:<password>@<cluster_name>/<db_name>'
engine = create_engine(connstr)
with engine.connect() as conn, conn.begin():
df = pd.read_sql('''select * from schema.table_name''', conn)
print(df)
请帮我解决这个问题。提前致谢。
最佳答案
发生这种情况是因为标准整数数据类型不提供表示缺失数据的方法。由于浮点数据类型确实提供 nan
,处理此问题的旧方法是将缺少数据的数字列转换为 float
.
为了解决这个问题,pandas 引入了 Nullable integer data type .如果您正在做一些简单的事情,例如阅读 csv
,您可以在对 read_csv
的调用中明确指定此类型像这样:
>>> pandas.read_csv('sample.csv', dtype="Int64")
column_a column_b
0 635284328055690880 45564
1 <NA> 45
2 1 <NA>
3 1 5
然而,问题依然存在!似乎即使 635284328055690862 可以表示为 64 位整数,在某些时候,
pandas
仍然通过浮点转换步骤传递该值,从而更改该值。这很奇怪,甚至可能值得向 Pandas 开发人员提出一个问题。
>>> pandas.read_csv('sample.csv', dtype="object")
column_a column_b
0 635284328055690862 45564
1 NaN 45
2 1 NaN
3 1 5
这保留了大整数的确切值,并且还允许
NaN
值。但是,由于这些现在是 Python 对象的数组,因此计算密集型任务的性能会受到显着影响。此外,经过仔细检查,这些似乎是 Python
str
对象,所以我们还需要另一个转换步骤。令我惊讶的是,没有直接的方法。这是我能做的最好的事情:
def col_to_intNA(col):
return {ix: pandas.NA if pandas.isnull(v) else int(v)
for ix, v in col.to_dict().items()}
sample = {col: col_to_intNA(sample[col])
for col in sample.columns}
sample = pandas.DataFrame(sample, dtype="Int64")
这给出了所需的结果:
>>> sample
column_a column_b
0 635284328055690862 45564
1 <NA> 45
2 1 <NA>
3 1 5
>>> sample.dtypes
column_a Int64
column_b Int64
dtype: object
这样就解决了一个问题。但是出现了第二个问题,因为要从 Redshift 数据库中读取数据,您通常会使用
read_sql
,它不提供任何指定数据类型的方法。
pandas_redshift
的一些代码。
library .它使用
psycopg2
直接,而不是使用
sqlalchemy
,因为我不确定
sqlalchemy
提供
cursor_factory
接受
RealDictCursor
的参数.
警告:我根本没有测试过这个,因为我懒得设置 postgres 数据库只是为了测试 StackOverflow 答案!我认为它应该有效,但我不确定。请让我知道它是否有效和/或需要纠正什么。
import psycopg2
from psycopg2.extras import RealDictCursor # Turn rows into proper dicts.
import pandas
def row_null_to_NA(row):
return {col: pandas.NA if pandas.isnull(val) else val
for col, val in row.items()}
connstr = 'redshift+psycopg2://<username>:<password>@<cluster_name>/<db_name>'
try: # `with conn:` only closes the transaction, not the connection
conn = psycopg2.connect(connstr, cursor_factory=RealDictCursor)
cursor = conn.cursor()
cursor.execute('''select * from schema.table_name''')
# The DataFrame constructor accepts generators of dictionary rows.
df = pandas.DataFrame(
(row_null_to_NA(row) for row in cursor.fetchall()),
dtype="Int64"
)
finally:
conn.close()
print(df)
请注意,这假定您的所有列都是整数列。如果没有,您可能需要逐列加载数据。
关于python - 使用 Pandas 从 Redshift 读取 bigint (int8) 列数据,无需科学记数法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63920186/
我正在尝试使用 y 组合器在 Scala 中定义 gcd: object Main { def y[A,B]( f : (A => B) => A => B ) : A => B = f(y(f)
我正在尝试了解返回指向函数的指针的函数,在我尝试编译代码后,它给了我这种错误: cannot convert int (*(int))(int) to int (*(int))(int) in ass
所以我一直在关注 youtube 上的游戏编程教程,然后弹出了这段代码:bufferedImageObject.getRGB(int, int, int, int, int[], int, int);
我正在将时间现在 与存储在数据库某处的时间进行比较。数据库中存储的时间格式为“yyyyMMddHHmmss”。例如,数据库可能会为存储的时间值返回 201106203354。然后我使用一个函数将时间现
例如 Maze0.bmp (0,0) (319,239) 65 120 Maze0.bmp (0,0) (319,239) 65 120 (254,243,90) Maze0.bmp (0,0) (
评论 Steve Yegge的post关于 server-side Javascript开始讨论语言中类型系统的优点和这个 comment描述: ... examples from H-M style
我正在研究 C 的指针,从 Deitel 的书中我不明白 int(*function)(int,int) 和 int*function(int, int) 表示函数时。 最佳答案 C 中读取类型的经验
您好,我使用 weblogic 11g 创建 war 应用程序,我对 joda time 的方法有疑问 new DateTime(int, int, int, int, int, int); 这抛出了
Create a method called average that calculates the average of the numbers passed as parameters. The
var a11: Int = 0 var a12: Int = 0 var a21: Int = 0 var a22: Int = 0 var valueDeterminant = a11 * a12
我正在为一个项目设置 LED 阵列。我得到了一个 LED 阵列,可以根据引脚变化电压进行更改,但我无法添加更多引脚。 当我尝试时,编译失败并显示错误:函数“int getMode(int, int,
除了创建对列表执行简单操作的函数之外,我对 haskell 还是很陌生。我想创建一个列表,其中包含 Int 类型的内容, 和 Int -> Int -> Int 类型的函数. 这是我尝试过的: dat
这个问题已经有答案了: Java add buttons dynamically as an array [duplicate] (4 个回答) 已关闭 7 年前。 StackOverFlow问题今天
我有几个 EditText View ,我想在其中设置左侧的图像,而 setCompoundDrawablesWithIntrinsicBounds 似乎不起作用。图形似乎没有改变。 有人知道为什么会
#include using namespace std; int main() { static_assert(is_constructible, int(*)(int,int)>::val
fun sum(a: Int, b: Int) = a + b val x = 1.to(2) 我在找: sum.tupled(x),或者 sum(*x) 当然,以上都不能用 Kotlin 1.1.3
有一个函数: func (first: Int) -> Int -> Bool -> String { return ? } 返回值怎么写?我对上面 func 的返回类型感到很困惑。 最
type foo = A of int * int | B of (int * int) int * int 和 (int * int) 有什么区别?我看到的唯一区别在于模式匹配: let test_
我正在尝试制作一个 slider 游戏。在这个类中,我使用 Graphics 对象 g2 的 drawImage 方法来显示“拼图”的 block 。但在绘制类方法中,我收到此错误:找不到符号方法dr
我试着理解这个表达: static Func isOdd = i => (i & 1) == 1; 但是这是什么意思呢? 例如我有 i = 3。然后 (3 & 1) == 1 或 i = 4。然后
我是一名优秀的程序员,十分优秀!