gpt4 book ai didi

python - Pandas - 过滤数据集并组合它们

转载 作者:行者123 更新时间:2023-12-03 16:59:06 29 4
gpt4 key购买 nike

我正在过滤来自澳大利亚 ABS 的血统。
我正在获取如下祖先数据。

allvic_url='ABS_CENSUS2011_T09/TOT+1+2+3+4+Z.TOT+TOTP+1101+1102+6101+3204+2303+2101+5201+2305+2306+3205+3304+7106+2201+3103+6902+4106+3206+3104+1201+1202+3307+3308+2102+3213+7115+9215+3106+4907+5107+2103+OTH+Z.2.SA2..A/all?detail=Full&dimensionAtObservation=AllDimensions'
然后我遇到了使用较新的 2016 数据集显示祖先随时间变化的问题,因为 api 非常困惑......这里 http://stat.data.abs.gov.au/# . (我想尝试展示郊区的人口统计数据是如何变化的)。
我的目标输出是郊区级别的数据框,显示血统随时间的变化。如果 api 可以给我更多的历史数据,那也太棒了。
Suburb  Ancestry Main   Ancestry Secondary  Ancestry increased most Percentage increase 2016-2011   
(即,显示血统平均值是中国人,adn 随时间变化了 x%)。
将不胜感激帮助解决此问题 - 谢谢!

最佳答案

我相信(至少部分)您要问的问题是如何使用正则表达式过滤 Pandas 数据框。对于数据,我使用了您在数组中提供的一些 field 值。对于您的用例,这将按如下方式完成:

from pandas import DataFrame

df_with_venues = DataFrame(
{
"Venue Category": [
"Speakeasy",
"Boutique",
"Peruvian Restaurant",
"Bakery",
"Vietnamese Restaurant",
"Asian Restaurant",
"Hotel",
"Whisky Bar",
"Street Art",
"Italian Restaurant",
"Bookstore",
"French Restaurant",
"Café",
"Sushi Restaurant",
"Australian Restaurant",
"Indian Restaurant",
"Coffee Shop",
"Bar",
"Wine Bar",
"Theater",
"BBQ Joint",
"Burger Joint",
]
}
)

regex_filter_venues = df_with_venues[df_with_venues["Venue Category"].str.match(r".*Restaurant")]
您在问题中指定了您想要餐厅,所以我在此解决方案中提供了这一点,但您应该能够用任何有效的正则表达式替换字符串“.*Restaurant”。如果有人需要,也可以引用,pandas regex 的文档是 here还有一个很棒的教程,介绍了使用 Pandas 正则表达式的不同方式 here

关于python - Pandas - 过滤数据集并组合它们,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63428561/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com