- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有下面的数据框。我想为类别列中的每个值创建一个列(例如:三明治、餐馆...)该列将有 0 或 1 指示记录是否具有该值。这是我可以用 getdummies 做的事情还是有人可以建议其他方法?
代码:
print df1[1:3]
示例数据:
address \
4 4719 N 20Th St
14 9616 E Independence Blvd
attributes business_id \
4 {u'GoodForMeal': {u'dessert': False, u'latenig... duHFBe87uNSXImQmvBh87Q
14 {u'Alcohol': u'full_bar', u'HasTV': True, u'No... SDMRxmcKPNt1AHPBKqO64Q
categories city \
4 [Sandwiches, Restaurants] Phoenix
14 [Burgers, Bars, Restaurants, Sports Bars, Nigh... Matthews
hours is_open latitude \
4 {} 0 33.505928
14 {u'Monday': u'11:00-0:00', u'Tuesday': u'11:00... 1 35.135196
longitude name neighborhood postal_code review_count stars state
4 -112.038847 Blimpie 85016 10 4.5 AZ
14 -80.714683 Applebee's 28105 21 2.0 NC
更新:
testdummies = pd.concat(df1["categories"],pd.get_dummies(df1["categories"]))
testdummies.head()
Error:
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-13-1dae1382c2ba> in <module>()
1 # 13) create dummy variables for Categories
2
----> 3 testdummies = pd.concat(df1["categories"],pd.get_dummies(df1["categories"]))
4 testdummies.head()
/Users/anaconda/lib/python2.7/site-packages/pandas/core/reshape.pyc in get_dummies(data, prefix, prefix_sep, dummy_na, columns, sparse, drop_first)
1102 else:
1103 result = _get_dummies_1d(data, prefix, prefix_sep, dummy_na,
-> 1104 sparse=sparse, drop_first=drop_first)
1105 return result
1106
/Users/anaconda/lib/python2.7/site-packages/pandas/core/reshape.pyc in _get_dummies_1d(data, prefix, prefix_sep, dummy_na, sparse, drop_first)
1109 sparse=False, drop_first=False):
1110 # Series avoids inconsistent NaN handling
-> 1111 codes, levels = _factorize_from_iterable(Series(data))
1112
1113 def get_empty_Frame(data, sparse):
/Users/anaconda/lib/python2.7/site-packages/pandas/core/categorical.pyc in _factorize_from_iterable(values)
2038 codes = values.codes
2039 else:
-> 2040 cat = Categorical(values, ordered=True)
2041 categories = cat.categories
2042 codes = cat.codes
/Users/anaconda/lib/python2.7/site-packages/pandas/core/categorical.pyc in __init__(self, values, categories, ordered, name, fastpath)
288 codes, categories = factorize(values, sort=True)
289 except TypeError:
--> 290 codes, categories = factorize(values, sort=False)
291 if ordered:
292 # raise, as we don't have a sortable data structure and so
/Users/anaconda/lib/python2.7/site-packages/pandas/core/algorithms.pyc in factorize(values, sort, order, na_sentinel, size_hint)
311 table = hash_klass(size_hint or len(vals))
312 uniques = vec_klass()
--> 313 labels = table.get_labels(vals, uniques, 0, na_sentinel, True)
314
315 labels = _ensure_platform_int(labels)
pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_labels (pandas/hashtable.c:15447)()
TypeError: unhashable type: 'list'
更新:
代码:
bus_rev_cat = pd.get_dummies(bus_rev['categories'].apply(pd.Series))
bus_rev2 = pd.concat([bus_rev,bus_rev_cat],axis=1)
print(bus_rev2[1:10])
Sample Data:
user_id business_id stars_x \
1 CxDOIDnH8gp9KXzpBHJYXw XSiqtcVEsP6dLOL7ZA9OxA 4
2 CxDOIDnH8gp9KXzpBHJYXw v95ot_TNwTk1iJ5n56dR0g 3
3 CxDOIDnH8gp9KXzpBHJYXw uloYxyRAMesZzI99mfNInA 2
4 CxDOIDnH8gp9KXzpBHJYXw gtcsOodbmk4E0TulYHnlHA 4
5 CxDOIDnH8gp9KXzpBHJYXw lOd50CiDJeNWmN_KsvR2rg 3
6 CxDOIDnH8gp9KXzpBHJYXw 7hUp4XxmUCGqvPFAM8IJww 3
7 CxDOIDnH8gp9KXzpBHJYXw Ze4VPogvcD7inc3QuvY_yg 2
8 CxDOIDnH8gp9KXzpBHJYXw txAKid34IUd9spo6MLF_Sw 3
9 CxDOIDnH8gp9KXzpBHJYXw oiknQaNH9cGC6UBWC8S_Zg 3
address attributes \
1 522 Yonge Street {u'BusinessParking': {u'garage': False, u'stre...
2 1661 Denison Street {u'BusinessParking': {u'garage': False, u'stre...
3 4101 Rutherford Road {u'BusinessParking': {u'garage': False, u'stre...
4 815 W Bloor Street {u'Alcohol': u'full_bar', u'HasTV': False, u'N...
5 114 Laird Drive {u'GoodForMeal': {u'dessert': False, u'latenig...
6 300 Borough Dr, 215 {u'BusinessParking': {u'garage': False, u'stre...
7 5117 Sheppard Avenue E {u'BusinessParking': {u'garage': False, u'stre...
8 205 Main St {u'BusinessParking': {u'garage': False, u'stre...
9 6347 Yonge Street {u'GoodForMeal': {u'dessert': False, u'latenig...
categories city \
1 [Restaurants, Ramen, Japanese] Toronto
2 [Chinese, Seafood, Restaurants] Markham
3 [Italian, Restaurants] Woodbridge
4 [Food, Coffee & Tea, Sandwiches, Cafes, Cockta... Toronto
5 [Japanese, Sushi Bars, Restaurants] East York
6 [Restaurants, Canadian (New), Steakhouses, Ame... Scarborough
7 [Canadian (New), Restaurants, Breakfast & Brunch] Toronto
8 [Italian, Restaurants, Canadian (New)] Markham
9 [Restaurants, Korean] Toronto
hours is_open latitude \
1 {u'Monday': u'11:00-22:00', u'Tuesday': u'11:0... 1 43.663689
2 {} 0 43.834295
3 {u'Monday': u'12:00-22:00', u'Tuesday': u'12:0... 1 43.823486
4 {u'Monday': u'12:00-2:00', u'Tuesday': u'12:00... 1 43.662726
5 {u'Tuesday': u'17:00-22:00', u'Friday': u'17:0... 0 43.706665
6 {u'Monday': u'11:00-0:00', u'Tuesday': u'11:00... 1 43.776146
7 {u'Monday': u'0:00-0:00', u'Tuesday': u'0:00-0... 1 43.793599
8 {} 1 43.868463
9 {} 0 43.796237
... 6_Pizza 6_Restaurants 7_Bars 7_Canadian (New) 7_French \
1 ... 0 0 0 0 0
2 ... 0 0 0 0 0
3 ... 0 0 0 0 0
4 ... 0 0 1 0 0
5 ... 0 0 0 0 0
6 ... 0 0 0 0 0
7 ... 0 0 0 0 0
8 ... 0 0 0 0 0
9 ... 0 0 0 0 0
7_Restaurants 8_Mediterranean 8_Nightlife 8_Southern 8_Specialty Food
1 0 0 0 0 0
2 0 0 0 0 0
3 0 0 0 0 0
4 0 0 1 0 0
5 0 0 0 0 0
6 0 0 0 0 0
7 0 0 0 0 0
8 0 0 0 0 0
9 0 0 0 0 0
[9 rows x 149 columns]
最佳答案
您可以使用get_dummies
这正是你想要的:
import pandas as pd
df = pd.DataFrame({"Categorical": ["a", "b", "c", "a"]})
df
>>> Categorical
0 a
1 b
2 c
3 a
pd.concat([df, pd.get_dummies(df["Categorical"])], axis=1)
>>> Categorical a b c
0 a 1 0 0
1 b 0 1 0
2 c 0 0 1
3 a 1 0 0
关于python - 为列值创建二进制指示符变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46940960/
我的问题:非常具体。我正在尝试想出解析以下文本的最简单方法: ^^domain=domain_value^^version=version_value^^account_type=account_ty
好吧,这就是我的困境: 我正在为 Reddit 子版 block 开发常见问题解答机器人。我在 bool 逻辑方面遇到了麻烦,需要一双更有经验的眼睛(这是我在 Python 中的第一次冒险)。现在,该
它首先遍历所有 y 值,然后遍历所有 x 值。我需要 X 和 y 同时改变。 For x = 3 To lr + 1 For y = 2 To lr anyl.Cells(x, 1)
假设我有一个包含 2 列的 Excel 表格:单元格 A1 到 A10 中的日期和 B1 到 B10 中的值。 我想对五月日期的所有值求和。我有3种可能性: {=SUM((MONTH(A1:A10)=
如何转换 Z-score来自 Z-distribution (standard normal distribution, Gaussian distribution)到 p-value ?我还没有找到
我正在重写一些 Javascript 代码以在 Excel VBA 中工作。由于在这个网站上搜索,我已经设法翻译了几乎所有的 Javascript 代码!但是,有些代码我无法准确理解它在做什么。这是一
我遇到过包含日期格式的时间戳日期的情况。然后我想构建一个图表,显示“点击”项目的数量“每天”, //array declaration $array1 = array("Date" => 0); $a
我是scala的新手! 我的问题是,是否有包含成员的案例类 myItem:Option[String] 当我构造类时,我需要将字符串内容包装在: Option("some string") 要么 So
我正在用 PHP 创建一个登录系统。我需要用户使用他或她的用户名或电子邮件或电话号码登录然后使用密码。因为我知道在 Java 中我们会像 email==user^ username == user 这
我在 C++ 项目上使用 sqlite,但是当我在具有文本值的列上使用 WHERE 时出现问题 我创建了一个 sqlite 数据库: CREATE TABLE User( id INTEGER
当构造函数是显式时,它不用于隐式转换。在给定的代码片段中,构造函数被标记为 explicit。那为什么在 foo obj1(10.25); 情况下它可以工作,而在 foo obj2=10.25; 情况
我知道这是一个主观问题,所以如果需要关闭它,我深表歉意,但我觉得它经常出现,让我想知道是否普遍偏爱一种形式而不是另一种形式。 显然,最好的答案是“重构代码,这样你就不需要测试是否存在错误”,但有时没有
这两个 jQuery 选择器有什么区别? 以下是来自 w3schools.com 的定义: [attribute~=value] 选择器选择带有特定属性,其值包含特定字符串。 [attribute*=
为什么我们需要CSS [attribute|=value] Selector根本当 CSS3 [attribute*=value] Selector基本上完成相同的事情,浏览器兼容性几乎相似?是否存在
我正在解决 regx 问题。我已经有一个像这样的 regx [0-9]*([.][0-9]{2})。这是 amont 格式验证。现在,通过此验证,我想包括不应提供 0 金额。比如 10 是有效的,但
我正在研究计算机科学 A 考试的样题,但无法弄清楚为什么以下问题的正确答案是正确的。 考虑以下方法。 public static void mystery(List nums) { for (
好的,我正在编写一个 Perl 程序,它有一个我收集的值的哈希值(完全在一个完全独立的程序中)并提供给这个 Perl 脚本。这个散列是 (string,string) 的散列。 我想通过 3 种方式对
我有一个表数据如下,来自不同的表。仅当第三列具有值“债务”并且第一列(日期)具有最大值时,我才想从第四列中获取最大值。最终值基于 MAX(DATE) 而不是 MAX(PRICE)。所以用简单的语言来说
我有一个奇怪的情况,只有错误状态保存到数据库中。当“状态”应该为 true 时,我的查询仍然执行 false。 我有具有此功能的 Controller public function change_a
我有一个交易表(针对所需列进行了简化): id client_id value 1 1 200 2 2 150 3 1
我是一名优秀的程序员,十分优秀!