Вопросы
Получить все ключи из объекта GroupBy в Pandas
Я ищу способ получить список всех ключей в объекте GroupBy, но не могу найти такую функцию в документации и через Google.
Определенно есть способ получить доступ к группам по их ключам, например, вот так:
df_gb = df.groupby(['EmployeeNumber'])
df_gb.get_group(key)
...поэтому я...
Как удалить или скрыть метки по оси X на графике
У меня есть график с помощью boxplot, и мне нужно удалить метки по оси x (то есть 'user_type' и 'member_gender'). Как это сделать в приведенном ниже коде?
sb.boxplot(x="user_type", y="Seconds", data=df, color=default_color, ax=ax[0,0], sym='').set_title('User-Type (0=Non-Subscriber,...
Как исправить ошибку IndexError: недопустимый индекс для скалярной переменной
Вопрос на StackOverflow:
Я сталкиваюсь с ошибкой при выполнении следующего кода:
IndexError: invalid index to scalar variable.
Ошибка возникает на строке:
results.append(RMSPE(np.expm1(y_train[testcv]), [y[1] for y in y_test]))
Вот полный код:
import...
Как считать файл с разделителем в виде точки с запятой в pandas?
Я пытаюсь импортировать файл .csv в Python с помощью библиотеки pandas.
Вот формат файла из .csv:
a1;b1;c1;d1;e1;...
a2;b2;c2;d2;e2;...
.....
Вот как я его загружаю:
from pandas import * csv_path = "C:...." data = read_csv(csv_path)
Однако, когда я пытаюсь распечатать содержимое файла, я...
Итерация по DataFrame в pandas с использованием itertuples
Я перебираю DataFrame в pandas, используя метод itertuples()
, и хотел бы захватить номера строк во время итерации. Вот мой текущий код:
for row in df.itertuples():
print(row['name'])
Ожидаемый вывод:
1 larry
2 barry
3 michael
Где 1, 2, 3 — это номера строк. Я бы...
Преобразование pandas.Series из типа object в float с заменой ошибок на NaN
Описание проблемы:
Я столкнулся с проблемой при работе с библиотекой pandas в Python. У меня есть следующий код:
In [2]: a = pd.Series([1, 2, 3, 4, '.'])
In [3]: a
Out[3]:
0 1
1 2
2 3
3 4
4 .
dtype: object
Я пытаюсь преобразовать элементы серии a
в тип...
Pandas groupby с подсчетом по бинам
У меня есть DataFrame, который выглядит следующим образом:
+----------+---------+-------+
| username | post_id | views |
+----------+---------+-------+
| john | 1 | 3 |
| john | 2 | 23 |
| john | 3 | 44 |
| john | 4 | 82 |
| jane | ...
Различие между типами str и object в Pandas
Я столкнулся с проблемой различия типов в Numpy и Pandas. В Numpy четко разграничиваются типы str
и object
. Например, при выполнении следующих команд:
import pandas as pd
import numpy as np
np.dtype(str) # dtype('S')
np.dtype(object) # dtype('O')
мы видим, что dtype('S')
...
Добавление пустой строки в DataFrame с помощью pandas
Я пытаюсь добавить пустую строку в конец DataFrame, но у меня не получается. Я пытаюсь разобраться, как работает функция append
в pandas, и всё равно не понимаю.
Вот мой код:
import pandas as pd
excel_names = ["ARMANI+EMPORIO+AR0143-book.xlsx"]
excels = [pd.ExcelFile(name) for name...
Провести расчет нового столбца как среднее значение других столбцов в pandas
Описание проблемы:
Я работаю с датафреймом в pandas и хочу добавить новый столбец, который будет содержать среднее значение по столбцам salary_1
, salary_2
и salary_3
. У меня есть следующий датафрейм:
df = pd.DataFrame({
'salary_1': [230, 345, 222],
'salary_2': [235,...
Построение гистограммы на логарифмической шкале с помощью Matplotlib
Я работаю с DataFrame в Pandas и у меня есть следующая последовательность значений в серии:
x = [2, 1, 76, 140, 286, 267, 60, 271, 5, 13, 9, 76, 77, 6, 2, 27, 22, 1, 12, 7, 19, 81, 11, 173, 13, 7, 16, 19, 23, 197, 167, 1]
Мне было указано построить два гистограммы в Jupyter Notebook...
Pandas: Многоуровневые названия столбцов
Проблема с добавлением многоуровневых имен столбцов в pandas
Я использую библиотеку pandas, которая поддерживает многоуровневые имена столбцов. Например, я создаю DataFrame следующим образом:
x = pd.DataFrame({'instance':['first','first','first'],'foo':['a','b','c'],'bar':rand(3)})
x =...
Pandas: Количество месяцев между двумя датами
У меня возникла проблема, которая, как я думал, должна быть простой, но то, что я видел, представляет собой техники, которые требуют итерации по полям дат в dataframe, чтобы определить разницу между двумя датами. Я с этим испытываю трудности. Я знаком с функцией DATEDIFF в MSSQL, и думал, что в...
Предупреждение Pandas о повторяющихся записях в индексе при сводной таблице
Я столкнулся с проблемой при использовании метода pivot
в библиотеке Pandas. В документации к этому методу приведено следующее описание:
Examples
--------
>>> df
foo bar baz
0 one A 1.
1 one B 2.
2 one C 3.
3 two A 4.
4 two B 5.
5 two C ...
Заменить строку/значение в DataFrame целиком
У меня есть очень большой набор данных, в котором я хочу заменить строки на числа. Я бы хотел работать с набором данных, не вводя функцию отображения для каждого ключа (столбца) в наборе. Это похоже на метод fillna, но нужно заменить конкретные строки на соответствующие значения.
Есть ли способ...
Pandas: Одновременное присвоение нескольких *новых* столбцов
У меня есть DataFrame df
, содержащий столбец с метками для каждой строки (в дополнение к некоторым соответствующим данным для каждой строки). У меня есть словарь labeldict
, у которого ключи соответствуют возможным меткам, а значения представляют собой 2-кортежи информации, связанной с этой...
Создание пустого MultiIndex
Я хотел бы создать пустой DataFrame с MultiIndex перед тем, как добавить в него строки. Я обнаружил, что пустые DataFrame не поддерживают назначение MultiIndex на лету, поэтому я устанавливаю имена для MultiIndex во время создания. Однако я не хочу задавать уровни, так как это будет...
Pandas read_csv: Опции low_memory и dtype
Я получаю предупреждение при загрузке CSV-файла с помощью pandas:
df = pd.read_csv('somefile.csv')
Сообщение об ошибке следующее:
.../site-packages/pandas/io/parsers.py:1130:
DtypeWarning: Columns (4,5,7,16) have mixed types. Specify dtype option on import or set...
Как сбросить индекс в DataFrame pandas?
У меня есть DataFrame, из которого я удалил некоторые строки. В результате я получил DataFrame с индексом, который выглядит как [1,5,6,10,11], и мне нужно сбросить его до [0,1,2,3,4]. Как я могу это сделать?
Похоже, что следующее решение работает:
df = df.reset_index()
del...
Выбор строки из pandas Series/DataFrame по целочисленному индексу
Я столкнулся с проблемой при работе с DataFrame в Pandas. Меня интересует, почему df[2]
не поддерживается, тогда как df.ix[2]
и df[2:3]
работают корректно.
Вот пример работы с DataFrame:
In [26]: df.ix[2]
Out[26]:
A 1.027680
B 1.514210
C -1.466963
D -0.162339
Name:...