pandas ×70
Создан 03.01.2025
0
голоса
3
ответов
15
просмотров
Получить все ключи из объекта GroupBy в Pandas

Я ищу способ получить список всех ключей в объекте GroupBy, но не могу найти такую функцию в документации и через Google.

Определенно есть способ получить доступ к группам по их ключам, например, вот так:

df_gb = df.groupby(['EmployeeNumber'])
df_gb.get_group(key)

...поэтому я...

0
голоса
0
ответов
13
просмотров
Как удалить или скрыть метки по оси X на графике

У меня есть график с помощью boxplot, и мне нужно удалить метки по оси x (то есть 'user_type' и 'member_gender'). Как это сделать в приведенном ниже коде?

sb.boxplot(x="user_type", y="Seconds", data=df, color=default_color, ax=ax[0,0], sym='').set_title('User-Type (0=Non-Subscriber,...
0
голоса
5
ответов
26
просмотров
Как исправить ошибку IndexError: недопустимый индекс для скалярной переменной

Вопрос на StackOverflow:


Я сталкиваюсь с ошибкой при выполнении следующего кода:

IndexError: invalid index to scalar variable.

Ошибка возникает на строке:

results.append(RMSPE(np.expm1(y_train[testcv]), [y[1] for y in y_test]))

Вот полный код:

import...
0
голоса
1
ответов
16
просмотров
Как считать файл с разделителем в виде точки с запятой в pandas?

Я пытаюсь импортировать файл .csv в Python с помощью библиотеки pandas.

Вот формат файла из .csv:

a1;b1;c1;d1;e1;... a2;b2;c2;d2;e2;...
.....

Вот как я его загружаю:

from pandas import * csv_path = "C:...." data = read_csv(csv_path)

Однако, когда я пытаюсь распечатать содержимое файла, я...

0
голоса
4
ответов
16
просмотров
Итерация по DataFrame в pandas с использованием itertuples

Я перебираю DataFrame в pandas, используя метод itertuples(), и хотел бы захватить номера строк во время итерации. Вот мой текущий код:

for row in df.itertuples():
    print(row['name'])

Ожидаемый вывод:

1 larry
2 barry
3 michael

Где 1, 2, 3 — это номера строк. Я бы...

0
голоса
1
ответов
15
просмотров
Преобразование pandas.Series из типа object в float с заменой ошибок на NaN

Описание проблемы:

Я столкнулся с проблемой при работе с библиотекой pandas в Python. У меня есть следующий код:

In [2]: a = pd.Series([1, 2, 3, 4, '.'])

In [3]: a
Out[3]: 
0    1
1    2
2    3
3    4
4    .
dtype: object

Я пытаюсь преобразовать элементы серии a в тип...

0
голоса
2
ответов
15
просмотров
Pandas groupby с подсчетом по бинам

У меня есть DataFrame, который выглядит следующим образом:

+----------+---------+-------+
| username | post_id | views |
+----------+---------+-------+
| john     |       1 |     3 |
| john     |       2 |    23 |
| john     |       3 |    44 |
| john     |       4 |    82 |
| jane     |      ...
0
голоса
2
ответов
133
просмотров
Различие между типами str и object в Pandas

Я столкнулся с проблемой различия типов в Numpy и Pandas. В Numpy четко разграничиваются типы str и object. Например, при выполнении следующих команд:

import pandas as pd
import numpy as np
np.dtype(str)  # dtype('S')
np.dtype(object)  # dtype('O')

мы видим, что dtype('S')...

0
голоса
5
ответов
14
просмотров
Добавление пустой строки в DataFrame с помощью pandas

Я пытаюсь добавить пустую строку в конец DataFrame, но у меня не получается. Я пытаюсь разобраться, как работает функция append в pandas, и всё равно не понимаю.

Вот мой код:

import pandas as pd

excel_names = ["ARMANI+EMPORIO+AR0143-book.xlsx"]
excels = [pd.ExcelFile(name) for name...
0
голоса
1
ответов
17
просмотров
Провести расчет нового столбца как среднее значение других столбцов в pandas

Описание проблемы:

Я работаю с датафреймом в pandas и хочу добавить новый столбец, который будет содержать среднее значение по столбцам salary_1, salary_2 и salary_3. У меня есть следующий датафрейм:

df = pd.DataFrame({
    'salary_1': [230, 345, 222],
    'salary_2': [235,...
0
голоса
1
ответов
26
просмотров
Построение гистограммы на логарифмической шкале с помощью Matplotlib

Я работаю с DataFrame в Pandas и у меня есть следующая последовательность значений в серии:

x = [2, 1, 76, 140, 286, 267, 60, 271, 5, 13, 9, 76, 77, 6, 2, 27, 22, 1, 12, 7, 19, 81, 11, 173, 13, 7, 16, 19, 23, 197, 167, 1]

Мне было указано построить два гистограммы в Jupyter Notebook...

0
голоса
3
ответов
14
просмотров
Pandas: Многоуровневые названия столбцов

Проблема с добавлением многоуровневых имен столбцов в pandas

Я использую библиотеку pandas, которая поддерживает многоуровневые имена столбцов. Например, я создаю DataFrame следующим образом:

x = pd.DataFrame({'instance':['first','first','first'],'foo':['a','b','c'],'bar':rand(3)})
x =...
0
голоса
5
ответов
17
просмотров
Pandas: Количество месяцев между двумя датами

У меня возникла проблема, которая, как я думал, должна быть простой, но то, что я видел, представляет собой техники, которые требуют итерации по полям дат в dataframe, чтобы определить разницу между двумя датами. Я с этим испытываю трудности. Я знаком с функцией DATEDIFF в MSSQL, и думал, что в...

0
голоса
4
ответов
16
просмотров
Предупреждение Pandas о повторяющихся записях в индексе при сводной таблице

Я столкнулся с проблемой при использовании метода pivot в библиотеке Pandas. В документации к этому методу приведено следующее описание:

Examples
--------
>>> df
    foo   bar  baz
0   one   A    1.
1   one   B    2.
2   one   C    3.
3   two   A    4.
4   two   B    5.
5   two   C   ...
0
голоса
2
ответов
14
просмотров
Заменить строку/значение в DataFrame целиком

У меня есть очень большой набор данных, в котором я хочу заменить строки на числа. Я бы хотел работать с набором данных, не вводя функцию отображения для каждого ключа (столбца) в наборе. Это похоже на метод fillna, но нужно заменить конкретные строки на соответствующие значения.

Есть ли способ...

0
голоса
4
ответов
15
просмотров
Pandas: Одновременное присвоение нескольких *новых* столбцов

У меня есть DataFrame df, содержащий столбец с метками для каждой строки (в дополнение к некоторым соответствующим данным для каждой строки). У меня есть словарь labeldict, у которого ключи соответствуют возможным меткам, а значения представляют собой 2-кортежи информации, связанной с этой...

0
голоса
4
ответов
17
просмотров
Создание пустого MultiIndex

Я хотел бы создать пустой DataFrame с MultiIndex перед тем, как добавить в него строки. Я обнаружил, что пустые DataFrame не поддерживают назначение MultiIndex на лету, поэтому я устанавливаю имена для MultiIndex во время создания. Однако я не хочу задавать уровни, так как это будет...

5
голоса
4
ответов
43
просмотров
Pandas read_csv: Опции low_memory и dtype

Я получаю предупреждение при загрузке CSV-файла с помощью pandas:

df = pd.read_csv('somefile.csv')

Сообщение об ошибке следующее:

.../site-packages/pandas/io/parsers.py:1130:
DtypeWarning: Columns (4,5,7,16) have mixed types.  Specify dtype option on import or set...
5
голоса
3
ответов
40
просмотров
Как сбросить индекс в DataFrame pandas?

У меня есть DataFrame, из которого я удалил некоторые строки. В результате я получил DataFrame с индексом, который выглядит как [1,5,6,10,11], и мне нужно сбросить его до [0,1,2,3,4]. Как я могу это сделать?

Похоже, что следующее решение работает:

df = df.reset_index()
del...
5
голоса
5
ответов
56
просмотров
Выбор строки из pandas Series/DataFrame по целочисленному индексу

Я столкнулся с проблемой при работе с DataFrame в Pandas. Меня интересует, почему df[2] не поддерживается, тогда как df.ix[2] и df[2:3] работают корректно.

Вот пример работы с DataFrame:

In [26]: df.ix[2]
Out[26]: 
A    1.027680
B    1.514210
C   -1.466963
D   -0.162339
Name:...