dataframe ×51
Создан 03.01.2025
0
голоса
1
ответов
64
просмотров
Как посчитать количество каждой уникальной значения в DataFrame PySpark?

У меня есть столбец с инициалами штатов в виде строк. Моя задача заключается в том, чтобы подсчитать количество вхождений каждого штата в этом списке.

Например: (("TX":3),("NJ":2)) должен быть выводом, когда инициал "TX" встречается два раза, а "NJ" — дважды.

Я довольно новенький в pyspark, и эта...

0
голоса
2
ответов
15
просмотров
Pandas groupby с подсчетом по бинам

У меня есть DataFrame, который выглядит следующим образом:

+----------+---------+-------+
| username | post_id | views |
+----------+---------+-------+
| john     |       1 |     3 |
| john     |       2 |    23 |
| john     |       3 |    44 |
| john     |       4 |    82 |
| jane     |      ...
0
голоса
1
ответов
17
просмотров
Провести расчет нового столбца как среднее значение других столбцов в pandas

Описание проблемы:

Я работаю с датафреймом в pandas и хочу добавить новый столбец, который будет содержать среднее значение по столбцам salary_1, salary_2 и salary_3. У меня есть следующий датафрейм:

df = pd.DataFrame({
    'salary_1': [230, 345, 222],
    'salary_2': [235,...
0
голоса
2
ответов
14
просмотров
Заменить строку/значение в DataFrame целиком

У меня есть очень большой набор данных, в котором я хочу заменить строки на числа. Я бы хотел работать с набором данных, не вводя функцию отображения для каждого ключа (столбца) в наборе. Это похоже на метод fillna, но нужно заменить конкретные строки на соответствующие значения.

Есть ли способ...

5
голоса
4
ответов
43
просмотров
Pandas read_csv: Опции low_memory и dtype

Я получаю предупреждение при загрузке CSV-файла с помощью pandas:

df = pd.read_csv('somefile.csv')

Сообщение об ошибке следующее:

.../site-packages/pandas/io/parsers.py:1130:
DtypeWarning: Columns (4,5,7,16) have mixed types.  Specify dtype option on import or set...
5
голоса
3
ответов
40
просмотров
Как сбросить индекс в DataFrame pandas?

У меня есть DataFrame, из которого я удалил некоторые строки. В результате я получил DataFrame с индексом, который выглядит как [1,5,6,10,11], и мне нужно сбросить его до [0,1,2,3,4]. Как я могу это сделать?

Похоже, что следующее решение работает:

df = df.reset_index()
del...
5
голоса
5
ответов
56
просмотров
Выбор строки из pandas Series/DataFrame по целочисленному индексу

Я столкнулся с проблемой при работе с DataFrame в Pandas. Меня интересует, почему df[2] не поддерживается, тогда как df.ix[2] и df[2:3] работают корректно.

Вот пример работы с DataFrame:

In [26]: df.ix[2]
Out[26]: 
A    1.027680
B    1.514210
C   -1.466963
D   -0.162339
Name:...
5
голоса
5
ответов
33
просмотров
Получить список из колонки или строки DataFrame в pandas?

Я имею dataframe df, импортированный из Excel-документа, который выглядит следующим образом:

cluster  load_date   budget  actual  fixed_price
A        1/1/2014    1000    4000    Y
A        2/1/2014    12000   10000   Y
A        3/1/2014    36000   2000    Y
B        4/1/2014    15000   10000 ...
6
голоса
5
ответов
27
просмотров
Переопределение значений в колонке pandas с помощью словаря, сохраняя NaN значения

У меня есть словарь, который выглядит так: di = {1: "A", 2: "B"}.

Я хотел бы применить этот словарь к столбцу col1 в DataFrame, который выглядит примерно так:

     col1   col2
0       w      a
1       1      2
2       2    NaN

В результате я хочу получить следующий DataFrame:

 ...
5
голоса
5
ответов
28
просмотров
Как выбрать все столбцы, кроме одного, в pandas?

У меня есть DataFrame, который выглядит следующим образом:

          a         b         c         d
0  0.418762  0.042369  0.869203  0.972314
1  0.991058  0.510228  0.594784  0.534366
2  0.407472  0.259811  0.396664  0.894202
3  0.726168  0.139531  0.324932  0.906575

Как я могу получить...

5
голоса
5
ответов
29
просмотров
Как развернуть иерархический индекс в столбцах

У меня есть датафрейм с иерархическим индексом по оси 1 (колонки), который получен в результате операции groupby.agg. Пример структуры данных представлен ниже:

     USAF   WBAN  year  month  day  s_PC  s_CL  s_CD  s_CNT  tempf       
                                     sum   sum   sum   ...
5
голоса
5
ответов
30
просмотров
Фильтрация строк DataFrame по наличию значения в колонке из заданного списка значений

У меня есть DataFrame в Python с использованием библиотеки pandas, названный rpt:

rpt

MultiIndex: 47518 entries, ('000002', '20120331') to ('603366', '20091231')
Data columns:
STK_ID                    47518  non-null values
STK_Name                  47518  non-null values
RPT_Date         ...
5
голоса
5
ответов
27
просмотров
Python Pandas: Как получить индексы строк, где значение в столбце соответствует заданному?

У меня возникла проблема с поиском индексов в DataFrame по колонке "BoolCol", где значения равны True. В данный момент я использую следующий способ с итерацией, который работает корректно:

for i in range(100, 3000):
    if df.iloc[i]['BoolCol'] == True:
         print(i,...
6
голоса
5
ответов
28
просмотров
Преобразование словаря Python в DataFrame

У меня есть словарь Python:

{u'2012-07-01': 391,
 u'2012-07-02': 392,
 u'2012-07-03': 392,
 u'2012-07-04': 392,
 u'2012-07-05': 392,
 u'2012-07-06': 392}

Я хотел бы преобразовать его в DataFrame библиотеки pandas, чтобы даты и соответствующие значения находились в двух отдельных...

5
голоса
5
ответов
32
просмотров
Как создать тестовые и обучающие выборки из одного DataFrame с помощью pandas?

У меня есть довольно большой набор данных в виде датафрейма, и я хотел бы узнать, как можно разбить этот датафрейм на две случайные выборки (80% для тренировки и 20% для тестирования).

Спасибо!

7
голоса
4
ответов
46
просмотров
Разница между методами map, applymap и apply в Pandas

Можете ли вы объяснить, когда использовать эти методы векторизации с простыми примерами?

Я вижу, что map — это метод Series, тогда как остальные методы относятся к DataFrame. Я запутался в отношении методов apply и applymap. Почему у нас есть два метода для применения функции к DataFrame? Буду...

6
голоса
4
ответов
40
просмотров
Как проверить, существует ли столбец в Pandas

Как проверить, существует ли колонка в DataFrame библиотеки Pandas df?

У меня есть DataFrame следующего вида:

A B C 0 3 40 100 1 6 30 200

Как мне проверить, существует ли колонка "A", чтобы я мог выполнить следующее вычисление:

df['sum'] = df['A'] + df['C']

А если колонки "A"...

6
голоса
5
ответов
51
просмотров
Как отсортировать DataFrame pandas по одному столбцу

У меня есть DataFrame, который выглядит следующим образом:

        0          1     2
0   354.7      April   4.0
1    55.4     August   8.0
2   176.5   December  12.0
3    95.5   February   2.0
4    85.6    January   1.0
5     152       July   7.0
6   238.7       June   6.0
7   104.8     ...
8
голоса
4
ответов
35
просмотров
Как преобразовать индекс DataFrame в колонку в pandas?

Как преобразовать индекс датафрейма в столбец?

У меня есть датафрейм, который выглядит следующим образом:

        gi       ptt_loc
0  384444683      593  
1  384444684      594 
2  384444686      596  

и мне нужно преобразовать его в следующий формат:

    index1    gi      ...
8
голоса
5
ответов
45
просмотров
Установить значение для конкретной ячейки в DataFrame pandas с использованием индекса

Я создал Pandas DataFrame:

df = DataFrame(index=['A','B','C'], columns=['x','y'])

Теперь я хотел бы присвоить значение определенной ячейке, например, в строке C и столбце x. То есть, я хочу выполнить следующую трансформацию:

     x    y             x    y
A  NaN  NaN       ...