Вопросы
Как посчитать количество каждой уникальной значения в DataFrame PySpark?
У меня есть столбец с инициалами штатов в виде строк. Моя задача заключается в том, чтобы подсчитать количество вхождений каждого штата в этом списке.
Например: (("TX":3),("NJ":2)) должен быть выводом, когда инициал "TX" встречается два раза, а "NJ" — дважды.
Я довольно новенький в pyspark, и эта...
Pandas groupby с подсчетом по бинам
У меня есть DataFrame, который выглядит следующим образом:
+----------+---------+-------+
| username | post_id | views |
+----------+---------+-------+
| john | 1 | 3 |
| john | 2 | 23 |
| john | 3 | 44 |
| john | 4 | 82 |
| jane | ...
Провести расчет нового столбца как среднее значение других столбцов в pandas
Описание проблемы:
Я работаю с датафреймом в pandas и хочу добавить новый столбец, который будет содержать среднее значение по столбцам salary_1
, salary_2
и salary_3
. У меня есть следующий датафрейм:
df = pd.DataFrame({
'salary_1': [230, 345, 222],
'salary_2': [235,...
Заменить строку/значение в DataFrame целиком
У меня есть очень большой набор данных, в котором я хочу заменить строки на числа. Я бы хотел работать с набором данных, не вводя функцию отображения для каждого ключа (столбца) в наборе. Это похоже на метод fillna, но нужно заменить конкретные строки на соответствующие значения.
Есть ли способ...
Pandas read_csv: Опции low_memory и dtype
Я получаю предупреждение при загрузке CSV-файла с помощью pandas:
df = pd.read_csv('somefile.csv')
Сообщение об ошибке следующее:
.../site-packages/pandas/io/parsers.py:1130:
DtypeWarning: Columns (4,5,7,16) have mixed types. Specify dtype option on import or set...
Как сбросить индекс в DataFrame pandas?
У меня есть DataFrame, из которого я удалил некоторые строки. В результате я получил DataFrame с индексом, который выглядит как [1,5,6,10,11], и мне нужно сбросить его до [0,1,2,3,4]. Как я могу это сделать?
Похоже, что следующее решение работает:
df = df.reset_index()
del...
Выбор строки из pandas Series/DataFrame по целочисленному индексу
Я столкнулся с проблемой при работе с DataFrame в Pandas. Меня интересует, почему df[2]
не поддерживается, тогда как df.ix[2]
и df[2:3]
работают корректно.
Вот пример работы с DataFrame:
In [26]: df.ix[2]
Out[26]:
A 1.027680
B 1.514210
C -1.466963
D -0.162339
Name:...
Получить список из колонки или строки DataFrame в pandas?
Я имею dataframe df, импортированный из Excel-документа, который выглядит следующим образом:
cluster load_date budget actual fixed_price
A 1/1/2014 1000 4000 Y
A 2/1/2014 12000 10000 Y
A 3/1/2014 36000 2000 Y
B 4/1/2014 15000 10000 ...
Переопределение значений в колонке pandas с помощью словаря, сохраняя NaN значения
У меня есть словарь, который выглядит так: di = {1: "A", 2: "B"}
.
Я хотел бы применить этот словарь к столбцу col1
в DataFrame, который выглядит примерно так:
col1 col2
0 w a
1 1 2
2 2 NaN
В результате я хочу получить следующий DataFrame:
...
Как выбрать все столбцы, кроме одного, в pandas?
У меня есть DataFrame, который выглядит следующим образом:
a b c d
0 0.418762 0.042369 0.869203 0.972314
1 0.991058 0.510228 0.594784 0.534366
2 0.407472 0.259811 0.396664 0.894202
3 0.726168 0.139531 0.324932 0.906575
Как я могу получить...
Как развернуть иерархический индекс в столбцах
У меня есть датафрейм с иерархическим индексом по оси 1 (колонки), который получен в результате операции groupby.agg
. Пример структуры данных представлен ниже:
USAF WBAN year month day s_PC s_CL s_CD s_CNT tempf
sum sum sum ...
Фильтрация строк DataFrame по наличию значения в колонке из заданного списка значений
У меня есть DataFrame в Python с использованием библиотеки pandas, названный rpt
:
rpt
MultiIndex: 47518 entries, ('000002', '20120331') to ('603366', '20091231')
Data columns:
STK_ID 47518 non-null values
STK_Name 47518 non-null values
RPT_Date ...
Python Pandas: Как получить индексы строк, где значение в столбце соответствует заданному?
У меня возникла проблема с поиском индексов в DataFrame по колонке "BoolCol", где значения равны True. В данный момент я использую следующий способ с итерацией, который работает корректно:
for i in range(100, 3000):
if df.iloc[i]['BoolCol'] == True:
print(i,...
Преобразование словаря Python в DataFrame
У меня есть словарь Python:
{u'2012-07-01': 391,
u'2012-07-02': 392,
u'2012-07-03': 392,
u'2012-07-04': 392,
u'2012-07-05': 392,
u'2012-07-06': 392}
Я хотел бы преобразовать его в DataFrame библиотеки pandas, чтобы даты и соответствующие значения находились в двух отдельных...
Как создать тестовые и обучающие выборки из одного DataFrame с помощью pandas?
У меня есть довольно большой набор данных в виде датафрейма, и я хотел бы узнать, как можно разбить этот датафрейм на две случайные выборки (80% для тренировки и 20% для тестирования).
Спасибо!
Разница между методами map, applymap и apply в Pandas
Можете ли вы объяснить, когда использовать эти методы векторизации с простыми примерами?
Я вижу, что map — это метод Series, тогда как остальные методы относятся к DataFrame. Я запутался в отношении методов apply и applymap. Почему у нас есть два метода для применения функции к DataFrame? Буду...
Как проверить, существует ли столбец в Pandas
Как проверить, существует ли колонка в DataFrame библиотеки Pandas df?
У меня есть DataFrame следующего вида:
A B C 0 3 40 100 1 6 30 200
Как мне проверить, существует ли колонка "A", чтобы я мог выполнить следующее вычисление:
df['sum'] = df['A'] + df['C']
А если колонки "A"...
Как отсортировать DataFrame pandas по одному столбцу
У меня есть DataFrame, который выглядит следующим образом:
0 1 2
0 354.7 April 4.0
1 55.4 August 8.0
2 176.5 December 12.0
3 95.5 February 2.0
4 85.6 January 1.0
5 152 July 7.0
6 238.7 June 6.0
7 104.8 ...
Как преобразовать индекс DataFrame в колонку в pandas?
Как преобразовать индекс датафрейма в столбец?
У меня есть датафрейм, который выглядит следующим образом:
gi ptt_loc
0 384444683 593
1 384444684 594
2 384444686 596
и мне нужно преобразовать его в следующий формат:
index1 gi ...
Установить значение для конкретной ячейки в DataFrame pandas с использованием индекса
Я создал Pandas DataFrame:
df = DataFrame(index=['A','B','C'], columns=['x','y'])
Теперь я хотел бы присвоить значение определенной ячейке, например, в строке C
и столбце x
. То есть, я хочу выполнить следующую трансформацию:
x y x y
A NaN NaN ...