Вопросы с тегом [pyspark]

pyspark ×3

Создан 24.04.2025

Вопросы

Новые Популярные Без ответа

голоса

ответов

2554

просмотров

Как посчитать количество каждой уникальной значения в DataFrame PySpark?

У меня есть столбец с инициалами штатов в виде строк. Моя задача заключается в том, чтобы подсчитать количество вхождений каждого штата в этом списке.

Например: (("TX":3),("NJ":2)) должен быть выводом, когда инициал "TX" встречается два раза, а "NJ" — дважды.

Я довольно новенький в pyspark, и эта...

12.04.2025 23:18 • LumaStar245759

голоса

ответов

271

просмотров

Применение UDF в GroupedData в PySpark (с работающим примером на Python)

У меня есть следующий код на Python, который работает локально с использованием DataFrame из библиотеки pandas:

df_result = pd.DataFrame(df
                          .groupby('A')
                          .apply(lambda x: myFunction(zip(x.B, x.C), x.name))

Я хотел бы запустить этот...

python apache-spark pyspark apache-spark-sql user-defined-functions

07.04.2025 06:40 • Хомир

голоса

ответов

257

просмотров

Псевдонимы столбцов после groupBy в PySpark

Нужна помощь с проблемой в коде. Я пытаюсь получить из DataFrame, сформированного с помощью groupBy, колонку с максимальным значением 'diff', и чтобы эта колонка имела псевдоним "maxDiff". Однако строка кода ниже не изменяет результат, и при этом не выдает никаких ошибок.