20 мощных функций Pandas для анализа данных

Python
Когда вы анализируете данные в Python, есть много функций, которые сделают вас более эффективными. В этой статье будут представлены 20 незаменимых функций для анализа данных с использованием библиотеки Pandas.

 

Pandas является отличным инструментом, когда дело касается анализа данных. Pandas построен поверх Numpy, который обеспечивает поддержку многомерных массивов. Панды могут стать плюсом, если вы добавите их в свой инструментарий Data Science toolbox. В pandas вы можете выполнить большую задачу за короткое время.

Pandas — это молниеносный инструмент, который позволяет легко выполнять задачи с большими данными. Эта библиотека включает в себя: Очистку данных, заполнение недостающих значений, нормализацию данных, статистический анализ и многое другое.

Чтобы прочитать данные, хранящиеся в файле CSV, мы можем использовать команду.

df = pd.read_csv(‘Test22.csv’,sep = ‘;’)

или в файле Excel 

df = pd.read_excel(‘Test22.xlsx’)

Вывод первых пяти строк

Чтобы получить доступ к первым пяти строкам набора данных, просто используйте функцию head(), и она по умолчанию вернет первые пять строк. Внутри head вы также можете установить ограничение на количество строк, к которым хотите получить доступ. например, head(10) вы получаете конкретное количество строк.

df.head( )

 

20 мощных функций Pandas для анализа данных

Получить заголовки всех столбцов набора данных

Если вы имеете дело с таким большим набором данных, как этот, имеющим более 50 столбцов, то получить все столбцы будет сложно. Для того, чтобы распечатать все столбцы данного набора данных выполним команду

df.columns

20 мощных функций Pandas для анализа данных

Удаление лишних столбцов

В наборе данных есть ненужные столбцы, которые вам действительно нужны. Таким образом, чтобы избавиться от ненужных столбцов, мы используем функцию.

df.drop( )

20 мощных функций Pandas для анализа данных

Количество строк в

Для того, чтобы показать длину фрейма данных в наборе данных, и он вернет общее количество строк.

20 мощных функций Pandas для анализа данных

Запрос DataFrame

Вы можете фильтровать / запрашивать с помощью условного оператора. В этом примере я буду использовать столбцы «Стоимость» и «Заработная плата». Это вернет строки только в тех случаях, когда значение больше заработной платы.

20 мощных функций Pandas для анализа данных

Получение подмножества значений

Функция принимает параметры индексов строк и столбцов и возвращает вам подмножество фрейма данных. Здесь мы берем первые 10 строк и индексируем 5-10 столбцов.

df.iloc[:10,5:10]

20 мощных функций Pandas для анализа данных

df.loc()

Эта функция выполняет почти то же самое, что и .iloc(). Здесь мы можем точно указать, какой индекс строки мы хотим, а также указать имена столбцов.

20 мощных функций Pandas для анализа данных

Вывести типы данных каждого столбца

Понимание характера ваших данных и типа данных каждого столбца жизненно важно для быстрого выполнения соответствующих операций при обработке данных.

df.dtypes

20 мощных функций Pandas для анализа данных

Статистика по набору данных

Чтобы применить функцию describe( ), она выдаст сводную или описательную статистику вашего набора данных. Эта функция будет работать только в том случае, если данные представлены в числовой форме. Для категориальных данных функция describe ( ) подсчитывает только значения в наборе данных.20 мощных функций Pandas для анализа данных

Найти уникальные значения

Это очень полезно, когда у нас есть категориальные значения. Он используется для определения уникальных значений из категориального столбца набора данных. Здесь мы применили его к столбцу “Значение” набора данных.

df.Value.unique( )

20 мощных функций Pandas для анализа данных

Выборка из набора данных

Когда у нас есть огромный набор данных, мы можем взять небольшую репрезентативную выборку из набора данных. Здесь я взял 25% данных в качестве выборки из набора данных. Это экономит время, повышает производительность модели и улучшает визуализацию.

df.sample(frac = 0.25)

20 мощных функций Pandas для анализа данных

Проверьте уникальные значения в столбце

Эта функция вернет общее количество уникальных значений в определенном столбце набора данных. если вы хотите проверить, сколько там разных национальностей.

df.Nationality.nunique( )

20 мощных функций Pandas для анализа данных

Получить все значения с Null

Чтобы проверить нулевые значения в вашем наборе данных, мы можем использовать isnull().sum(), чтобы вернуть количество нулевых значений в каждом столбце.

df.isnull().sum()

20 мощных функций Pandas для анализа данных

Переименовать колонки

Мы можем переименовать любой конкретный столбец из набора данных с помощью df. функция rename(). Здесь мы изменили Стоимость на Доход.

df.rename(columns = {“Value”: “Revenue”})

20 мощных функций Pandas для анализа данных

Заполнение нулевых значений по центральной тенденции (Среднее значение, Режим, Медиана)

Мы можем заполнить нулевые значения различными подходами в зависимости от типа данных, которые мы получаем. Для категориальных данных предпочтительнее использовать режим, в то время как для числовых значений мы будем использовать среднее и медиану. Здесь мы заполнили нулевые значения режимом для категориальных столбцов ‘клуб’ и ‘присоединился’.

cols = [“Joined”, “Club”]
df[cols]=df[cols].fillna(df.mode().iloc[0])

20 мощных функций Pandas для анализа данных

Группировка

Самая популярная функция для агрегирования данных (сводная форма). мы можем сгруппировать данные и получить полезную информацию о группах. Здесь я сгруппировал данные по национальностям и рассчитал общее ‘значение’ для каждой национальности

df. groupby(“Nationality”)[‘Value’].sum()

20 мощных функций Pandas для анализа данных

Объединение двух DataFrame

Объедините DataFrame или именованные объекты серии с помощью объединения в стиле базы данных.

DataFrame.merge(righthow=‘inner’on=Noneleft_on=Noneright_on=Noneleft_index=Falseright_index=Falsesort=Falsesuffixes=(‘_x’, ‘_y’)copy=Trueindicator=Falsevalidate=None)

Объединение выполняется по столбцам или индексам. При объединении столбцов в столбцах индексы фрейма данных будут игнорироваться. В противном случае при объединении индексов по индексам или индексов по столбцу или столбцам индекс будет передан дальше. При выполнении перекрестного слияния не допускаются спецификации столбцов для объединения.

Способ связывания

Мы можем создавать ячейки для разделения данных на определенный диапазон. Метод привязки используется для нормализации данных и сглаживания их за счет удаления шума из данных. Здесь мы создали пять ячеек для данного столбца возраста, что означает разделение возраста людей на пять категорий.

pd.cut(df[‘Age’], bins = 5).value_counts()

20 мощных функций Pandas для анализа данных

Найдите n наибольших и наименьших значений

Это дает вам данные с n числом наибольших значений или наименьших значений из заданных конкретных переменных. Здесь, например, мы хотели получить доступ к строкам с верхним номером 6 столбца возраста.

Получить информацию о DataFrame

Эта функция info() возвращает информацию о фрейме данных. Эта информация содержит количество столбцов, метки столбцов, типы данных столбцов, использование памяти, индекс диапазона и количество ячеек в каждом столбце, которые являются (ненулевыми значениями).

df.info()

20 мощных функций Pandas для анализа данных

Источник
Добавить комментарий