Tutorial Python Pandas: Aprenda Pandas para Análise de Dados



Neste tutorial do Python Pandas, você aprenderá as várias operações do Pandas. Ele também inclui um caso de uso, onde você pode analisar os dados usando o Pandas.

Neste blog, iremos discutir a análise de dados usando Pandas em Python.Hoje, é uma habilidade importante na indústria que ultrapassou PHP em 2017 e C # em 2018 em termos de popularidade e uso geral.Antes de falar sobre Pandas, é preciso entender o conceito de matrizes Numpy. Por quê? Porque Pandas é uma biblioteca de software de código aberto que é construída em cima de . Neste Tutorial do Python Pandas, eu o conduzirei pelos seguintes tópicos, que servirão como fundamentos para os próximos blogs:

Vamos começar. :-)





O que é Python Pandas?

O Pandas é usado para manipulação, análise e limpeza de dados. Python pandas é adequado para diferentes tipos de dados, como:

  • Dados tabulares com colunas de tipo heterogêneo
  • Dados de série temporal ordenados e não ordenados
  • Dados de matriz arbitrária com rótulos de linha e coluna
  • Dados sem etiqueta
  • Qualquer outra forma de conjuntos de dados observacionais ou estatísticos

Como instalar o Pandas?

Para instalar o Python Pandas, vá até sua linha de comando / terminal e digite “pip install pandas” ou então, se você tiver o anaconda instalado em seu sistema, digite “conda install pandas”. Assim que a instalação for concluída, vá para o seu IDE (Jupyter, PyCharm etc.) e simplesmente importe-o digitando: “import pandas as pd”



Avançando no tutorial do Python pandas, vamos dar uma olhada em algumas de suas operações:

Operações Python Pandas

Usando Python pandas, você pode realizar muitas operações com séries, frames de dados, dados ausentes, agrupar por etc. Algumas das operações comuns para manipulação de dados estão listadas abaixo:



PandasOperations - Python Pandas Tutorial - Edureka

abstração de dados c ++

Agora, vamos entender todas essas operações uma por uma.

Cortando o quadro de dados

Para realizar o fatiamento de dados, você precisa de um quadro de dados. Não se preocupe, o frame de dados é uma estrutura de dados bidimensional e um objeto pandas mais comum. Então, primeiro, vamos criar um quadro de dados.

Consulte o código abaixo para sua implementação no PyCharm:

importar pandas como pd XYZ_web = {'Dia': [1,2,3,4,5,6], 'Visitantes': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Resultado :

Bounce_Rate Day Visitors 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

O código acima irá converter um dicionário em um quadro de dados do pandas junto com o índice à esquerda. Agora, vamos cortar uma coluna específica desse quadro de dados. Consulte a imagem abaixo:

imprimir (df.head (2))

Resultado:

Bounce_Rate Day Visitors 0 20 1 1000 1 20 2 700

Da mesma forma, se você quiser as duas últimas linhas dos dados, digite o comando abaixo:

imprimir (df.tail (2))

Resultado:

Bounce_Rate Day Visitors 4 10 5 400 5 34 6 350

A seguir, no tutorial do Python Pandas, vamos realizar a fusão e a união.

Mesclar e unir

Na fusão, você pode fundir dois quadros de dados para formar um único quadro de dados. Você também pode decidir quais colunas deseja tornar comuns. Deixe-me implementar isso de forma prática. Primeiro, criarei três quadros de dados, que têm alguns pares de valores-chave, e depois mesclarei os quadros de dados. Consulte o código abaixo:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Resultado:

importar pandas como pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, índice = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, índice = [2005, 2006,2007,2008]) mesclado = pd.merge (df1, df2) imprimir (mesclado)

Como você pode ver acima, os dois quadros de dados foram mesclados em um único quadro de dados. Agora, você também pode especificar a coluna que deseja tornar comum. Por exemplo, quero que a coluna “HPI” seja comum e, para todo o resto, quero colunas separadas. Então, deixe-me implementar isso de forma prática:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, índice = [2005, 2006,2007,2008]) mesclado = pd.merge (df1, df2, on = 'HPI') imprimir (mesclado)

Resultado:

IND_GDP Int_Rate Low_Tier_HPI Desemprego 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

A seguir, vamos entender juntando no tutorial do python pandas. É ainda outro método conveniente combinar dois dataframes indexados de forma diferente em um único dataframe de resultado. Isso é bastante semelhante à operação “mesclar”, exceto que a operação de junção será no “índice” em vez de nas “colunas”. Vamos implementá-lo de forma prática.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, índice = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Desemprego': [1,3,5,6]}, índice = [2001, 2003,2004,2004]) unido = df1. juntar (df2) imprimir (juntar)

Resultado:

IND_GDP Int_Rate Low_Tier_HPI Desemprego 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Como você pode notar na saída acima, no ano de 2002 (índice), não há nenhum valor anexado às colunas “low_tier_HPI” e “desemprego”, portanto, imprimiu NaN (Não é um número). No final de 2004, ambos os valores estão disponíveis, portanto, foram impressos os respectivos valores.

Você pode passar por esta gravação do tutorial Python Pandas, onde nosso instrutor explicou os tópicos de maneira detalhada com exemplos que o ajudarão a entender melhor este conceito.

Python para análise de dados | Tutorial Python Pandas | Treinamento em Python | Edureka


Avançando no tutorial do Python pandas, vamos entender como concatenar dois frames de dados de dados.

Concatenação

A concatenação basicamente cola os dataframes juntos. Você pode selecionar a dimensão na qual deseja concatenar. Para isso, basta usar “pd.concat” e passar a lista de dataframes para concatenar. Considere o exemplo abaixo.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, índice = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Resultado:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Como você pode ver acima, os dois dataframes são colados em um único dataframe, onde o índice começa de 2001 até 2008. Em seguida, você também pode especificar axis = 1 para unir, mesclar ou cancelar ao longo das colunas. Consulte o código abaixo:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, índice = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) imprimir (concat)

Resultado:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 NaN 2006 NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Como você pode ver acima, existem vários valores ausentes. Isso acontece porque os dataframes não tinham valores para todos os índices que você deseja concatenar. Portanto, você deve certificar-se de ter todas as informações alinhadas corretamente ao unir ou concatenar no eixo.

Mudar o índice

A seguir, no tutorial do python pandas, vamos entender como alterar os valores do índice em um dataframe. Por exemplo, vamos criar um dataframe com alguns pares de valores-chave em um dicionário e alterar os valores do índice. Considere o exemplo abaixo:

Vamos ver como isso realmente acontece:

import pandas as pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitantes': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) print (df)

Resultado:

Bounce_Rate Visitors Day 1 20 200 2 45 100 3 60 230 4 10 300

Como você pode notar na saída acima, o valor do índice foi alterado em relação à coluna “Dia”.

Alterar os cabeçalhos das colunas

Vamos agora mudar os cabeçalhos das colunas neste tutorial do python pandas. Tomemos o mesmo exemplo, onde mudarei o cabeçalho da coluna de “Visitantes” para “Usuários”. Então, deixe-me implementá-lo de forma prática.

import pandas as pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitantes': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (colunas = {'Visitantes': 'Usuários'}) imprimir (df)

Resultado:

Bounce_Rate Day Users 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Como você pode ver acima, o cabeçalho da coluna “Visitantes” foi alterado para “Usuários”. Em seguida, no tutorial do python pandas, vamos realizar a análise de dados.

Manipulação de dados

No Data munging, você pode converter dados específicos em um formato diferente. Por exemplo, se você tiver um arquivo .csv, poderá convertê-lo em .html ou em qualquer outro formato de dados. Então, deixe-me implementar isso de forma prática.

import pandas as pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-desempregoAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Depois de executar este código, um arquivo HTML será criado com o nome “edu.html”. Você pode copiar diretamente o caminho do arquivo e colá-lo em seu navegador, que exibe os dados em formato HTML. Consulte a imagem abaixo:


A seguir, no tutorial do python pandas, vamos dar uma olhada em um caso de uso que fala sobre o desemprego juvenil global.

Tutorial Python Pandas: caso de uso para analisar dados de desemprego juvenil

Declaração do Problema :Você recebe um conjunto de dados que compreende a porcentagem de jovens desempregados em todo o mundo de 2010 a 2014. Você deve usar este conjunto de dados e encontrar a mudança na porcentagem de jovens para cada país de 2010-2011.

Primeiro, vamos entender o conjunto de dados que contém as colunas Nome do país, Código do país e o ano de 2010 a 2014. Agora, usando o pandas, usaremos “pd.read_csv” para ler o arquivo no formato .csv.
Consulte a captura de tela abaixo:

Vamos seguir em frente e fazer uma análise dos dados nos quais vamos descobrir a variação percentual dos jovens desempregados entre 2010 e 2011. Então, vamos visualizar o mesmo usando library, que é uma biblioteca poderosa para visualização em Python. Ele pode ser usado em scripts Python, shell, servidores de aplicativos da web e outros kits de ferramentas GUI. Você pode ler mais aqui:

como encontrar palíndromo em java

Agora, vamos implementar o código no PyCharm:

import pandas as pd import matplotlib.pyplot as plt de matplotlib import style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-desempregoAPI_ILO_country_YU.csv', index_col = 0) df = country. head (5) df = df.set_index (['Country Code']) sd = sd.reindex (columns = ['2010', '2011']) db = sd.diff (axis = 1) db.plot (kind = 'bar') plt.show ()

Como você pode ver acima, realizei a análise nas 5 linhas principais do dataframe do país. Em seguida, defini um valor de índice como “Código do país” e reindexo a coluna para 2010 e 2011. Então, temos mais um dataframe db, que imprime a diferença entre as duas colunas ou a variação percentual de jovens desempregados de 2010 a 2011. Finalmente, tracei um gráfico de barras usando a biblioteca Matplotlib em Python.


Agora, se você notou no gráfico acima, no Afeganistão (AFG), entre 2010 e 2011, houve um aumento de jovens desempregados de aprox. 0,25%. Já em Angola (AGO), há uma tendência negativa, o que significa que a percentagem de jovens desempregados foi reduzida. Da mesma forma, você pode realizar análises em diferentes conjuntos de dados.

Espero que meu blog sobre “Python Pandas Tutorial” seja relevante para você. Para obter conhecimento aprofundado sobre python, juntamente com seus vários aplicativos, você pode se inscrever para por Edureka com suporte 24 horas por dia, 7 dias por semana e acesso vitalício.

Tem alguma questão para nós? Mencione isso na seção de comentários deste blog “Python Pandas tutorial” e entraremos em contato com você o mais breve possível.