Desde a época em que Data Science foi classificada em primeiro lugar por ser o trabalho mais promissor da época, todos nós estamos tentando entrar na corrida de . Esta postagem do blog sobre SQL for Data Science ajudará você a entender como o SQL pode ser usado para armazenar, acessar e recuperar dados para realizar análises de dados.
Aqui está uma lista de tópicos que serão coberto neste blog:
Por que o SQL é necessário para a ciência de dados?
Você sabia que estamos gerando mais de 2,5 quintilhões de bytes de dados por dia? Este ritmo de geração de dados é a razão por trás da popularidade de tecnologias de ponta, como Ciência de Dados , , e assim por diante.
Derivar insights úteis de dados é o que chamamos de Ciência de Dados. A ciência de dados envolve extrair, processar e analisar toneladas de dados. No momento, o que precisamos é que pode ser usado para armazenar e gerenciar essa grande quantidade de dados.
O SQL pode ser usado para armazenar, acessar e extrair grandes quantidades de dados, a fim de realizar todo o processo de Ciência de Dados com mais tranquilidade.
O que é SQL?
SQL que significa Structured Query Language é uma linguagem de consulta destinada a gerenciar bancos de dados relacionais.
Mas o que exatamente é um banco de dados relacional?
Um banco de dados relacional é um grupo de tabelas bem definidas a partir das quais os dados podem ser acessados, editados, atualizados e assim por diante, sem ter que alterar as tabelas do banco de dados. SQL é o padrão (API) para bancos de dados relacionais.
Voltando ao SQL, a programação SQL pode ser usada para realizar várias ações nos dados, como consultar, inserir, atualizar e excluir registros do banco de dados. Exemplos de bancos de dados relacionais que usam SQL incluem banco de dados MySQL, Oracle, etc.
Para saber mais sobre SQL, você pode consultar o seguintes blogs:
- Noções básicas sobre tipos de dados SQL - tudo o que você precisa saber sobre tipos de dados SQL
- CREATE TABLE em SQL - Tudo o que você precisa saber sobre como criar tabelas em SQL
Antes de começarmos com uma demonstração do SQL, vamos nos familiarizar com os comandos SQL básicos.
o método system.exit encerrará o aplicativo.
Noções básicas de SQL
O SQL fornece um conjunto de comandos simples para modificar as tabelas de dados, vejamos alguns dos comandos SQL básicos:
- CRIAR BASE DE DADOS - cria um novo banco de dados
- CRIAR A TABELA - cria uma nova mesa
- INSIRA DENTRO DE - insere novos dados em um banco de dados
- SELECIONE - extrai dados de um banco de dados
- ATUALIZAR - atualiza dados em um banco de dados
- DELETE - exclui dados de um banco de dados
- ALTER DATABASE - modifica um banco de dados
- ALTERAR A TABELA - modifica uma mesa
- DROP TABLE - apaga uma mesa
- CRIAR ÍNDICE - cria um índice para pesquisar um elemento
- DROP INDEX - apaga Um índice
Para entender melhor o SQL, vamos instalar o MySQL e ver como você pode brincar com os dados.
Instalando MySQL
Instalar o MySQL é uma tarefa simples. Aqui está um guia passo a passo isso o ajudará a instalar o MySQL em seu sistema.
Assim que terminar de instalar MySQL, siga a seção abaixo para uma demonstração simples que mostrará como você pode inserir, manipular e modificar dados.
SQL para ciência de dados - demonstração do MySQL
Nesta demonstração, veremos como criar bancos de dados e processá-los. Esta é uma demonstração de nível iniciante para você começar a analisar dados em SQL.
Então vamos começar!
Etapa 1: criar um banco de dados SQL
Um banco de dados SQL é um armazém onde os dados podem ser armazenados em um formato estruturado. Agora vamos criar um banco de dados usando MySQL :
CRIAR BASE DE DADOS edureka USE edureka
No código acima, existem dois comandos SQL:
Nota : Os comandos SQL são definidos em letras maiúsculas e um ponto e vírgula é usado para encerrar um comando SQL.
CREATE DATABASE: Este comando cria um banco de dados chamado ‘edureka’
USE: Este comando é usado para ativar o banco de dados. Aqui estamos ativando o banco de dados ‘edureka’.
Etapa 2: crie uma tabela com os recursos de dados necessários
Criar uma tabela é tão simples quanto criar um banco de dados. Basta definir as variáveis ou características da tabela com seus respectivos tipos de dados. Vamos ver como isso pode ser feito:
CREATE TABLE brinquedos (TID INTEGER NOT NULL PRIMARY KEY AUTO_INCREMENT, Item_name TEXT, Price INTEGER, Quantidade INTEGER)
No snippet de código acima, ocorrem as seguintes coisas:
- Use o comando ‘CREATE TABLE’ para criar uma mesa chamada brinquedos.
- A tabela de brinquedos contém 4 recursos, a saber, TID (ID da transação), Item_name, Preço e Quantidade.
- Cada variável é definida com seus respectivos tipos de dados.
- A variável TID é declarada como uma chave primária. Uma chave primária basicamente denota uma variável que pode armazenar um valor único.
Você pode verificar ainda mais os detalhes da tabela definida usando o seguinte comando:
DESCREVER brinquedos
Etapa 3: inserir dados na tabela
Agora que criamos uma tabela, vamos preenchê-la com alguns valores. Anteriormente neste blog, mencionei como você pode adicionar dados a uma tabela usando apenas um único comando, ou seja, INSERT INTO.
Vamos ver como isso é feito:
INSERIR EM brinquedos VALORES (NULL, 'Train', 550, 88) INSERIR EM brinquedos VALORES (NULL, 'Hotwheels_car', 350, 80) INSERIR EM brinquedos VALORES (NULL, 'Magic_Pencil', 70, 100) INSERIR EM brinquedos VALORES ( NULL, 'Dog_house', 120, 54) INSERT INTO toys VALUES (NULL, 'Skateboard', 700, 42) INSERT INTO toys VALUES (NULL, 'GI Joe', 300, 120)
No trecho de código acima, simplesmente inserimos 6 observações em nossa tabela de 'brinquedos' usando o comando INSERT INTO. Para cada observação, entre colchetes, especifiquei o valor de cada variável ou recurso que foi definido durante a criação da tabela.
A variável TID é definida como NULL, pois é incrementada automaticamente a partir de 1.
Agora vamos mostrar todos os dados presentes em nossa tabela. Isso pode ser feito usando o comando abaixo:
SELECIONE * DOS brinquedos
Etapa 4: modificar as entradas de dados
Digamos que você decidiu aumentar o preço do G.I. Joe, já que está conseguindo muitos clientes. Como você atualizaria o preço da variável em um banco de dados?
É simples, basta usar o comando abaixo:
ATUALIZAR brinquedos Definir preço = 350 ONDE TID = 6
O comando UPDATE permite que você modifique quaisquer valores / variáveis armazenados na tabela. O parâmetro SET permite que você selecione um recurso particular e o parâmetro WHERE é usado para identificar a variável / valor que você deseja alterar. No comando acima, atualizei o preço da entrada de dados cujo TID é 6 (G.I. Joe).
Agora vamos ver a tabela atualizada:
SELECIONE * DOS brinquedos
Você também pode modificar o que deseja exibir apenas consultando as colunas que deseja exibir. Por exemplo, o comando abaixo exibirá apenas o nome do brinquedo e seu respectivo preço:
SELECT Item_name, Price FROM brinquedos
Etapa 5: Recuperando dados
Então, depois de inserir os dados e modificá-los, finalmente é hora de extrair e recuperar os dados de acordo com os requisitos de negócios. É aqui que os dados podem ser recuperados para posterior análise e modelagem de dados.
Observe que é um exemplo simples para você começar com SQL; no entanto, em cenários do mundo real, os dados são muito mais complicados e grandes em tamanho. Apesar disso, os comandos SQL ainda permanecem os mesmos e é isso que torna o SQL tão simples e compreensível. Ele pode processar conjuntos de dados complexos com um conjunto de comandos SQL simples.
Agora vamos recuperar os dados com algumas modificações. Consulte o código abaixo e tente entender o que ele faz sem olhar para o resultado:
SELECIONE * DOS brinquedos LIMITE 2
Você adivinhou! Ele exibe as duas primeiras observações presentes em minha tabela.
Vamos tentar algo mais interessante.
SELECIONE * DE brinquedos ORDENAR POR Preço ASC
Conforme mostrado na figura, os valores estão dispostos de acordo com a ordem crescente da variável de preço. Se você quiser procurar os três itens comprados com mais frequência, o que você faria?
É realmente muito simples!
SELECIONE * DE brinquedos ORDENAR POR Quantidade DESC LIMIT 3
Vamos tentar mais um.
SELECIONE * DOS brinquedos ONDE Preço> 400 ORDENAR POR Preço ASC
Esta consulta extrai os detalhes dos brinquedos cujo preço é superior a 400 e organiza a saída em ordem crescente do preço.
Então é assim que você pode processar dados usando SQL. Agora que você conhece o básico de SQL para ciência de dados, tenho certeza que está curioso para saber mais. Aqui estão alguns blogs para você começar:
- O que é ciência de dados? Guia para iniciantes em ciência de dados
- Tutorial MySQL - Guia para iniciantes para aprender MySQL
Se você deseja se inscrever em um curso completo de Inteligência Artificial e Aprendizado de Máquina, Edureka tem uma curadoria especial isso o tornará proficiente em técnicas como aprendizado supervisionado, aprendizado não supervisionado e processamento de linguagem natural. Inclui treinamento sobre os mais recentes avanços e abordagens técnicas em Inteligência Artificial e Aprendizado de Máquina, como Aprendizado Profundo, Modelos Gráficos e Aprendizado por Reforço.