O que é ciência de dados? Guia para iniciantes em ciência de dados



Data Science é o futuro da Inteligência Artificial. Aprenda o que é Data Science, como pode agregar valor ao seu negócio e suas várias fases do ciclo de vida.

Conforme o mundo entrava na era do big data, a necessidade de seu armazenamento também aumentava. Foi o principal desafio e preocupação das indústrias corporativas até 2010. O foco principal foi a construção de uma estrutura e soluções para armazenamento de dados. Agora, quando o Hadoop e outras estruturas resolveram com sucesso o problema de armazenamento, o foco mudou para o processamento desses dados. Data Science é o ingrediente secreto aqui. Todas as ideias que você vê nos filmes de ficção científica de Hollywood podem realmente se transformar em realidade pela Data Science. Data Science é o futuro da Inteligência Artificial. Portanto, é muito importante entender o que é Data Science e como ela pode agregar valor ao seu negócio.

O Guia de Carreira Técnica Edureka 2019 foi lançado! As funções de trabalho mais interessantes, caminhos de aprendizagem precisos, perspectivas do setor e muito mais no guia. Baixar agora.

Neste blog, estarei cobrindo os seguintes tópicos.





Ao final deste blog, você será capaz de entender o que é Ciência de Dados e seu papel na extração de insights significativos dos complexos e grandes conjuntos de dados ao nosso redor.Para obter conhecimento aprofundado sobre ciência de dados, você pode se inscrever para por Edureka com suporte 24 horas por dia, 7 dias por semana e acesso vitalício.

O que é ciência de dados?

Data Science é uma combinação de várias ferramentas, algoritmos e princípios de aprendizado de máquina com o objetivo de descobrir padrões ocultos dos dados brutos. Mas como isso difere do que os estatísticos vêm fazendo há anos?



A resposta está na diferença entre explicar e prever.

Analista de dados v / s Data Science - Edureka

Como você pode ver na imagem acima, um Analista de Dadosgeralmente explica o que está acontecendo processando o histórico dos dados. Por outro lado, o Data Scientist não só faz a análise exploratória para descobrir insights, mas também usa vários algoritmos avançados de aprendizado de máquina para identificar a ocorrência de um determinado evento no futuro. Um cientista de dados analisará os dados de vários ângulos, às vezes ângulos não conhecidos anteriormente.



Portanto, a ciência de dados é usada principalmente para tomar decisões e previsões fazendo uso de análise causal preditiva, análise prescritiva (ciência preditiva mais ciência da decisão) e aprendizado de máquina.

  • Análise causal preditiva - Se você deseja um modelo que pode prever as possibilidades de um determinado evento no futuro, é necessário aplicar a análise causal preditiva. Digamos que, se você estiver fornecendo dinheiro a crédito, a probabilidade de os clientes fazerem futuros pagamentos a crédito no prazo é um motivo de preocupação para você. Aqui, você pode construir um modelo que pode realizar análises preditivas sobre o histórico de pagamento do cliente para prever se os pagamentos futuros serão pontuais ou não.
  • Análise prescritiva: Se você deseja um modelo que tenha inteligência para tomar suas próprias decisões e a capacidade de modificá-lo com parâmetros dinâmicos, certamente precisará de análises prescritivas para ele. Este campo relativamente novo é para fornecer conselhos. Em outros termos, não apenas prevê, mas sugere uma série de ações prescritas e resultados associados.
    O melhor exemplo disso é o carro autônomo do Google, que também discuti anteriormente. Os dados coletados por veículos podem ser usados ​​para treinar carros autônomos. Você pode executar algoritmos nesses dados para trazer inteligência a eles. Isso permitirá que seu carro tome decisões como quando virar, que caminho seguir,quando desacelerar ou acelerar.
  • Aprendizado de máquina para fazer previsões - Se você tem dados transacionais de uma empresa de finanças e precisa construir um modelo para determinar a tendência futura, algoritmos de aprendizado de máquina são a melhor aposta. Isso se enquadra no paradigma da aprendizagem supervisionada. É chamado de supervisionado porque você já tem os dados com base nos quais pode treinar suas máquinas. Por exemplo, um modelo de detecção de fraude pode ser treinado usando um registro histórico de compras fraudulentas.
  • Aprendizado de máquina para descoberta de padrões - Se você não tem os parâmetros com base nos quais você pode fazer previsões, então você precisa descobrir os padrões ocultos dentro do conjunto de dados para poder fazer previsões significativas. Isso nada mais é do que o modelo não supervisionado, já que você não tem rótulos predefinidos para agrupamento. O algoritmo mais comum usado para descoberta de padrões é o armazenamento em cluster.
    Digamos que você esteja trabalhando em uma companhia telefônica e precise estabelecer uma rede colocando torres em uma região. Em seguida, você pode usar a técnica de agrupamento para encontrar os locais das torres que garantirão que todos os usuários recebam a intensidade de sinal ideal.

Vamos ver como a proporção das abordagens descritas acima difere tanto para a análise de dados quanto para a ciência de dados. Como você pode ver na imagem abaixo, Análise de Dadosinclui análise descritiva e previsão até certo ponto. Por outro lado, Data Science é mais sobre Predictive Causal Analytics e Machine Learning.

Data Science Analytics - Edureka

Agora que você sabe exatamente o que é Data Science, vamos descobrir o motivo pelo qual ele foi necessário.

Por que ciência de dados?

  • Tradicionalmente, os dados que tínhamos eram em sua maioria estruturados e de tamanho pequeno, que podiam ser analisados ​​usando ferramentas simples de BI.Ao contrário dos dados nosistemas tradicionais que eram principalmente estruturados, hoje a maioria dos dados é não estruturada ou semiestruturada. Vamos dar uma olhada nas tendências de dados na imagem abaixo, que mostra que, em 2020, mais de 80% dos dados estarão desestruturados.
    Fluxo de dados não estruturados - Edureka
    Esses dados são gerados a partir de diferentes fontes, como registros financeiros, arquivos de texto, formulários multimídia, sensores e instrumentos. As ferramentas de BI simples não são capazes de processar esse grande volume e variedade de dados. É por isso que precisamos de ferramentas e algoritmos analíticos mais complexos e avançados para processar, analisar e obter insights significativos a partir dele.

Esta não é a única razão pela qual Data Science se tornou tão popular. Vamos nos aprofundar e ver como a ciência de dados está sendo usada em vários domínios.

  • Que tal se você pudesse entender os requisitos precisos de seus clientes a partir dos dados existentes, como histórico de navegação anterior do cliente, histórico de compras, idade e renda. Sem dúvida, você também tinha todos esses dados antes, mas agora, com a vasta quantidade e variedade de dados, você pode treinar modelos de forma mais eficaz e recomendar o produto aos seus clientes com mais precisão. Não seria incrível, pois traria mais negócios para a sua organização?
  • Vejamos um cenário diferente para entender o papel da Ciência de Dados em tomando uma decisão.Que tal se seu carro tivesse inteligência para levá-lo para casa? Os carros autônomos coletam dados ao vivo de sensores, incluindo radares, câmeras e lasers para criar um mapa de seus arredores. Com base nesses dados, ele toma decisões como quando acelerar, quando diminuir, quando ultrapassar, onde virar - usando algoritmos avançados de aprendizado de máquina.
  • Vamos ver como a ciência de dados pode ser usada em análises preditivas. Vejamos a previsão do tempo como exemplo. Dados de navios, aeronaves, radares, satélites podem ser coletados e analisados ​​para construir modelos. Esses modelos não irão apenas prever o tempo, mas também ajudar a prever a ocorrência de quaisquer calamidades naturais. Isso o ajudará a tomar as medidas adequadas com antecedência e salvar muitas vidas preciosas.

Vamos dar uma olhada no infográfico abaixo para ver todos os domínios onde a Ciência de Dados está criando sua impressão.

Casos de uso de ciência de dados - Edureka

Quem é um cientista de dados?

Existem várias definições disponíveis para Cientistas de Dados. Em palavras simples, um cientista de dados é aquele que pratica a arte da ciência de dados.O termo “Cientista de Dados” foicunhada após considerar o fato de que um cientista de dados extrai muitas informações dos campos e aplicações científicas, sejam estatísticas ou matemáticas.

O que um cientista de dados faz?

Cientistas de dados são aqueles que resolvem problemas de dados complexos com sua forte experiência em certas disciplinas científicas. Eles trabalham com vários elementos relacionados à matemática, estatística, ciência da computação, etc (embora possam não ser especialistas em todos esses campos).Eles usam muito as tecnologias mais recentes para encontrar soluções e chegar a conclusões que são cruciais para o crescimento e desenvolvimento de uma organização. Os cientistas de dados apresentam os dados de uma forma muito mais útil em comparação com os dados brutos disponíveis para eles em formulários estruturados e não estruturados.

Para saber mais sobre um cientista de dados, você pode consultar este artigo em

Indo mais longe, vamos agora discutir o BI. Tenho certeza de que você também deve ter ouvido falar de Business Intelligence (BI). Freqüentemente, Data Science é confundida com BI. Vou declarar alguns concisos e claroscontrastes entre os dois que o ajudarão a obter uma melhor compreensão. Vamos dar uma olhada.

Business Intelligence (BI) vs. Data Science

  • Business Intelligence (BI) basicamente analisa os dados anteriores para encontrar uma visão retrospectiva e uma visão geral para descrever as tendências de negócios. Aqui, o BI permite que você pegue dados de fontes externas e internas, prepare-os, execute consultas e crie painéis para responder a perguntas comoanálise de receita trimestralou problemas de negócios. O BI pode avaliar o impacto de certos eventos no futuro próximo.
  • Data Science é uma abordagem mais voltada para o futuro, uma forma exploratória com o foco em analisar os dados passados ​​ou atuais e prever os resultados futuros com o objetivo de tomar decisões informadas. Ele responde às perguntas abertas sobre “o quê” e “como” os eventos ocorrem.

Vamos dar uma olhada em alguns recursos contrastantes.

Recursos Business Intelligence (BI) Ciência de Dados
Fontes de dadosEstruturada
(Normalmente SQL, frequentemente Data Warehouse)
Estruturado e não estruturado

(registros, dados em nuvem, SQL, NoSQL, texto)

AbordagemEstatística e VisualizaçãoEstatística, Aprendizado de Máquina, Análise de Gráfico, Programação Neurolinguística (PNL)
FocoPassado e presentePresente e Futuro
FerramentasPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Isso era tudo sobre o que é Data Science, agora vamos entender o ciclo de vida da Data Science.

Um erro comum cometido em projetos de ciência de dados é apressar a coleta e análise de dados, sem entender os requisitos ou mesmo enquadrar o problema de negócios de maneira adequada. Portanto, é muito importante que você acompanhe todas as fases ao longo do ciclo de vida da Ciência de Dados para garantir o bom funcionamento do projeto.

Ciclo de vida da ciência de dados

Aqui está uma breve visão geral das principais fases do ciclo de vida da ciência de dados:

Ciclo de vida da ciência de dados - Edureka


Discovery of Data Science - EdurekaFase 1 - descoberta:
Antes de iniciar o projeto, é importante entender as várias especificações, requisitos, prioridades e orçamento necessários. Você deve possuir a habilidade de fazer as perguntas certas.Aqui, você avalia se possui os recursos necessários presentes em termos de pessoas, tecnologia, tempo e dados para apoiar o projeto.Nesta fase, você também precisa enquadrar o problema de negócios e formular hipóteses iniciais (IH) para testar.

Preparação de dados Data Science - Edureka

Fase 2 - Preparação de dados: Nesta fase, você precisa de uma sandbox analítica na qual pode realizar análises durante toda a duração do projeto. Você precisa explorar, pré-processar e condicionar os dados antes da modelagem. Além disso, você executará ETLT (extrair, transformar, carregar e transformar) para colocar os dados na caixa de proteção. Vamos dar uma olhada no fluxo de Análise Estatística abaixo.

Ciclo de vida da ciência de dados
Você pode usar R para limpeza, transformação e visualização de dados. Isso o ajudará a identificar os outliers e estabelecer uma relação entre as variáveis.Depois de limpar e preparar os dados, é hora de exploraranalíticanele. Vamos ver como você pode conseguir isso.

Fase 3 - Planejamento do modelo: Planejamento de modelo de ciência de dados - Edureka Aqui, você determinará os métodos e técnicas para desenhar as relações entre as variáveis.Esses relacionamentos definirão a base para os algoritmos que você implementará na próxima fase.Você aplicará Exploratory Data Analytics (EDA) usando várias fórmulas estatísticas e ferramentas de visualização.

Vamos dar uma olhada em várias ferramentas de planejamento de modelo.

Ferramentas de planejamento de modelos em Data Science - Edureka

  1. R tem um conjunto completo de recursos de modelagem e fornece um bom ambiente para a construção de modelos interpretativos.
  2. Serviços de análise SQL pode realizar análises no banco de dados usando funções de mineração de dados comuns e modelos preditivos básicos.
  3. SAS / ACCESS pode ser usado para acessar dados do Hadoop e é usado para criar diagramas de fluxo de modelo repetíveis e reutilizáveis.

Embora muitas ferramentas estejam presentes no mercado, mas R é a ferramenta mais comumente usada.

Agora que você tem insights sobre a natureza de seus dados e decidiu os algoritmos a serem usados. Na próxima fase, você vaiApliqueo algoritmo e construir um modelo.

Construção de modelo de ciência de dados - EdurekaFase 4 - Construção do modelo: Nesta fase, você desenvolverá conjuntos de dados para fins de treinamento e teste. Aqui yVocê precisa considerar se suas ferramentas existentes serão suficientes para executar os modelos ou se será necessário um ambiente mais robusto (como processamento rápido e paralelo). Você vai analisar várias técnicas de aprendizagem como classificação, associação e agrupamento para construir o modelo.

Você pode obter a construção do modelo por meio das seguintes ferramentas.

Ferramentas de construção de modelos em ciência de dados

Fase 5 - operacionalizar: Ciência de dados operacionalizada - Edureka Nesta fase, você entrega relatórios finais, briefings, código e documentos técnicos.Além disso, às vezes um projeto piloto também é implementado em um ambiente de produção em tempo real. Isso fornecerá a você uma imagem clara do desempenho e outras restrições relacionadas em pequena escala antes da implantação completa.


Comunicação em Ciência de Dados - EdurekaFase 6 - Comunicar os resultados:
Agora é importante avaliar se você conseguiu atingir o objetivo que havia planejado na primeira fase. Então, na última fase, você identifica todas as descobertas principais, comunica às partes interessadas e determina se os resultadosdo projeto são um sucesso ou um fracasso com base nos critérios desenvolvidos na Fase 1.

Agora, vou fazer um estudo de caso para explicar as várias fases descritas acima.

Estudo de caso: prevenção da diabetes

E se pudéssemos prever a ocorrência de diabetes e tomar as medidas adequadas com antecedência para evitá-la?
Nesse caso de uso, preveremos a ocorrência de diabetes fazendo uso de todo o ciclo de vida que discutimos anteriormente. Vamos percorrer as várias etapas.

Passo 1:

  • Primeiro,vamos coletar os dados com base no histórico médicodo paciente, conforme discutido na Fase 1. Você pode consultar os dados de amostra abaixo.

Dados de amostra da Data Science - Edureka

  • Como você pode ver, temos os vários atributos mencionados abaixo.

Atributos:

  1. npreg - Número de gestações
  2. glicose - concentração de glicose plasmática
  3. bp - pressão arterial
  4. pele - espessura da dobra cutânea do tríceps
  5. bmi - índice de massa corporal
  6. ped - função de pedigree de diabetes
  7. idade - idade
  8. renda - renda

Passo 2:

  • Agora, uma vez que temos os dados, precisamos limpar e preparar os dados para análise de dados.
  • Esses dados têm muitas inconsistências, como valores ausentes, colunas em branco, valores abruptos e formato de dados incorreto que precisam ser limpos.
  • Aqui, organizamos os dados em uma única tabela com atributos diferentes - tornando-os mais estruturados.
  • Vamos dar uma olhada nos dados de amostra abaixo.

Dados inconsistentes da Data Science - Edureka

Esses dados têm muitas inconsistências.

  1. Na coluna npreg , “Um” está escrito empalavras,ao passo que deve estar na forma numérica como 1.
  2. Na coluna bp um dos valores é 6600, o que é impossível (pelo menos para humanos) já que o bp não pode chegar a um valor tão grande.
  3. Como você pode ver o Renda a coluna está em branco e também não faz sentido para prever diabetes. Portanto, é redundante tê-lo aqui e deve ser removido da mesa.
  • Então, vamos limpar e pré-processar esses dados removendo os outliers, preenchendo os valores nulos e normalizando o tipo de dados. Se você se lembra, esta é a nossa segunda fase, que é o pré-processamento de dados.
  • Finalmente, obtemos os dados limpos, conforme mostrado abaixo, que podem ser usados ​​para análise.

Dados consistentes de ciência de dados - Edureka

Etapa 3:

Agora vamos fazer algumas análises conforme discutido anteriormente na Fase 3.

  • Primeiro, carregaremos os dados na caixa de proteção analítica e aplicaremos várias funções estatísticas a ela. Por exemplo, R tem funções como descreve que nos dá o número de valores ausentes e valores exclusivos. Também podemos usar a função de resumo, que nos fornecerá informações estatísticas como média, mediana, intervalo, valores mínimo e máximo.
  • Em seguida, usamos técnicas de visualização, como histogramas, gráficos de linha, diagramas de caixa para ter uma ideia justa da distribuição dos dados.

Visualização de ciência de dados - Edureka

Passo 4:

Agora, com base nos insights derivados da etapa anterior, o melhor ajuste para esse tipo de problema é a árvore de decisão. Vamos ver como?

  • Desde então, já temos os principais atributos para análise, como npreg, bmi , etc., então vamos usartécnica de aprendizagem supervisionada para construir ummodelo aqui.
  • Além disso, usamos particularmente a árvore de decisão porque ela leva todos os atributos em consideração de uma vez, como aqueles que têm umrelação linear, bem como aquelas que têm uma relação não linear. Em nosso caso, temos uma relação linear entre npreg e era, Considerando que a relação não linear entre npreg e ped .
  • Os modelos de árvore de decisão também são muito robustos, pois podemos usar as diferentes combinações de atributos para fazer várias árvores e, finalmente, implementar aquela com a eficiência máxima.

Vamos dar uma olhada em nossa árvore de decisão.

Conjunto de dados de árvore de projeto

Aqui, o parâmetro mais importante é o nível de glicose, portanto, é nosso nó raiz. Agora, o nó atual e seu valor determinam o próximo parâmetro importante a ser usado. Continua até obtermos o resultado em termos de pos ou neg . Pos significa que a tendência de ter diabetes é positiva e neg significa que a tendência de ter diabetes é negativa.

Se você quiser saber mais sobre a implementação da árvore de decisão, consulte este blog

Etapa 5:

Nesta fase, executaremos um pequeno projeto piloto para verificar se nossos resultados são adequados. Também procuraremos restrições de desempenho, se houver. Se os resultados não forem precisos, precisamos replanejar e reconstruir o modelo.

Etapa 6:

Assim que tivermos executado o projeto com sucesso, compartilharemos a saída para implantação completa.

Ser um cientista de dados é mais fácil de falar do que fazer. Então, vamos ver do que você precisa para ser um cientista de dados.Um cientista de dados requer habilidades basicamentede três áreas principais, conforme mostrado abaixo.

Habilidades de ciência de dados - Edureka

Como você pode ver na imagem acima, você precisa adquirir várias habilidades básicas e sociais. Você precisa ser bom em Estatisticas e matemática para analisar e visualizar dados. Nem preciso dizer Aprendizado de Máquina forma o coração da Data Science e exige que você seja bom nisso. Além disso, você precisa ter um conhecimento sólido do domínio você está trabalhando para entender claramente os problemas de negócios. Sua tarefa não termina aqui. Você deve ser capaz de implementar vários algoritmos que requerem boas codificação Habilidades. Por fim, depois de tomar certas decisões importantes, é importante que você as entregue às partes interessadas. Tão bom comunicação com certeza adicionará pontos de brownie às suas habilidades.

o que é sessão em java

Recomendo que você veja este vídeo tutorial de Ciência de Dados que explica o que é Ciência de Dados e tudo o que discutimos no blog. Vá em frente, aproveite o vídeo e me diga o que você achou.

O que é ciência de dados? Curso de ciência de dados - Tutorial de ciência de dados para iniciantes | Edureka

Este vídeo do curso Edureka Data Science o levará através da necessidade da ciência de dados, o que é ciência de dados, casos de uso de ciência de dados para negócios, BI vs ciência de dados, ferramentas de análise de dados, ciclo de vida de ciência de dados junto com uma demonstração.

No final das contas, não será errado dizer que o futuro pertence aos cientistas de dados. A previsão é que até o final do ano de 2018, sejam necessários cerca de um milhão de Cientistas de Dados. Mais e mais dados fornecerão oportunidades para conduzir decisões de negócios importantes. Em breve, mudará a maneira como vemos o mundo repleto de dados ao nosso redor. Portanto, um cientista de dados deve ser altamente qualificado e motivado para resolver os problemas mais complexos.

Espero que tenha gostado de ler meu blog e entendido o que é ciência de dados.Confira nosso aqui, isso vem com treinamento ao vivo conduzido por instrutor e experiência de projeto da vida real.