Importância da ciência de dados com Cassandra



Cassandra é um banco de dados de código aberto para lidar com grandes quantidades de dados em muitos servidores, portanto, a demanda de cientistas de dados com conhecimento de cassandra é alta.

'

A rápida expansão dos dados digitais por meio de computadores, celulares, vídeo, mídia social, sensores digitais, etc., combinada com grandes avanços em poder de processamento de baixo custo, aplicativos de banco de dados de código aberto e largura de banda mais ampla, despertou enorme interesse em todo o mundo dos negócios no campo emergente da ciência de Big Data e análises.





Big data em grandes volumes não estruturados são muito grandes para serem gerenciados e analisados ​​por meio de métodos tradicionais. A quantidade e a velocidade dos dados atuais tornam a captura, a filtragem, o armazenamento e a análise um verdadeiro desafio. Novos produtos são desenvolvidos regularmente para lidar com isso, o que exige novos conjuntos de habilidades e especialização. Há uma necessidade crescente de indivíduos que possam integrar novas infraestruturas, plataformas e processos na organização, bem como aqueles que possam construir novas análises e algoritmos capazes de criar uma inteligência enorme de grande valor comercial. Para obter mais informações, leia nossa postagem no blog sobre

Relevância da ciência de dados em diferentes setores:

Data Science & Analytics tem aplicação em todos os setores:



  • comércio eletrônico - Mecanismos de personalização e recomendação que aumentam as vendas.
  • Publicidade - Entrega de anúncios em tempo real e altamente direcionada aos consumidores.
  • Mídia e entretenimento - Desenvolvimento de conteúdo personalizado que maximiza o envolvimento do usuário.
  • Mídia social - Aumento da “aderência” do site, crescimento do usuário, capacidade de rastrear tendências de última hora com base nos sentimentos do consumidor.
  • Serviços financeiros –Práticas de empréstimo otimizadas que minimizam o risco e a fraude.
  • Farma / Bioinformática - Melhor descoberta de medicamentos, tratamentos mais eficazes de doenças ameaçadoras, aprimoramentos de engenharia genética.
  • Cuidados de saúde - Melhor pontuação de pacientes médicos para riscos à saúde, bem como antecipação e prevenção precoce de doenças.
  • Potência / Energia - Inteligência de rede inteligente, eficiência de uso, economia de energia e redução do tempo de inatividade.
  • Segurança da Informação - Detecção e monitoramento de roubo amplamente aprimorados de informações e ativos valiosos da empresa.

Habilidades essenciais dos profissionais de ciência de dados:

O domínio da ciência de dados requer profissionais que:

  • Compreende análise de dados e ciência da decisão
  • São bem versados ​​em TI
  • Ter forte visão de negócios
  • Possuem a capacidade de se comunicar de forma eficaz com os tomadores de decisão

Consulte Mais informação: Habilidades básicas necessárias para ser um cientista de dados.

Tecnologias comuns associadas à prática de ciência de dados:

Tecnologias associadas à ciência de dados



  • Bancos de dados

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • línguas

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Hive, Pig, Lucene, Mahout, Solr

  • Estatísticas e previsões

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

para que é usada a programação sas
  • Visualização de dados

QlikView, Spotfire, Tableau, yWorks, R

  • BI e relatórios

BusinessObjects, Cognos, MicroStrategy

O que é Cassandra?

  • Apache Cassandra é um sistema de gerenciamento de banco de dados distribuído de código aberto projetado para lidar com grandes quantidades de dados em muitos servidores de commodities.
  • O Cassandra oferece alta disponibilidade sem nenhum ponto único de falha.
  • O Cassandra oferece suporte robusto para clusters que abrangem vários centros de dados, com replicação sem mestre assíncrona, permitindo operações de baixa latência para todos os clientes.

Para obter mais informações, leia nossa postagem no blog sobre .

tutorial ms sql para iniciantes

Como a Data Science faz uso do Cassandra?

O Cassandra é & tímido & tímido um banco de dados distribuído para serviços de baixa latência e alto rendimento que lidam com cargas de trabalho em tempo real compreendendo centenas de atualizações por segundo e dezenas de milhares de leituras por segundo.

Cassandra Caso de uso - PROS:

A PROS é uma empresa de software de Big Data com analítica prescritiva em seu software que facilita seus clientes a analisar seus dados e obter insights e orientações para otimizar seus preços, vendas e gerenciamento de receita.

Eles têm um serviço em tempo real que calcula a disponibilidade da companhia aérea, levando em consideração dados de controle de receita e níveis de estoque dinamicamente que podem mudar centenas de vezes por segundo.

Este serviço é consultado vários milhares de vezes por segundo, o que se traduz em dezenas de milhares de pesquisas de dados. Sua camada de armazenamento de back-end para este serviço é Cassandra.

Para sua solução em tempo real, PROS percebeu a necessidade de:

  • Um cache distribuído altamente disponível.
  • Facilmente escalonável.
  • Com uma arquitetura master-less.
  • Com replicação de dados quase em tempo real, mesmo em centros de dados.
  • Isso pode lidar com leituras e gravações em tempo real.

PROS avaliou Cassandra contra Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort e Redis. O Apache Cassandra facilmente encabeçou a lista.

PROS e Cassandra

  • O PROS usa o Cassandra como um banco de dados distribuído para serviços de baixa latência e alto rendimento que lidam com cargas de trabalho em tempo real compreendendo centenas de atualizações por segundo e dezenas de milhares de leituras por segundo.
  • Por exemplo, eles têm um serviço em tempo real que calcula a disponibilidade da companhia aérea de forma dinâmica, levando em consideração os dados de controle de receita e os níveis de estoque que podem mudar centenas de vezes por segundo. Este serviço é consultado vários milhares de vezes por segundo, o que se traduz em dezenas de milhares de pesquisas de dados. Sua camada de armazenamento de back-end para este serviço é Cassandra. Algumas de suas ofertas de SaaS usam Cassandra como o armazenamento de back-end para lidar com uma combinação de cargas de trabalho em lote em tempo real e em Hadoop.
  • Falando sobre Hadoop e Cassandra, eles pegam os dados do Cassandra e os colocam no Hadoop e executam lote e análises sobre isso, e então isso volta para o Cassandra. Isso é alcançado por meio da integração do Hadoop do Cassandra.
  • As tarefas do Hadoop extraem dados do Cassandra, aplicam transformações ou análises específicas da tarefa e enviam os dados de volta para o Cassandra. Eles não estão usando a edição Enterprise Datastax (oficial do Cassandra Maintainer) para esta integração, apenas a instalação de software livre do Hadoop com o Cassandra.

Modelagem de dados com Cassandra:

Ao procurar substituir um armazenamento de valor-chave por algo mais capaz na replicação e distribuição de dados em tempo real, pesquisas sobre o Dynamo, o teorema CAP e o modelo de consistência eventual mostram que Cassandra se encaixa muito bem neste modelo. À medida que se aprende mais sobre os recursos de modelagem de dados, gradualmente passamos para a decomposição dos dados.

Se alguém está vindo de um fundo de banco de dados relacional com semântica ACID forte, deve-se dedicar um tempo para entender o modelo de consistência eventual.

Entenda a arquitetura de Cassandra muito bem e o que ela faz nos bastidores. Com o Cassandra 2.0, você obtém transações e gatilhos leves, mas eles não são iguais às transações de banco de dados tradicionais com as quais você pode estar familiarizado. Por exemplo, não há restrições de chave estrangeira disponíveis - ela deve ser tratada por um aplicativo próprio. É fundamental compreender os casos de uso e os padrões de acesso aos dados de uma pessoa claramente antes de modelar os dados com o Cassandra e ler toda a documentação disponível.

Conclusão:

O Apache Cassandra está evoluindo rapidamente e estamos aprendendo e entendendo seus recursos - especialmente no lado da modelagem de dados. Nós o vemos como um banco de dados NoSQL distribuído de escolha para nossos serviços e soluções de Big Data.

Edureka oferece uma ampla para aqueles que desejam se tornar um cientista de dados. O curso cobre uma variedade de técnicas de Hadoop, R e Machine Learning abrangendo o estudo completo de Data Science. Edureka também fornece que ajuda você a dominar os bancos de dados NoSQL. Este curso foi desenvolvido para fornecer conhecimento e habilidades para se tornar um especialista em Cassandra de sucesso.