Estatísticas para aprendizado de máquina: um guia para iniciantes



Este artigo sobre Estatísticas para Aprendizado de Máquina é um guia abrangente sobre os vários conceitos de estatística com exemplos.

Compreender os dados e ser capaz de criar valor a partir deles é a habilidade da década. O aprendizado de máquina é uma habilidade essencial que ajuda as empresas a cumpri-la. No entanto, para começar, você precisa construir suas bases da maneira certa. Portanto, neste artigo, irei cobrir alguns conceitos básicos e fornecer orientações para iniciar sua jornada no aprendizado de máquina. Portanto, neste artigo sobre estatísticas para aprendizado de máquina, os seguintes tópicos serão discutidos:

  1. Probabilidade
  2. Estatisticas
  3. Álgebra Linear

Probabilidade e estatística para aprendizado de máquina:





O que é probabilidade?

Probabilidade quantifica a probabilidade de ocorrência de um evento. Por exemplo, se você lançar um dado justo e imparcial, então a probabilidade de 1 aparecendo é 1/6 . Agora, se você está se perguntando why? Então a resposta é bem simples!

Isso ocorre porque existem seis possibilidades e todas são igualmente prováveis ​​(fair die). Portanto, podemos adicionar 1 + 1 + 1 + 1 + 1 + 1 = 6. Mas, uma vez que estamos interessados ​​no evento onde 1 aparece . Há sim apenas uma maneira pela qual o evento pode ocorrer. Portanto,



Probabilidade de 1 aparecer = 1/6

Semelhante é o caso com todos os outros números, pois todos os eventos são igualmente prováveis. Simples, certo?

Bem, uma definição frequentista de probabilidade para este exemplo soaria como - a probabilidade de 1 aparecer é a razão entre o número de vezes que 1 apareceu e o número total de vezes que o dado foi lançado se o dado foi lançado um número infinito vezes.Como isso faz sentido?



Vamos torná-lo mais interessante. Considere os dois casos - você lançou um dado justo 5 vezes. Em um caso, a sequência de números aparecendo é - [1,4,2,6,4,3]. No outro caso, obtemos - [2,2,2,2,2,2]. Qual você acha que é mais provável?

Ambos são igualmente prováveis. Parece estranho, certo?

Agora, considere outro caso onde todos os 5 rolos em cada caso são independente . Ou seja, um teste não afeta o outro. No primeiro caso, quando 6 aparece, ele não tinha ideia que 2 apareceu antes dele. Portanto, todos os 5 lançamentos são igualmente prováveis.

Da mesma forma, os 2s diretos no segundo caso podem ser entendidos como uma sequência de eventos independentes. E todos esses eventos são igualmente prováveis. No geral, uma vez que temos os mesmos dados, a probabilidade de um determinado número aparecer caso um seja igual ao caso dois. A seguir, neste artigo sobre estatísticas de aprendizado de máquina, vamos entender o termo Independência.

Independência

Dois eventos A e B são considerados independentes se a ocorrência de A não afetar o evento B . Por exemplo, se você jogar uma moeda e rolar um dado, o resultado do dado não tem efeito sobre se a moeda mostra cara ou coroa. Também para dois eventos independentes A e B , a probabilidade de que A e B possam ocorrer juntos . Por exemplo, se você quiser a probabilidade de que a moeda mostre cara e o dado mostre 3.

P (A e B) = P (A) * P (B)

Portanto, P = & frac12 (probabilidade de caras aparecerem) * ⅙ (probabilidade de 3 aparecerem) = 1/12

No exemplo anterior, para ambos os casos, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

string até o momento em java

Agora vamos falar sobre eventos que não são independentes. Considere a seguinte tabela:

Obeso Não obeso
Problemas cardíacosQuatro cincoquinze
Sem problemas de coração1030

Uma pesquisa com 100 pessoas foi realizada. 60 tinham problemas cardíacos e 40 não. Dos 60 com problemas cardíacos, 45 eram obesos. Dos 40 sem problemas cardíacos, 10 eram obesos. Se alguém te perguntar -

  1. Qual é a probabilidade de ter um problema cardíaco?
  2. Qual é a probabilidade de você ter um problema cardíaco e não ser obeso?

A resposta às primeiras perguntas é fácil - 60/100. Para o segundo, seria 15/100. Agora considere a terceira pergunta - uma pessoa foi escolhida aleatoriamente. Ele foi encontrado para ter uma doença cardíaca. Qual é a probabilidade de ele ser obeso?

Agora pense nas informações que você recebeu - Sabe-se que ele tem uma doença cardíaca. Portanto, ele não pode ser dos 40 anos que não tem doença cardíaca. Existem apenas 60 opções possíveis (a linha superior da tabela). Agora, entre essas possibilidades reduzidas, a probabilidade de ele ser obeso é de 45/60. Agora que você sabe o que são eventos independentes, a seguir, neste artigo sobre estatísticas para aprendizado de máquina, vamos entender as probabilidades condicionais.

Probabilidades Condicionais

Para entender as probabilidades condicionais, vamos continuar nossa discussão com o exemplo acima. O estado de obesidade e o estado de sofrer de problemas cardíacos não são independentes. Se a obesidade não afetasse os problemas cardíacos, então o número de casos de obesos e não obesos para pessoas com problemas cardíacos teria sido o mesmo.

Além disso, fomos informados de que a pessoa tem problemas cardíacos e tínhamos que descobrir a probabilidade de ela ser obesa. Portanto, diz-se que a probabilidade, neste caso, está condicionada ao fato de que ele tem um problema cardíaco. Se a probabilidade de o evento A ocorrer está condicionada ao evento B, nós o representamos como

P (A | B)

Agora, existe um teorema que nos ajuda a calcular essa probabilidade condicional. É chamado de Regra de Bayes .

P (A | B) = P (A e B) / P (B)

Você pode verificar esse teorema plugando o exemplo que acabamos de discutir. Se você entendeu até agora, pode começar com o seguinte - Baías ingénuas . Ele usa probabilidades condicionais para classificar se um e-mail é um spam ou não. Ele pode realizar muitas outras tarefas de classificação. Mas, essencialmente, a probabilidade condicional está no cerne da .

Estatisticas:

Estatísticas são usado para resumir e fazer inferências sobre um grande número de pontos de dados. Em Ciência de Dados e Aprendizado de Máquina, você frequentemente encontrará a seguinte terminologia

  • Medidas de centralidade
  • Distribuições (especialmente normais)

Medidas de centralidade e medidas de spreads

Significar:

Média é apenas um média de números . Para descobrir o significado, você deve somar os números e dividi-lo pelo número de números. Por exemplo, a média de [1,2,3,4,5] é 15/5 = 3.

mean-statistics-for-machine-learning

Mediana:

Mediana é o elemento do meio de um conjunto de números quando eles são organizados em ordem crescente. Por exemplo, os números [1,2,4,3,5] são organizados em ordem crescente [1,2,3,4,5]. O do meio é 3. Portanto, a mediana é 3. Mas e se o número de números for par e, portanto, não tiver um número do meio? Nesse caso, você tira a média dos dois números mais intermediários. Para uma sequência de 2n números em ordem crescente, calcule a média do enésimo e (n + 1)ºnúmero para obter a mediana. Exemplo - [1,2,3,4,5,6] tem a mediana (3 + 4) / 2 = 3,5

Modo:

O modo é simplesmente o número mais frequente em um conjunto de números . Por exemplo, o modo de [1,2,3,3,4,5,5,5] é 5.

Variância:

A variância não é uma medida de centralidade. Mede como seus dados são espalhados pela média . É quantificado como

xé a média de N números. Você pega um ponto, subtrai a média, tira o quadrado dessa diferença. Faça isso para todos os N números e faça a média deles. A raiz quadrada da variância é chamada de desvio padrão. A seguir, neste artigo sobre estatísticas para aprendizado de máquina, vamos entender a distribuição normal.

Distribuição normal

A distribuição nos ajuda entender como nossos dados são espalhados . Por exemplo, em uma amostra de idades, podemos ter mais jovens do que adultos mais velhos e, portanto, menores valores de idade mais do que valores maiores. Mas como definimos uma distribuição? Considere o exemplo abaixo

O eixo y representa a densidade. A moda dessa distribuição é 30, pois é o pico e, portanto, mais frequente. Também podemos localizar a mediana. A mediana encontra-se no ponto do eixo x, onde metade da área sob a curva é coberta. A área sob qualquer distribuição normal é 1 porque a soma das probabilidades de todos os eventos é 1. Por exemplo,

como reverter um número

A mediana no caso acima é cerca de 4. Isso significa que a área sob a curva antes de 4 é a mesma que depois de 4. Considere outro exemplo

Vemos três distribuições normais. Os azuis e vermelhos têm a mesma média. O vermelho tem uma variação maior. Portanto, é mais espalhado do que o azul. Mas como a área deve ser 1, o pico da curva vermelha é mais curto do que a curva azul, para manter a área constante.

Espero que você tenha entendido as estatísticas básicas e distribuições normais. Agora, a seguir neste artigo sobre estatística para aprendizado de máquina, vamos aprender sobre Álgebra Linear.

Álgebra Linear

A IA moderna não seria possível sem a Álgebra Linear. Ele forma o núcleo de Aprendizado Profundo e tem sido usado até mesmo em algoritmos simples como . Sem mais delongas, vamos começar.

Você deve estar familiarizado com vetores. Eles são uma espécie de representações geométricas no espaço. Por exemplo, um vetor [3,4] tem 3 unidades ao longo do eixo xe 4 unidades ao longo do eixo y. Considere a seguinte imagem -

O vetor d1 tem 0,707 unidades ao longo do eixo xe 0,707 unidades ao longo do eixo y. Um vetor possui 1 dimensão. Tem necessariamente uma magnitude e uma direção. Por exemplo,

A imagem acima possui um vetor (4,3). Sua magnitude é 5 e faz 36,9 graus com o eixo x.

Agora, o que é uma matriz? Matrix é uma matriz multidimensional de números. Para que é usado? Veremos adiante. Mas primeiro, vamos ver como ele é usado.

Matriz

Uma matriz pode ter muitas dimensões. Vamos considerar uma matriz bidimensional. Possui linhas (m) e colunas (n). Portanto, tem m * n elementos.

diploma de pós-graduação vs diploma de mestrado

Por exemplo,

Esta matriz possui 5 linhas e 5 colunas. Vamos chamá-lo de A. Portanto, A (2,3) é a entrada na segunda linha e na terceira coluna que é 8.

Agora que você sabe o que é uma matriz, vamos examinar as diferentes operações da matriz.

Operações Matrix

Adição de Matrizes

Duas matrizes do mesmo dimensões podem ser adicionadas. A adição ocorre de acordo com os elementos.

Multiplicação escalar

Uma matriz pode ser multiplicada por uma quantidade escalar. Essa multiplicação faz com que cada entrada na matriz seja multiplicada pelo escalar. Um escalar é apenas um número

Matrix Transpose

A transposição da matriz é simples. Para uma matriz A (m, n), seja A 'sua transposta. Então

A '(i, j) = A (j, i)

Por exemplo,

Multiplicação da matriz

Isso provavelmente é um pouco complicado do que outras operações. Antes de mergulharmos nisso, vamos definir o produto escalar entre dois vetores.

Considere o vetor X = [1,4,6,0] e o vetor Y = [2,3,4,5]. Então o produto escalar entre X e Y é definido como

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Portanto, trata-se de multiplicação e adição de elementos. Agora,vamos considerar duas matrizes A (m, n) e B (n, k), onde m, n, k são dimensões e, portanto, inteiros. Definimos multiplicação de matrizes como

No exemplo acima, o primeiro elemento do produto (44) é obtido pelo produto escalar da primeira linha da matriz esquerda com a primeira coluna da matriz direita. Da mesma forma, 72 é obtido pelo produto escalar da primeira linha da matriz esquerda com a segunda coluna da matriz direita.

Observe que para a matriz esquerda, o número de colunas deve ser igual ao número de linhas da coluna direita. Em nosso caso, o produto AB existe, mas não BA, pois m não é igual a k. Para duas matrizes A (m, n) e B (n, k), o produto AB é definido e a dimensão do produto é (m, k) (as dimensões mais externas de (m, n), (n, k )). Mas BA não é definido a menos que m = k.

Com isso, encerramos este artigo sobre Estatísticas para Aprendizado de Máquina. Espero que você tenha entendido alguns dos jargões do aprendizado de máquina. Mas não acaba aqui. Para ter certeza de que está pronto para o setor, você pode conferir os cursos da Edureka sobre ciência de dados e IA. Eles podem ser encontrados