O que é viés-variação no aprendizado de máquina?



Este artigo cobre o conceito de viés e variância no aprendizado de máquina, com uma relação entre eles determinando a precisão preditiva do modelo.

Dentro , o desempenho de um modelo é baseado em suas previsões e quão bem ele generaliza para dados não vistos e independentes. Uma forma de medir a precisão de um modelo é levando em consideração o viés e a variação no modelo. Neste artigo, aprenderemos como a variação de polarização desempenha um papel importante na determinação da autenticidade do modelo. Os seguintes tópicos são discutidos neste artigo:

Erro Irredutível

Qualquer modelo em é avaliado com base no erro de previsão em um novo conjunto de dados independente e invisível. O erro nada mais é do que a diferença entre a saída real e a saída prevista. Para calcular o erro, fazemos a soma dos erros redutíveis e irredutíveis a.k.a decomposição de polarização-variância.





O erro irreversível nada mais é do que aqueles erros que não podem ser reduzidos, independentemente de qualquer que você usa no modelo. É causado por variáveis ​​incomuns que têm influência direta na variável de saída. Então, para tornar seu modelo eficiente, ficamos com o erro redutível que precisamos otimizar a todo custo.

converter decimal em código binário python

Um erro redutível tem dois componentes - Viés e Variância , a presença de viés e variância influenciam a precisão do modelo de várias maneiras, como overfitting, underfitting etc.Vamos dar uma olhada no viés e na variância para entender como lidar com o erro redutível em .



O que é preconceito no aprendizado de máquina?

O viés é basicamente o quanto previmos o valor do valor real. Dizemos que a tendência é muito alta se as previsões médias estiverem distantes dos valores reais.

Uma alta polarização fará com que o algoritmo perca um padrão dominante ou relação entre as variáveis ​​de entrada e saída. Quando o viés é muito alto, presume-se que o modelo é bastante simples e não compreende a complexidade do conjunto de dados para determinar a relação e, portanto,causando underfitting.

Variância em um modelo de aprendizado de máquina?

Em um conjunto de dados independente e invisível ou em um conjunto de validação. Quando um modelo não funciona tão bem quanto com o conjunto de dados treinado, existe a possibilidade de que o modelo tenha uma variação. Basicamente, ele informa o quão dispersos os valores previstos estão dos valores reais.



Uma alta variação em um conjunto de dados significa que o modelo foi treinado com muito ruído e dados irrelevantes. Causando assim overfitting no modelo. Quando um modelo tem alta variação, ele se torna muito flexível e faz previsões erradas para novos pontos de dados. Porque ele se sintonizou com os pontos de dados do conjunto de treinamento.

Vamos também tentar entender o conceito de viés-variância matematicamente. Vamos supor que a variável que estamos prevendo seja Y e as outras variáveis ​​independentes sejam X. Agora, vamos supor que haja uma relação entre as duas variáveis ​​tal que:

Y = f (X) + e

Na equação acima, aqui é é o erro estimado com um valor médio 0. Quando fazemos um classificador usando algoritmos como regressão linear , , etc, o erro quadrático esperado no ponto x será:

err (x) = Bias2+ Variância + erro irredutível

Vamos também entender como o Bias-Variance afetará um Aprendizado de Máquina desempenho do modelo.

parse double para int java

Como isso afeta o modelo de aprendizado de máquina?

Podemos colocar a relação entre viés-variância em quatro categorias listadas abaixo:

  1. Alta Variância-Alta Polarização - O modelo é inconsistente e também impreciso em média
  2. Baixa variância-alta polarização - os modelos são consistentes, mas baixos em média
  3. Alta variação-baixa polarização - um pouco preciso, mas inconsistente nas médias
  4. Low Variance-Low Bias - É o cenário ideal, o modelo é consistente e preciso em média.

viés-variância no aprendizado de máquina-edureka

Embora a detecção de viés e variância em um modelo seja bastante evidente. Um modelo com alta variância terá um erro de treinamento baixo e um erro de validação alto. E no caso de alta polarização, o modelo terá alto erro de treinamento e erro de validação é o mesmo que erro de treinamento.

Embora a detecção pareça fácil, a verdadeira tarefa é reduzi-la ao mínimo. Nesse caso, podemos fazer o seguinte:

  • Adicionar mais recursos de entrada
  • Mais complexidade com a introdução de recursos polinomiais
  • Diminuir prazo de regularização
  • Obter mais dados de treinamento

Agora que sabemos o que é enviesamento e variância e como isso afeta nosso modelo, vamos dar uma olhada em uma compensação entre enviesamento e variância.

Compensação de polarização-variância

Encontrar o equilíbrio certo entre o enviesamento e a variância do modelo é denominado trade-off entre enviesamento e variância. É basicamente uma maneira de garantir que o modelo não seja super ajustado ou insuficiente em qualquer caso.

Se o modelo for muito simples e tiver poucos parâmetros, ele sofrerá de alta polarização e baixa variância. Por outro lado, se o modelo possuir um grande número de parâmetros, ele terá alta variância e baixo viés. Essa troca deve resultar em uma relação perfeitamente equilibrada entre os dois. Idealmente, o baixo viés e a baixa variância são o alvo de qualquer modelo de aprendizado de máquina.

Erro Total

Em qualquer modelo de aprendizado de máquina, um bom equilíbrio entre o viés e a variância serve como um cenário perfeito em termos de precisão preditiva e evitando overfitting, underfitting completamente. Um equilíbrio ideal entre o viés e a variância, em termos de complexidade do algoritmo, garantirá que o modelo nunca seja superdimensionado ou insuficiente.

O erro quadrático médio em um modelo estatístico é considerado como a soma da polarização quadrada e da variância e da variância do erro. Tudo isso pode ser colocado dentro de um erro total onde temos viés, variância e erro irredutível em um modelo.

Vamos entender como podemos reduzir o erro total com a ajuda de uma implementação prática.

Nós criamos um classificador de regressão linear no Regressão Linear em Aprendizado de Máquina artigo sobre Edureka usando o conjunto de dados de diabetes no módulo de conjuntos de dados de scikit aprender biblioteca.

Quando avaliamos o erro quadrático médio do classificador, obtivemos um erro total em torno de 2500.

Para reduzir o erro total, fornecemos mais dados ao classificador e, em troca, o erro quadrático médio foi reduzido para 2.000.

qual é a diferença entre substituir e sobrecarregar

É uma implementação simples de redução do erro total, alimentando mais dados de treinamento para o modelo. Da mesma forma, podemos aplicar outras técnicas para reduzir o erro e manter um equilíbrio entre a tendência e a variância para um modelo de aprendizado de máquina eficiente.

Isso nos leva ao final deste artigo, onde aprendemos Bias-Variance em Machine Learning com sua implementação e caso de uso. Espero que você tenha esclarecido tudo o que foi compartilhado com você neste tutorial.

Se você achou este artigo sobre 'Bias-Variance In Machine Learning' relevante, verifique o uma empresa de aprendizagem online confiável com uma rede de mais de 250.000 alunos satisfeitos espalhados por todo o mundo.

Estamos aqui para ajudá-lo em cada etapa de sua jornada e criar um currículo projetado para estudantes e profissionais que desejam ser um . O curso foi desenvolvido para dar a você uma vantagem inicial na programação Python e treiná-lo para os conceitos básicos e avançados do Python, juntamente com vários gostar , etc.

Se você encontrar alguma dúvida, fique à vontade para fazer todas as suas perguntas na seção de comentários de “Polarização-variação no aprendizado de máquina” e nossa equipe terá prazer em responder.