Dentro , o desempenho de um modelo é baseado em suas previsões e quão bem ele generaliza para dados não vistos e independentes. Uma forma de medir a precisão de um modelo é levando em consideração o viés e a variação no modelo. Neste artigo, aprenderemos como a variação de polarização desempenha um papel importante na determinação da autenticidade do modelo. Os seguintes tópicos são discutidos neste artigo:
- Erro Irredutível
- O que é preconceito no aprendizado de máquina?
- Variância em um modelo de aprendizado de máquina?
- Como isso afeta o modelo de aprendizado de máquina?
- Compensação de polarização-variância
- Erro Total
Erro Irredutível
Qualquer modelo em é avaliado com base no erro de previsão em um novo conjunto de dados independente e invisível. O erro nada mais é do que a diferença entre a saída real e a saída prevista. Para calcular o erro, fazemos a soma dos erros redutíveis e irredutíveis a.k.a decomposição de polarização-variância.
O erro irreversível nada mais é do que aqueles erros que não podem ser reduzidos, independentemente de qualquer que você usa no modelo. É causado por variáveis incomuns que têm influência direta na variável de saída. Então, para tornar seu modelo eficiente, ficamos com o erro redutível que precisamos otimizar a todo custo.
converter decimal em código binário python
Um erro redutível tem dois componentes - Viés e Variância , a presença de viés e variância influenciam a precisão do modelo de várias maneiras, como overfitting, underfitting etc.Vamos dar uma olhada no viés e na variância para entender como lidar com o erro redutível em .
O que é preconceito no aprendizado de máquina?
O viés é basicamente o quanto previmos o valor do valor real. Dizemos que a tendência é muito alta se as previsões médias estiverem distantes dos valores reais.
Uma alta polarização fará com que o algoritmo perca um padrão dominante ou relação entre as variáveis de entrada e saída. Quando o viés é muito alto, presume-se que o modelo é bastante simples e não compreende a complexidade do conjunto de dados para determinar a relação e, portanto,causando underfitting.
Variância em um modelo de aprendizado de máquina?
Em um conjunto de dados independente e invisível ou em um conjunto de validação. Quando um modelo não funciona tão bem quanto com o conjunto de dados treinado, existe a possibilidade de que o modelo tenha uma variação. Basicamente, ele informa o quão dispersos os valores previstos estão dos valores reais.
Uma alta variação em um conjunto de dados significa que o modelo foi treinado com muito ruído e dados irrelevantes. Causando assim overfitting no modelo. Quando um modelo tem alta variação, ele se torna muito flexível e faz previsões erradas para novos pontos de dados. Porque ele se sintonizou com os pontos de dados do conjunto de treinamento.
Vamos também tentar entender o conceito de viés-variância matematicamente. Vamos supor que a variável que estamos prevendo seja Y e as outras variáveis independentes sejam X. Agora, vamos supor que haja uma relação entre as duas variáveis tal que:
Y = f (X) + e
Na equação acima, aqui é é o erro estimado com um valor médio 0. Quando fazemos um classificador usando algoritmos como regressão linear , , etc, o erro quadrático esperado no ponto x será:
err (x) = Bias2+ Variância + erro irredutível
Vamos também entender como o Bias-Variance afetará um Aprendizado de Máquina desempenho do modelo.
parse double para int java
Como isso afeta o modelo de aprendizado de máquina?
Podemos colocar a relação entre viés-variância em quatro categorias listadas abaixo:
- Alta Variância-Alta Polarização - O modelo é inconsistente e também impreciso em média
- Baixa variância-alta polarização - os modelos são consistentes, mas baixos em média
- Alta variação-baixa polarização - um pouco preciso, mas inconsistente nas médias
- Low Variance-Low Bias - É o cenário ideal, o modelo é consistente e preciso em média.
Embora a detecção de viés e variância em um modelo seja bastante evidente. Um modelo com alta variância terá um erro de treinamento baixo e um erro de validação alto. E no caso de alta polarização, o modelo terá alto erro de treinamento e erro de validação é o mesmo que erro de treinamento.
Embora a detecção pareça fácil, a verdadeira tarefa é reduzi-la ao mínimo. Nesse caso, podemos fazer o seguinte:
- Adicionar mais recursos de entrada
- Mais complexidade com a introdução de recursos polinomiais
- Diminuir prazo de regularização
- Obter mais dados de treinamento
Agora que sabemos o que é enviesamento e variância e como isso afeta nosso modelo, vamos dar uma olhada em uma compensação entre enviesamento e variância.
Compensação de polarização-variância
Encontrar o equilíbrio certo entre o enviesamento e a variância do modelo é denominado trade-off entre enviesamento e variância. É basicamente uma maneira de garantir que o modelo não seja super ajustado ou insuficiente em qualquer caso.
Se o modelo for muito simples e tiver poucos parâmetros, ele sofrerá de alta polarização e baixa variância. Por outro lado, se o modelo possuir um grande número de parâmetros, ele terá alta variância e baixo viés. Essa troca deve resultar em uma relação perfeitamente equilibrada entre os dois. Idealmente, o baixo viés e a baixa variância são o alvo de qualquer modelo de aprendizado de máquina.
Erro Total
Em qualquer modelo de aprendizado de máquina, um bom equilíbrio entre o viés e a variância serve como um cenário perfeito em termos de precisão preditiva e evitando overfitting, underfitting completamente. Um equilíbrio ideal entre o viés e a variância, em termos de complexidade do algoritmo, garantirá que o modelo nunca seja superdimensionado ou insuficiente.
O erro quadrático médio em um modelo estatístico é considerado como a soma da polarização quadrada e da variância e da variância do erro. Tudo isso pode ser colocado dentro de um erro total onde temos viés, variância e erro irredutível em um modelo.
Vamos entender como podemos reduzir o erro total com a ajuda de uma implementação prática.
Nós criamos um classificador de regressão linear no Regressão Linear em Aprendizado de Máquina artigo sobre Edureka usando o conjunto de dados de diabetes no módulo de conjuntos de dados de scikit aprender biblioteca.
Quando avaliamos o erro quadrático médio do classificador, obtivemos um erro total em torno de 2500.
Para reduzir o erro total, fornecemos mais dados ao classificador e, em troca, o erro quadrático médio foi reduzido para 2.000.
qual é a diferença entre substituir e sobrecarregar
É uma implementação simples de redução do erro total, alimentando mais dados de treinamento para o modelo. Da mesma forma, podemos aplicar outras técnicas para reduzir o erro e manter um equilíbrio entre a tendência e a variância para um modelo de aprendizado de máquina eficiente.
Isso nos leva ao final deste artigo, onde aprendemos Bias-Variance em Machine Learning com sua implementação e caso de uso. Espero que você tenha esclarecido tudo o que foi compartilhado com você neste tutorial.
Se você achou este artigo sobre 'Bias-Variance In Machine Learning' relevante, verifique o uma empresa de aprendizagem online confiável com uma rede de mais de 250.000 alunos satisfeitos espalhados por todo o mundo.
Estamos aqui para ajudá-lo em cada etapa de sua jornada e criar um currículo projetado para estudantes e profissionais que desejam ser um . O curso foi desenvolvido para dar a você uma vantagem inicial na programação Python e treiná-lo para os conceitos básicos e avançados do Python, juntamente com vários gostar , etc.
Se você encontrar alguma dúvida, fique à vontade para fazer todas as suas perguntas na seção de comentários de “Polarização-variação no aprendizado de máquina” e nossa equipe terá prazer em responder.