Estatística |
---|
Em estatística, o teste Kolmogorov–Smirnov (também conhecido como teste KS ou teste K–S) é um teste não paramétrico de bondade do ajuste sobre a igualdade de distribuições de probabilidade contínuas e unidimensionais que pode ser usado para comparar uma amostra com uma distribuição de probabilidade de referência (teste K–S uniamostral) ou duas amostras uma com a outra (teste K–S biamostral).[1] Recebe este nome em homenagem aos matemáticos russos Andrei Kolmogorov e Nikolai Smirnov.
A estatística de Kolmogorov–Smirnov quantifica a distância entre a função distribuição empírica da amostra e a função distribuição acumulada da distribuição de referência ou entre as funções distribuição empírica de duas amostras. A distribuição nula desta estatística é calculada sob a hipótese nula de que a amostra é retirada da distribuição de referência (no caso uniamostral) ou de que as amostras são retiradas da mesma distribuição (no caso biamostral). Em cada caso, as distribuições consideradas sob a hipótese nula são distribuições contínuas, mas não restritas.
O teste K–S biamostral é um dos métodos não paramétricos mais úteis e difundidos para a comparação de duas amostras, já que é sensível a diferenças tanto no local, como na forma das funções distribuição acumulada empírica das duas amostras.[2]
O teste de Kolmogorov–Smirnov pode ser modificado para servir como um teste da qualidade do ajuste. No caso especial do teste da normalidade da distribuição, as amostras são padronizadas e comparadas com uma distribuição normal padrão. Isto equivale a tornar a média e a variância da distribuição de referência iguais aos estimados da amostras, sabendo que usar isto para definir a distribuição de referência específica muda a distribuição nula da estatística. Vários estudos encontraram que, mesmo nesta forma corrigida, o teste é menos potente em avaliar a normalidade do que o teste de Shapiro–Wilk e o teste de Anderson–Darling.[3] Entretanto, estes outros testes também têm suas desvantagens. O teste de Shapiro–Wilk, por exemplo, é conhecido por não funcionar bem em amostras com muitos valores idênticos.