Tipos de Análise Exploratória de Dados
análise exploratória dos dados aplica um conjunto de métodos básicos para resumir um conjunto de dados , a fim de detectar padrões e relações inesperadas entre as variáveis . Isso separa a abordagem exploratória da análise de dados de confirmação , o que enfatiza o teste de hipóteses . Estatístico John Tukey pioneira os métodos de análise exploratória de dados na década de 1970 . Embora a análise exploratória inclui alguns métodos estatísticos básicos , a maioria de suas técnicas são visuais , como representações gráficas fornecer um meio para a exploração de mente aberta dos dados. Resumo Cinco Número
Esta técnica de análise exploratória resume os dados combina três medidas resumo estatístico – conhecidas como medidas de tendência central – com duas medidas de variação para fornecer insights sobre a distribuição dos dados . Analistas desenvolver este resumo , organizando os valores dos dados em ordem decrescente, em seguida, selecionando os maiores e os menores valores , bem como a mediana , ou o ponto de dados que se encontra no meio. Os outros dois valores incluem o primeiro quartil , ou o valor em que 25 por cento das observações são mais pequenas e de 75 por cento são maiores , e o terceiro quartil , o valor em que 75 por cento são menores e 25 por cento são maiores . Arraying esses cinco números do menor ao maior transmite uma sensação de como os dados são simétricos .
Box -and- Whisker Plot
O enredo box- and- whisker fornece uma representação visual da síntese de cinco números , mostrando a forma de distribuição dos dados , bem como tendência central e variabilidade . O diagrama é constituído por uma caixa rectangular de que os limites superiores e inferiores representam os primeiro e terceiro quartis enquanto uma terceira linha através da caixa corresponde à mediana . Além disso , duas linhas que se estendem a partir de cada extremidade da caixa ( os “bigodes” ) mostram variações dentro dos dados exibindo os maiores e os menores pontos de dados . Se os dados são simétricas , os bigodes terá o mesmo comprimento ea linha média vai dividir a caixa em metades iguais. A maioria dos conjuntos de dados , no entanto , não são simétricas , mas inclinado ou para a esquerda ou para a direita devido a valores anormalmente elevados ou baixos que distorcem os dados . O enredo box- and- whisker mostra visualmente a quantidade de distorção nos dados.
Stem -and -Leaf exibição
Este método exploratório combina quantitativa e técnicas gráficas , exibindo números brutos em uma exibição visual similar a um histograma ou gráfico de barras . O display tem os números brutos e separa os dígitos à esquerda , ou ” hastes “, a partir dos dígitos finais , referidos como ” as folhas. ” Por exemplo, um analista de dados pode construir um display caule e folhas de resultados de testes em uma classe da faculdade de 30 alunos em que os escores variaram entre um mínimo de 52 e um máximo de 98 , fazendo o dígito na coluna das dezenas do caule e o dígito na coluna as folhas. Assim , as hastes consistiria nos algarismos 5 e 9, com as folhas de ramificação a partir de cada haste . Por exemplo , se quatro estudantes marcou 83 em teste, o mostrador mostraria um tronco de 8 , seguido de quatro 3s . O diagrama de caule e folhas transmite a distribuição de freqüências nos dados ao mesmo tempo, permitindo que um analista para ver os valores reais.
Scatterplot
Este indivíduo parcelas de exibição visuais pontos de dados de duas variáveis em um gráfico , sendo que cada ponto ou ponto que representa a intersecção dos valores de duas variáveis . Por exemplo, um analista econômico poderia criar um gráfico de dispersão dos salários e dos anos de experiência de trabalho por hora . O padrão dos pontos fornece insights sobre a correlação entre as duas variáveis. Se o cluster pontos em torno de uma linha reta que sugere uma correlação mais forte , enquanto uma dispersão aleatória de aparência sugere pouca ou nenhuma relação entre as variáveis.
Estatística Descritiva
Estes incluem medidas como a média , ou média numérica , e o desvio padrão , o que transmite o valor de dispersão nos dados . Enquanto médias e desvios- padrão são medidas valiosas , eles fornecem apenas uma visão limitada dos dados; Além disso , valores altos ou baixos extremos – conhecidos como valores extremos – podem distorcer as medidas . A melhor análise exploratória que utiliza estatística descritiva fá-lo em conjunto com outros métodos , como um display gráfico como um gráfico de dispersão ou diagrama box- and- whisker .