Tipos de Análise Exploratória de Dados

análise exploratória dos dados aplica um conjunto de métodos básicos para resumir um conjunto de dados , a fim de detectar padrões e relações inesperadas entre as variáveis ​​. Isso separa a abordagem exploratória da análise de dados de confirmação , o que enfatiza o teste de hipóteses . Estatístico John Tukey pioneira os métodos de análise exploratória de dados na década de 1970 . Embora a análise exploratória inclui alguns métodos estatísticos básicos , a maioria de suas técnicas são visuais , como representações gráficas fornecer um meio para a exploração de mente aberta dos dados. Resumo Cinco Número

Esta técnica de análise exploratória resume os dados combina três medidas resumo estatístico – conhecidas como medidas de tendência central – com duas medidas de variação para fornecer insights sobre a distribuição dos dados . Analistas desenvolver este resumo , organizando os valores dos dados em ordem decrescente, em seguida, selecionando os maiores e os menores valores , bem como a mediana , ou o ponto de dados que se encontra no meio. Os outros dois valores incluem o primeiro quartil , ou o valor em que 25 por cento das observações são mais pequenas e de 75 por cento são maiores , e o terceiro quartil , o valor em que 75 por cento são menores e 25 por cento são maiores . Arraying esses cinco números do menor ao maior transmite uma sensação de como os dados são simétricos .

Box -and- Whisker Plot

O enredo box- and- whisker fornece uma representação visual da síntese de cinco números , mostrando a forma de distribuição dos dados , bem como tendência central e variabilidade . O diagrama é constituído por uma caixa rectangular de que os limites superiores e inferiores representam os primeiro e terceiro quartis enquanto uma terceira linha através da caixa corresponde à mediana . Além disso , duas linhas que se estendem a partir de cada extremidade da caixa ( os “bigodes” ) mostram variações dentro dos dados exibindo os maiores e os menores pontos de dados . Se os dados são simétricas , os bigodes terá o mesmo comprimento ea linha média vai dividir a caixa em metades iguais. A maioria dos conjuntos de dados , no entanto , não são simétricas , mas inclinado ou para a esquerda ou para a direita devido a valores anormalmente elevados ou baixos que distorcem os dados . O enredo box- and- whisker mostra visualmente a quantidade de distorção nos dados.

Stem -and -Leaf exibição

Este método exploratório combina quantitativa e técnicas gráficas , exibindo números brutos em uma exibição visual similar a um histograma ou gráfico de barras . O display tem os números brutos e separa os dígitos à esquerda , ou ” hastes “, a partir dos dígitos finais , referidos como ” as folhas. ” Por exemplo, um analista de dados pode construir um display caule e folhas de resultados de testes em uma classe da faculdade de 30 alunos em que os escores variaram entre um mínimo de 52 e um máximo de 98 , fazendo o dígito na coluna das dezenas do caule e o dígito na coluna as folhas. Assim , as hastes consistiria nos algarismos 5 e 9, com as folhas de ramificação a partir de cada haste . Por exemplo , se quatro estudantes marcou 83 em teste, o mostrador mostraria um tronco de 8 , seguido de quatro 3s . O diagrama de caule e folhas transmite a distribuição de freqüências nos dados ao mesmo tempo, permitindo que um analista para ver os valores reais.

Scatterplot

Este indivíduo parcelas de exibição visuais pontos de dados de duas variáveis ​​em um gráfico , sendo que cada ponto ou ponto que representa a intersecção dos valores de duas variáveis ​​. Por exemplo, um analista econômico poderia criar um gráfico de dispersão dos salários e dos anos de experiência de trabalho por hora . O padrão dos pontos fornece insights sobre a correlação entre as duas variáveis. Se o cluster pontos em torno de uma linha reta que sugere uma correlação mais forte , enquanto uma dispersão aleatória de aparência sugere pouca ou nenhuma relação entre as variáveis.

Estatística Descritiva

Estes incluem medidas como a média , ou média numérica , e o desvio padrão , o que transmite o valor de dispersão nos dados . Enquanto médias e desvios- padrão são medidas valiosas , eles fornecem apenas uma visão limitada dos dados; Além disso , valores altos ou baixos extremos – conhecidos como valores extremos – podem distorcer as medidas . A melhor análise exploratória que utiliza estatística descritiva fá-lo em conjunto com outros métodos , como um display gráfico como um gráfico de dispersão ou diagrama box- and- whisker .

Deixe um comentário