Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Estatística Descritiva Básica, Notas de aula de Estatísticas Descritivas

Introdução à Estatística Descritiva

Tipologia: Notas de aula

2020

Compartilhado em 23/09/2020

gabriella-livio-10
gabriella-livio-10 🇧🇷

5

(2)

5 documentos

1 / 73

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Universidade Federal Fluminense
Instituto de Matemática e Estatística
EstatísticaDescritiva
AnaMariaLimadeFarias
DepartamentodeEstatística
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49

Pré-visualização parcial do texto

Baixe Estatística Descritiva Básica e outras Notas de aula em PDF para Estatísticas Descritivas, somente na Docsity!

Universidade Federal Fluminense

Instituto de Matemática e Estatística

Estatística Descritiva

Ana Maria Lima de Farias

Departamento de Estatística

  • 1 Descrição de dados: tabelas e gráficos Conteúdo i
    • 1.1 Pesquisa estatística – conceitos básicos
      • 1.1.1 População e amostra
      • 1.1.2 Alguns tipos de amostragem
    • 1.2 Níveis de mensuração
      • 1.2.1 Variáveis qualitativas e quantitativas
    • 1.3 Apresentação de dados qualitativos
      • 1.3.1 Distribuições de frequência
      • 1.3.2 Arredondamento de números
      • 1.3.3 Gráficos
    • 1.4 Apresentação de dados quantitativos discretos
      • 1.4.1 Distribuições de frequências
      • 1.4.2 Gráfico da distribuição de frequências simples
    • 1.5 Apresentação de dados quantitativos contínuos
      • 1.5.1 Distribuições de frequência
      • 1.5.2 Histogramas e polígonos de frequência
      • 1.5.3 Diagrama de ramo-e-folhas
      • 1.5.4 Gráficos temporais
  • 2 Descrição de dados: resumos numéricos
    • 2.1 Medidas de posição
      • 2.1.1 Média aritmética simples
      • 2.1.2 Moda CONTEÚDO
      • 2.1.3 Mediana
      • 2.1.4 Separatrizes
      • 2.1.5 Média aritmética ponderada
      • 2.1.6 Propriedades das medidas de posição
    • 2.2 Medidas de dispersão
      • 2.2.1 Amplitude
      • 2.2.2 Desvio médio absoluto
      • 2.2.3 Variância e desvio-padrão
      • 2.2.4 Amplitude interquartil
      • 2.2.5 Propriedades das medidas de dispersão
    • 2.3 Medidas de assimetria
      • 2.3.1 O coeficiente de assimetria de Pearson
      • 2.3.2 O coeficiente de assimetria de Bowley
    • 2.4 O boxplot
    • 2.5 Medidas de posição para distribuições de frequências agrupadas
      • 2.5.1 Média aritmética simples
      • 2.5.2 Moda
      • 2.5.3 Quartis
  • 3 Análise bidimensional
    • 3.1 Variáveis qualitativas
      • 3.1.1 Representação tabular: Distribuição bivariada de frequências
      • 3.1.2 Frequências relativas
    • 3.2 Variáveis quantitativas
      • 3.2.1 Diagramas de dispersão
      • 3.2.2 Covariância
      • 3.2.3 Coeficiente de correlação
  • Bibliografia

Capítulo 1

Descrição de dados: tabelas e gráficos

De posse de um conjunto de dados, o primeiro passo em sua análise é descobrir o que eles nos dizem. A análise de dados será o objeto de estudo na primeira parte do nosso curso e começamos com gráficos e tabelas, que são ferramentas estatísticas importantes na visualização dos dados.

1.1 Pesquisa estatística – conceitos básicos

1.1.1 População e amostra

Estatística é a ciência da aprendizagem a partir dos dados. Em geral, fazemos levantamentos de dados para estudar e compreender características de uma população. Por exemplo, um grande banco, querendo lançar um novo produto, precisa conhecer o perfil socioeconômico dos seus clientes e, neste caso, a população de interesse é formada pelos clientes de todas as agências do banco. A Federação das Indústrias do Estado do Rio de Janeiro – FIRJAN – mede o grau de confiança dos empresários industriais através de uma pesquisa junto às indústrias, sendo a população de interesse, aqui, o conjunto das empresas industriais do estado do Rio de Janeiro.

Com esses dois exemplos apenas, já podemos ver que o conceito de população de uma pesquisa estatística é mais amplo, não se restringindo a seres humanos; ela é definida exa- tamente a partir dos objetivos da pesquisa.

Embora tenham populações bastante distintas, essas duas pesquisas têm em comum o fato de os resultados desejados serem obtidos a partir de dados levantados em um subcon- junto da população – uma amostra. Há várias razões para se trabalhar com pesquisas por amostragem – custo e tempo, em geral, são as mais comuns. Mas, além de serem mais baratas e rápidas, as pesquisas por amostragem, se bem planejadas, podem fornecer resultados quase tão precisos quanto aqueles fornecidos por pesquisas censitárias , em que todos os elementos da população são investigados.

pesquisa por amostragem que deve dar resultados para o Brasil. Em vez de se trabalhar com uma amostra aleatória simples de todo o país, podemos estratificar por estado ou por região geográfica, por exemplo. A estratificação tem vantagens administrativas e também estatísti- cas: com estratos bem definidos, podemos ter resultados precisos com amostras menores e com a vantagem adicional de podermos dar resultados individuais para cada estrato.

Os dois métodos acima descritos são métodos de amostragem probabilística , assim chamados porque a aleatoriedade na seleção dos elementos permite que se atribua, a cada elemento da população, uma probabilidade de inclusão na amostra e com essa probabili- dade teremos condições de generalizar os resultados da amostra para a população inteira, quantificando a margem de erro.

Considere, agora, que você esteja interessado em avaliar a opinião dos alunos da UFF sobre o serviço de transporte entre os diversos campi , oferecido pela administração da uni- versidade. Como você não tem condições nem tempo de selecionar uma amostra de todos os alunos da UFF, você decide entrevistar seus colegas de turma. Essa é uma amostra de conveniência e o grande problema é que os resultados obtidos não poderão ser generalizados para uma população maior. Nem mesmo para o seu curso podemos generalizar, porque sua turma pode pode não ser representativa de todas as turmas do seu curso.

Métodos de seleção de amostra mais sofisticados são empregados em diversas pesquisas com o objetivo de se obter uma “boa amostra”, ou seja, uma amostra pequena e que forneça resultados precisos sobre a população de interesse.

1.2 Níveis de mensuração

Nas pesquisas estatísticas, as características sobre as quais queremos obter informação são chamadas variáveis e uma informação importante sobre essas variáveis é o seu nível de men- suração. Isto porque a aplicabilidade ou não de modelos e métodos estatísticos a serem utilizados posteriormente na análise dos dados vai depender em grande parte desse aspecto.

O nível mais elementar de mensuração consiste na classificação dos indivíduos ou obje- tos de uma população de acordo com uma certa característica, isto é, separam-se os elementos em grupos, conforme possuam essa ou aquela característica em questão. É o que sucede, por exemplo, quando a característica estudada é sexo, religião, estado civil, etc. Nesses casos, as categorias se expressam nominalmente e para a aplicação de métodos estatísticos adequados, é necessário que as categorias sejam exaustivas (isto é, cubram todos os elementos da popu- lação) e mutuamente exclusivas (isto é, um elemento pertence a uma única categoria). Nesses casos, diz-se que a variável em estudo é expressa segundo uma escala nominal. Assim, as operações usuais de aritmética não podem ser realizadas sobre esse tipo de escala, mesmo que as categorias estejam expressas em números. No processamento de dados, é bastante comum representar as categorias de sexo Feminino e Masculino por números, como 1 e 2. Naturalmente, não faz sentido dizer que o Masculino é duas vezes o Feminino; o 1 e o 2 são apenas substitutos dos nomes das categorias.

Num nível de mensuração seguinte, podemos ordenar as categorias de uma determinada variável. É o que ocorre com o nível de escolaridade, quando uma população pode ser clas- sificada, por exemplo, em 4 categorias: analfabeto, 1 o^ grau, 2o^ grau, 3o^ grau. Aqui podemos dizer que o nível de escolaridade de um indivíduo da categoria 2o^ grau é maior que o de um indivíduo da categoria 1o^ grau, mas não podemos dizer que é duas vezes maior. Nesta escala, chamada escala ordinal , valem apenas as operações de ordenação, maior do que ou menor do que.

Passa-se deste tipo de escala para um nível de mensuração propriamente dito quando, além da ordenação das categorias, pode-se dizer quanto valem exatamente as diferenças entre essas categorias. Um exemplo típico dessa situação é a medição de temperatura: a diferença entre 90oC e 70oC é 20oC e é igual à diferença entre 30oC e 10oC. No entanto, como o zero (0oC) nesta escala é definido arbitrariamente (não existe naturalmente), não podemos dizer que 90oC é três vezes mais quente que 30oC. Dizemos, então, que a temperatura está medida em uma escala intervalar.

Quando o zero na escala puder ser estabelecido de forma não arbitrária, todas as ope- rações aritméticas poderão ser realizadas sobre os valores tomados pela variável em estudo. Nesse caso, dizemos que a variável está medida em uma escala de razão ou proporcional. É o caso da idade, que é contada a partir da data de nascimento do indivíduo.

1.2.1 Variáveis qualitativas e quantitativas

É comum denominar de variável qualitativa as características medidas em escala nominal ou ordinal. Já as variáveis medidas em escala intervalar ou proporcional são chamadas variáveis quantitativas.

DEFINIÇÃO Variáveis qualitativas e quantitativas

Variáveis qualitativas descrevem características de elementos de uma po- pulação e podem ser medidas em escala nominal ou ordinal.

Variáveis quantitativas medem características de elementos de uma popu- lação e podem ser expressas em escala de razão ou intervalar.

As variáveis quantitativas, por sua vez, podem ser discretas ou contínuas. Quando a variável puder assumir qualquer valor numérico em um determinado intervalo de variação, ela será uma variável contínua. Essas variáveis resultam normalmente de medições, como peso, altura, dosagem de hemoglobina, renda etc. A interpretação desse tipo de variável leva à noção de valor aproximado, pois não existe instrumento de medição capaz de fornecer precisão absoluta na informação. Assim, quando uma balança mostra o peso de uma pessoa como 65,5 kg, esse valor, na verdade, é uma aproximação para qualquer valor entre, digamos, 65,495 kg e 65,505 kg.

Por outro lado, a variável quantitativa discreta só poderá assumir valores pertencentes a um conjunto enumerável (pense nos números naturais!); os valores normalmente são obtidos através de algum processo de contagem. Alguns exemplos são o número de filhos de um casal, número de empregados de uma firma de contabilidade, etc.

(c) Número de sanduíches Big Mac vendidos nos estados do Brasil pela rede McDonalds no McDia Feliz.

(d) Temperatura máxima diária na cidade de Niterói no mês de agosto de 2012.

(e) Opinião dos empregados de uma empresa sobre obrigatoriedade do uso do crachá (a favor ou contra).

Solução

(a) Altura é uma variável quantitativa contínua.

(b) A opinião é uma variável qualitativa. Como há uma ordem nas respostas, essa é uma variável qualitativa ordinal.

(c) Número de sanduíches é uma variável quantitativa discreta.

(d) Temperatura máxima é uma variável quantitativa contínua.

(e) A opinião, neste caso, é uma variável qualitativa nominal - não há qualquer ordem nas respostas possíveis.



1.3 Apresentação de dados qualitativos

Vamos considerar o seguinte exemplo fictício, mas verossímil. A direção de uma empresa está estudando a possibilidade de fazer um seguro saúde para seus funcionários e respectivos familiares. Para isso, ela faz um levantamento de seus 500 funcionários, obtendo informação sobre sexo, estado civil, idade, número de dependentes e salário. Como são 500 funcionários, temos que achar uma forma de resumir os dados. Nesta seção, você irá aprender a resumir dados qualitativos em forma de uma distribuição (ou tabela) de frequência e, também, em forma gráfica. Você verá que os gráficos complementam a apresentação tabular.

1.3.1 Distribuições de frequência

Consideremos, inicialmente, a variável qualitativa sexo. O que nos interessa saber sobre essa variável não é que João seja do sexo masculino e Maria do sexo feminino, mas sim quantos funcionários e quantas funcionárias há na empresa. Esse resultado pode ser resumido em uma tabela ou distribuição de frequências da seguinte forma:

Sexo Número de funcionários Masculino 270 Feminino 230 Total 500

Os números 270 e 230 resultaram da contagem das frequências de ocorrência de cada uma das categorias da variável sexo. Essa contagem é também chamada de frequência simples absoluta ou simplesmente frequência. O total de 500 é obtido somando-se o número de homens e de mulheres.

É interessante também expressar esses resultados em forma relativa, isto é, considerar, para cada classe, a frequência relativa ao total:

ou seja, 54% dos funcionários da empresa são do sexo masculino.

É comum apresentar as frequências relativas em forma percentual. Note que:

270 500

Na Tabela 1.1 , apresenta-se a versão completa da distribuição dos funcionários por sexo e por estado civil. Note que a soma das frequências absolutas deve ser igual ao número total de elementos sendo pesquisados, enquanto a soma das frequências relativas é sempre 1 ou 100%.

Tabela 1.1 – Número de funcionários por sexo e por estado civil

Sexo Frequência simples absoluta relativa Masculino 270 0, Feminino 230 0, Total 500 1,

Estado civil Frequência simples absoluta relativa % Solteiro 125 25, Casado 280 56, Divorciado 85 17, Viúvo 10 2, Total 500 100,

EXEMPLO 1.3 Dados dos funcionários do Departamento de RH

Consideremos que, na situação descrita anteriormente, os dados tenham sido levan- tados por departamento, para depois serem totalizados. Para o Departamento de Recursos Humanos, foram obtidas as seguintes informações:

Nome Sexo Estado civil Número de dependentes João da Silva M Casado 3 Pedro Fernandes M Viúvo 1 Maria Freitas F Casada 0 Paula Gonçalves F Solteira 0 Ana Freitas F Solteira 1 Luiz Costa M Casado 3 André Souza M Casado 4 Patrícia Silva F Divorciada 2 Regina Lima F Casada 2 Alfredo Souza M Casado 3 Margarete Cunha F Solteira 0 Pedro Barbosa M Divorciado 2 Ricardo Alves M Solteiro 0 Márcio Rezende M Solteiro 1 Ana Carolina Chaves F Solteira 0

No primeiro caso, o primeiro algarismo a ser suprimido é 3; logo, o último algarismo a ser mantido, (3), não se altera e o resultado é 53,33. No segundo caso, o primeiro algarismo a ser suprimido é 6. Logo, o último algarismo a ser mantido, (6), deve ser acrescido de 1 e o resultado é 46,67. Tente sempre usar essa regra em seus arredondamentos; com ela, você evitará erros grosseiros.

Na apresentação de tabelas de frequências relativas, é possível que essas frequências não somem 100%, ou seja, é possível que, ao somarmos as frequências relativas, obtenhamos resultados como 99,9% ou 100,01%. Esses pequenos erros são devidos a arredondamentos e nem sempre é possível evitá-los; no entanto, aceita-se implicitamente que a soma das frequências seja 100%.

1.3.3 Gráficos

As distribuições de frequência para dados qualitativos também podem ser ilustradas grafica- mente através de gráficos de colunas ou gráficos de setores, também conhecidos como gráficos de pizza. Na Figura 1.1, temos os gráficos de coluna e de setores para os dados da Tabela 1.1 , referentes ao estado civil dos funcionários.

Figura 1.1 – Distribuição do número de funcionários por estado civil

No gráfico de colunas , a altura de cada coluna representa a frequência da respectiva classe e o gráfico pode ser construído com base nas frequências absolutas ou relativas. Para diferenciar um do outro, coloca-se no título do eixo o tipo de frequência utilizada. Note que, no eixo horizontal, não há escala, uma vez que aí se representam as categorias da variável, que devem ser igualmente espaçadas.

No gráfico de setores , a frequência de cada categoria é representada pelo tamanho (ângulo) do setor (ou fatia da pizza). Para construir um gráfico de setores à mão, você precisará de um compasso para fazer um círculo de raio arbitrário e, em seguida, traçar um raio qualquer no círculo. A partir daí, você marcará os raios de acordo com os ângulos de cada setor, utilizando um transferidor. Para determinar o ângulo de cada setor, você deverá usar a seguinte regra de proporcionalidade: o ângulo total – 360o– corresponde ao número total de observações; o ângulo de cada setor corresponde à frequência da respectiva classe. Dessa forma, você obtém a seguinte regra de três para os solteiros:

360 o 500

x 125

⇒ x = 90o

Esses gráficos podem ser construídos facilmente com auxílio de programas de compu- tador, como o programa de planilhas Excel da Microsoft © R.

1.4 Apresentação de dados quantitativos discretos

1.4.1 Distribuições de frequências

Quando uma variável quantitativa discreta assume poucos valores distintos, é possível cons- truir uma distribuição de frequências da mesma forma que fizemos para as variáveis quali- tativas. A diferença é que, em vez de termos categorias nas linhas da tabela, teremos os distintos valores da variável. Continuando com o nosso exemplo, vamos trabalhar agora com a variável número de dependentes. Suponha que alguns funcionários não tenham dependentes e que o número máximo de dependentes seja 7. Obteríamos, então, a seguinte distribuição de frequências:

Número de Frequência simples dependentes absoluta relativa % 0 120 24, 1 95 19, 2 90 18, 3 95 19, 4 35 7, 5 30 6, 6 20 4, 7 15 3, Total 500 100,

O processo de construção é absolutamente o mesmo, mas, dada a natureza quantitativa da variável, é possível acrescentar mais uma informação à tabela.

Suponha, por exemplo, que a empresa esteja pensando em limitar o seu projeto a 4 dependentes, de modo que funcionários com mais de 4 dependentes terão que arcar com as despesas extras. Quantos funcionários estão nessa situação?

Para responder a perguntas desse tipo, é costume acrescentar à tabela de frequências uma coluna com as frequências acumuladas. Essas frequências são calculadas da seguinte forma: para cada valor da variável (número de dependentes), contamos quantas ocorrências correspondem a valores menores ou iguais a esse valor.

Por exemplo, valores da variável menores ou iguais a 0 correspondem aos funcionários sem dependentes. Logo, a frequência acumulada para o valor 0 é igual à frequência simples:

  1. Analogamente, valores da variável menores ou iguais a 1 correspondem aos funcionários sem dependentes mais os funcionários com 1 dependente. Logo, a frequência acumulada para o valor 1 é igual a 120 + 95 = 215 : Para o valor 2, a frequência acumulada é igual a 120 + 95 + 90 = 215 + 90 = 305 : Repetindo esse procedimento, obtemos a Tabela 1..

Note que aí acrescentamos também as frequências acumuladas em forma percentual. Essas frequências são calculadas como a proporção da frequência acumulada em relação ao total; por exemplo,

× 100

Suponhamos, agora, que se pergunte para cada um dos 500 funcionários a sua idade, em anos completos. Essa é, também, uma variável discreta, mas a diferença é que a idade

Figura 1.2 – Distribuição do número de dependentes por funcionário

! Gráfico de setores para dados quantitativos

Embora nem sempre incorreto, não é apropriado representar dados quanti- tativos discretos em um gráfico de setores, uma vez que, neste gráfico, não é possível representar a escala dos dados.

1.5 Apresentação de dados quantitativos contínuos

1.5.1 Distribuições de frequência

Para as variáveis quantitativas contínuas, devemos também trabalhar com distribuições de frequências agrupadas. O processo de construção é idêntico ao visto para as variáveis dis- cretas, mas aqui devemos tomar um cuidado especial na construção das classes. A escolha dos limites das classes deve ser feita com base na natureza, valores e unidade de medida dos dados. As regras que deverão ser seguidas são as seguintes:

! Classes em uma distribuição de frequências agrupadas

  1. As classes têm que ser exaustivas, isto é, todos os elementos devem pertencer a alguma classe.
  2. As classes têm que ser mutuamente exclusivas, isto é, cada elemento tem que pertencer a uma única classe.

O primeiro passo é definir o número de classes desejado; esse número, de preferência, deve estar entre 5 e 25. Em seguida, devemos determinar a amplitude dos dados, ou seja, o intervalo de variação dos valores observados da variável em estudo.

DEFINIÇÃO Amplitude

A amplitude de um conjunto de dados, representada por ∆ total , é definida como a diferença entre os valores máximo e mínimo:

total = V Máx − V Mín (1.1)

Se quisermos trabalhar com classes de mesmo comprimento (e essa é uma opção bas- tante comum), para determinar esse comprimento, é necessário dividir a amplitude total pelo número de classes desejado. No entanto, para garantir a inclusão dos valores mínimo e máximo, podemos, como regra geral, usar o seguinte procedimento: considere o primeiro múl- tiplo do número de classes maior que o valor da amplitude e use esse número como a nova amplitude.

Por exemplo, se a amplitude for 28 e quisermos trabalhar com cinco classes, vamos considerar 30 como a nova amplitude. Dividindo esse valor pelo número de classes, obte- mos o comprimento de cada classe. Os limites de classe podem ser obtidos somando-se o comprimento de classe a partir do valor mínimo dos dados.

Continuando com o nosso exemplo, o comprimento de classe é 30 ÷ 5 = 6; se o valor mínimo dos dados for 4, então os limites de classe serão:

4 4 + 6 = 10 10 + 6 = 16 16 + 6 = 22 22 + 6 = 28 28 + 6 = 34

e as classes serão:

[4 ; 10) [10 ; 16) [16 ; 22) [22 ; 28) [28 ; 34)

Note o tipo de intervalo utilizado: para incluir o valor mínimo, 4, na primeira classe, o intervalo deve ser fechado no extremo inferior: [4 ;.

Se fechássemos o intervalo no limite superior, o 10 estaria incluído na primeira classe e, portanto, não poderia estar na segunda classe. Isso resultaria em [4 ; 10] como a primeira classe e (10 ; 16) como a segunda classe. Assim, as duas primeiras classes estariam definidas de forma diferente, o que não é conveniente, pois dificultaria a leitura da tabela. É preferível incluir o 10 na segunda classe, o que resulta nas classes apresentadas anteriormente.

EXEMPLO 1.4 Salários de 500 funcionários

Suponha que, dentre os 500 funcionários da nossa empresa, o menor salário seja de 2800 e o maior salário seja de 12400. Para agrupar os dados em cinco classes, devemos fazer

DEFINIÇÃO Histograma

Um histograma é um gráfico formado por um conjunto de retângulos contí- guos, com bases sobre um eixo horizontal, cuja escala é definida de acordo com as classes da distribuição da variável de interesse. As bases desses retângulos, construídas sobre o eixo horizontal, representam as classes e as áreas são proporcionais ou iguais às frequências.

Vamos ilustrar a construção de um histograma usando como exemplo a distribuição de frequência dos dados sobre salários dada na Tabela 1..

Começamos construindo os eixos: no eixo horizontal, representamos os limites das clas- ses e, no eixo vertical, construímos a escala apropriada para representar as frequências ab- solutas. Veja a Figura 1.3. Poderíamos, também, trabalhar com as frequências relativas.

Figura 1.3 – Construção do Histograma da Distribuição dos Salários - Passo 1

Passamos, agora, a construir os retângulos, tendo em mente que a área de cada um representa a frequência da respectiva classe. Como neste exemplo as classes têm o mesmo comprimento, o histograma pode ser construído de tal modo que as alturas dos retângulos sejam iguais às frequências das classes. Dessa forma, as áreas serão proporcionais (e não iguais) às frequências, conforme ilustrado no histograma da Figura 1.4. Note que cada área é igual à frequência da classe multiplicada por 2000, o comprimento de cada classe.

Para construir o histograma baseado em retângulos com áreas exatamente iguais às frequências das classes, usa-se a fórmula da área de um retângulo com base igual ao compri- mento de classe e área igual à frequência da classe. Por exemplo, para a classe [2800, 4800), a frequência (área) é 87 e a base do retângulo (comprimento de classe) é 2000. Logo, a altura h do retângulo correspondente é encontrada da seguinte forma:

87 = h ∗ 2000 = ⇒ h =

O resultado dessa divisão é denominado densidade , uma vez que dá a frequência em cada classe por unidade da variável. Na Figura 1.5, temos o histograma em que a área de cada retângulo é exatamente igual à frequência absoluta da classe.

Observe as Figuras 1.4 e 1.5. Em ambos os gráficos, a forma dos retângulos é a mesma; o que muda é a escala no eixo vertical.

Figura 1.4 – Histograma dos salários - Altura = Frequência

Figura 1.5 – Histograma dos salários - Área = Frequência

De modo geral, quando as classes têm o mesmo comprimento – e essa é a situação mais comum –, podemos representar as alturas dos retângulos pelas frequências das classes, o que facilita a interpretação do gráfico.

DEFINIÇÃO Polígono de frequência

Um polígono de frequências é um gráfico de linha obtido quando são unidos, por uma poligonal, os pontos correspondentes às frequências das diversas classes, centrados nos respectivos pontos médios. Mais precisamente, são plotados os pontos com coordenadas (ponto médio, frequência simples).

Para obter as interseções da poligonal com o eixo, cria-se em cada extremo uma classe com frequência nula.

Na Figura 1.6, temos o polígono de frequências para a distribuição dos salários dos 500 funcionários. É comum apresentar-se o polígono de frequências junto com o histograma, o que facilita a visualização dos resultados. Note que o polígono de frequência dá uma ideia da forma da distribuição dos dados.

Figura 1.6 – Histograma e Polígono de Frequências para a Distribuição dos Salários