As metodologias estatísticas nas avaliações em larga escala

7 de agosto de 2022,

E-docente

As avaliações em larga escala, ou avaliações de sistema, são bastante comuns e praticamente todos os estados brasileiros, em algum momento, já utilizaram desta estratégia de avaliação.

Seu objetivo principal é fornecer informações precisas sobre os níveis de aprendizagem dos estudantes da rede de ensino em que há a sua aplicação.

Com essas informações, os gestores públicos podem tomar decisões em política pública, os gestores educacionais podem elaborar estratégias para a melhoria da qualidade da educação e os professores podem adequar seus planos de ensino voltados à sua prática pedagógica.

Quer saber como trabalhar as metodologias estatísticas nas avaliações em larga escala? Confira agora mesmo o conteúdo que produzimos sobre o tema!

Saiba mais sobre as metodologias estatísticas nas avaliações em larga escala

Para que os resultados das avaliações em larga escala cumpram seu papel, sendo eficiente no seu objetivo e com a devida eficácia que se espera, é preciso que ela siga processos rígidos desde sua elaboração, perpassando por sua aplicação e obtenção de resultados, até a publicação de seus resultados.

Para isso, utilizamos metodologias estatísticas específicas de modo a garantir todos estes pontos.

São duas, basicamente, as metodologias estatísticas utilizadas nas avaliações em larga escala.

Teoria Clássica dos Testes (TCT)

Uma delas, a mais antiga e mais conhecida, é a Teoria Clássica dos Testes (TCT). É ela que garante o cálculo de percentuais de respostas corretas das questões e das provas.

Por ser uma metodologia estatística mais clássica, é comum os professores a utilizarem em suas avaliações internas.

Normalmente, o professor aponta o número de questões acertadas por cada estudante e, sabendo o número de estudantes que realizou a avaliação, ele pode calcular o número médio de questões acertadas por cada estudante.

Assim como, para cada questão, o professor pode saber o percentual de estudantes que a acertou. Ou simplesmente contando a quantidade de acertos e de erros nessa questão.

Trata-se de um cálculo que não implica muitas dificuldades e não demanda muita computação, feito manualmente.

Em se tratando de avaliação em larga escala, a TCT permite ainda saber se os itens utilizados nas avaliações possuem boa discriminação, ou seja, se são capazes de determinar, de forma eficaz, os estudantes que realmente têm conhecimento para responder às questões.

Este é um fator muito importante nas avaliações externas, pois, se uma prova for construída com itens muito fáceis, corre-se o risco de não saber o verdadeiro potencial dos estudantes.

Por outro lado, se uma prova for construída com itens muito difíceis, corre-se o risco de não saber em que ponto do desenvolvimento os estudantes se encontram. Logo, para que uma avaliação esteja adequada é preciso ter itens fáceis e difíceis.

Mas a TCT, por si só, não é suficiente para dar conta de compreendermos os resultados de uma avaliação em larga escala.

Vejamos o porquê: se uma avaliação com os mesmos itens ser objeto de pesquisa em duas populações diferentes, teremos diferentes compreensões sobre o número de itens fáceis ou difíceis, o que dependerá da capacidade dos respondentes.

Parâmetros de definição

Itens difíceis para uma população podem ser fáceis para outra. Mas qual o parâmetro para determinar o ponto crítico da proficiência da população ou dos indivíduos da população? Outro ponto que se coloca é: podemos comparar duas populações diferentes com avaliações diferentes?
Essas respostas estão quando se utiliza a Teoria da Resposta ao Item (TRI).

Teoria da Resposta ao Item (TRI)

A TRI é outra metodologia estatística aplicada em avaliação em larga escala e que vem sendo utilizada desde a década de 1960.

No Brasil, essa metodologia foi utilizada em uma avaliação pela primeira vez em 1995 no Saeb. E, a partir dessa data, as avaliações de sistema dos estados e de municípios passaram a utilizá-la.

Por meio da TRI, é possível inferir a proficiência dos estudantes, independente da população e do período em que foram submetidos à avaliação. Isso porque, com as respostas dos estudantes aos itens da avaliação, pode-se criar uma relação dos estudantes com os itens acertados ou errados.

Como isso é feito? Inicia-se atribuindo aos itens um valor de dificuldade que está relacionado com o índice de acerto, como na TCT. Em seguida, atribui-se um valor de proficiência aos estudantes, dependendo dos itens que ele acerta.

Como, nessa primeira etapa, não se tem a garantia de que a relação é satisfatória para afirmar a proficiência dos estudantes ou a dificuldade dos itens, a atribuição dos valores de dificuldade aos itens é refeita, agora com base na proficiência atribuída aos estudantes.

Continuando no processo, o cálculo da proficiência é refeito, agora baseado no novo valor de dificuldade dos itens. E, assim, estes valores vão se ajustando, num processo iterativo, até que se chegue a valores que não variem mais ou que tenham variação mínima.

Como esse processo é bastante custoso, é preciso fazê-lo por meio de programas de computador. Dificilmente um professor poderia aplicar tal método manualmente em sala de aula.

Os valores de proficiência dos estudantes e os valores de dificuldade dos itens são calculados numa mesma escala e, por serem valores estatísticos, possuem uma média e um desvio padrão.

Uso no SAEB

Quando esse método foi aplicado na avaliação do Saeb pela primeira vez, os estatísticos resolveram atribuir à média o valor 250 e o desvio padrão de 50, para as turmas do 9º ano do Ensino Fundamental.

Por meio de itens colocados nas provas de outras séries, como no 5º ano do Ensino Fundamental e na 3ª série do Ensino Médio, chamados “itens de ligação”, foi possível estender esta escala às demais séries.

Processo semelhante foi feito para outras edições do Saeb, incluindo itens de ligação para manter a mesma escala numérica.

Alguns estados também passaram a utilizar a mesma escala do Saeb em suas avaliações de sistema. Essa proposta foi possível, inserindo-se nestas avaliações itens provindos do Saeb, cedidos pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP).

Assim, quando se deseja que a comparação entre as séries, ou entre diversas edições, ou entre diferentes redes possam ser feitas, é preciso que se utilize os itens de ligação.

Conclusão

Portanto, não é nem preciso dizer que, para isso, os itens devem se manter sigilosos, o que significa que não se deve divulgar os itens em uma avaliação em larga escala.

As metodologias estatísticas em avaliação têm evoluído. A TRI, desde sua implantação na década de 1960, já passou por diversas reformulações e ainda deve passar por outras.

Mas a grande vantagem de se utilizar métodos científicos nas avaliações de sistema é poder contar com resultados precisos e confiáveis. E que possam atender às políticas públicas, aos gestores educacionais e aos professores para melhorar a qualidade de ensino. Pois o objetivo final é melhorar a aprendizagem dos estudantes.

Gostou de saber mais sobre como trabalhar metodologias estatísticas nas avaliações em larga escala? Então, descubra agora como construir processos e elaborar atividades complementares!