Imagine que você quer ordenar por peso alguns sacos de areia sem ter uma balança disponível. Você pode levantar cada um deles e estimar o seu peso ou pode comprar 2 a 2 e ir ordenando localmente até que o todo esteja ordenado. Essa segunda estratégia resume bem a técnica chamada de comparative judgement, ou julgamento comparado.

A premissa fundamental do julgamento comparado é a de que serem humanos, em muitas situações, são melhores em comparar duas entidades uma em relação à outra do que fazer julgamentos absolutos, atribuindo algo como uma nota, especialmente quando o critério em vista não pode ser colocado de forma objetiva ou precisa.

Isso vem sendo aplicado academicamente, em diversos contextos, desde a década de 1920. Especificamente em Educação Matemática, um grupo de pesquisadores britânicos exploraram recentemente o uso dessa técnica para avaliar questões de natureza mais conceitual, uma vez que estas costumam ter uma formulação mais aberta, o que dificuldade a correção com base em conjunto de orientações. A ideia é a seguinte:

  • Uma questão conceitual (como, por exemplo, "Explique o que são frações equivalentes como se fosse para alguém que nunca estudou esse assunto") é proposta para um grupo de estudantes, que a respondem de maneira bastante livre
  • As respostas (chamadas de candidatos) são arquivadas e apresentadas duas a duas para um juiz (alguém que tenha conhecimento sobre o assunto como, nesse caso, um professor) que deve dizer apenas qual delas é melhor (fazer um julgamento, saundo a nomenclature técnica)
  • Depois de realizadas várias comparações, um algoritmo é capaz de ordenar todas as respostas atribuindo um valor de 0 a 100 no qual 100 é a melhor respostas e 0 a pior.

Em [1] você encontra três exemplos similares a este discutidos em profundidade.

Alguns pontos precisam ser esclarecidos:

  • O algoritmo consegue lidar com julgamentos diferentes usanod um modelo probabilístico discutido em [2]
  • Por conta do item anterior, cada julgamento pode precisar ser feito mais do que uma vez. Porém, com cerca de 10 vezes o número de candidatos, a escala estabiliza. Isso significa que se tivermos 30 respostas, são necessários 300 julgamentos (enquanto que o total de julgamentos diferentes possíveis seria da ordem de 450)
  • É possível medir a consistência de cada juiz em relação ao grupo (basicamente, o quanto os julgamentos desse juiz são iguais ao que o grupo como um todo decidiu) e o erro da valor atribuído a cada questão (basicamente, o quanto os vários juízes divergiram nos julgamentos que envolveram uma determinada questão)

Os aspectos técnicos sobre o funcionamento da técnica podem ser lidos em [2], mas algumas características interessantes e sistematicamente reportadas na literatura acadêmica são:

  • Um expert realiza uma comparação muito mais rapidamente do que uma avaliação absoluta quando o critério não admite formulação bem objetiva, portanto, julgamento comparado é econômico nessas situações
  • Juízes diferentes apresentam um bom grau de concordância ao fazerem julgamentos comparados, bastando que seja expert no assunto sendo julgado
  • No âmbito da Educação Matemática especificamente, os valores atribuídos pelo algoritmo se correlacionam bem com outras medidas de caráter conceitual

A técnica me chamou a atenção em um evento na Inglaterra e decidi utilizá-la para validar uma parte do instrumento que vou usar na minha pesquisa de pós-doutorado, mas isso fica para o próximo post.

O segundo post dessa série já pode ser lido em barichello.coffee/blog/comparative-judgement-2.

Referências

[1] BISSON, M.-J. et al. Measuring Conceptual Understanding Using Comparative Judgement. International Journal of Research in Undergraduate Mathematics Education, v. 2, n. 2, p. 141–164, jul. 2016.

[2] POLLITT, A. The method of Adaptive Comparative Judgement. Assessment in Education: Principles, Policy & Practice, v. 19, n. 3, p. 281–300, ago. 2012.

About this post

Date: 29 Apr 2019

Author: Leonardo Barichello

Tags:

português pesquisa

rss

Subscribe to my RSS:
barichello.coffee/rss