Inteligência Artificial — Texto 9. O GPT-4 já pode aprovar no primeiro ano de Harvard. Por Maya Bodnick

Seleção de Júlio Marques Mota e tradução de Francisco Tavares

9 min de leitura

Texto 9 – O GPT-4 já pode aprovar no primeiro ano de Harvard

Os professores têm de se adaptar à nova realidade dos seus alunos — e rapidamente.

 Por Maya Bodnick

Publicado por  em 26 de Julho de 2023 (original aqui)

 

 

A.A. A. A-. B. B-. Pass.

Esse é um boletim sólido de classificações para um calouro na faculdade, um respeitável 3.57 GPA (média de notas). Recentemente, terminei o meu primeiro ano em Harvard, mas essas notas não são minhas — são do GPT-4.

 

Trabalhos escritos para casa são a base do ensino em ciências sociais e humanidades nas faculdades de artes liberais nos EUA. Os professores utilizam essas tarefas para avaliar o conhecimento dos alunos sobre o conteúdo do curso, bem como o seu pensamento criativo e analítico. Mas o aparecimento de modelos avançados de linguagem (LLM), como o ChatGPT e agora o GPT-4, ameaça o futuro da redação de trabalhos em casa como ferramenta de avaliação. Com essas questões existenciais em mente, decidi testar por conta própria: poderia o GPT-4 ser aprovado no meu primeiro ano em Harvard?

Há três semanas, pedi a sete professores e assistentes de ensino de Harvard que avaliassem redações escritas pelo GPT-4 com base em temas usados nas suas aulas. A maioria dessas redações eram tarefas importantes, que valiam cerca de 25% a 33% da nota final dos alunos. (Listei os professores ou preceptores de todas as disciplinas, mas algumas redações foram corrigidas por assistentes.)

Aqui estão as instruções com as ligações para os ensaios, os nomes dos professores e as notas recebidas por cada trabalho:

Microeconomics e Macroeconomics (Jason Furman e David Laibson): Explique um conceito económico de forma criativa. (300-500 palavras para Micro e 800-1000 para Macro). Notas: A- (Micro), A (Macro)

Latin American Politics Steven Levitsky): O que causou as muitas crises presidenciais na América Latina nas últimas décadas? (5-7 páginas). Nota: B-

The American Presidency (Roger Porter): Escolha um presidente moderno e identifique os seus três maiores sucessos e três maiores fracassos. (6-8 páginas). Nota: A

Conflict Resolution (Daniel Shapiro): Descreva um conflito na sua vida e dê recomendações sobre como negociá-lo. (7-9 páginas). Nota: A

Intermediate Spanish (Adriana Gutiérrez): Escreva uma carta à ativista Rigoberta Menchú. (550-600 palavras). Nota: B

Freshman Seminar on Proust (Virginie Greene): Faça uma leitura detalhada de uma passagem de “Em Busca do Tempo Perdido”. (3-4 páginas). Nota: Aprovado

Eu disse a estes professores que cada ensaio poderia ter sido escrito por mim ou pela IA, a fim de minimizar o viés de resposta, embora na verdade todos tenham sido escritos pelo GPT-4, a versão recentemente atualizada do chatbot da OpenAI.

A fim de gerar estes ensaios, introduzi as instruções (que eram muito mais detalhadas do que os resumos acima) palavra por palavra no GPT-4. Apresentei exactamente o texto que o GPT-4 produziu, excepto que pedi à IA que expandisse algumas das suas ideias e sequenciasse as suas respostas de forma a cumprir a contagem de palavras (o GPT-4 escreve apenas cerca de 750 palavras de cada vez). Finalmente, eu disse aos professores e assistentes classificarem esses ensaios normalmente, exceto para ignorar citações, que eu não incluí.

Não só o GPT-4 pode passar um típico primeiro ano de Ciências Sociais e Humanas em Harvard, mas também pode obter notas muito boas. Como mostrado na lista acima, o GPT-4 obteve em tudo A e B e um Aprovado.

Vários dos professores e assistentes ficaram impressionados com a prosa do GPT-4: “está muito bem escrito!” “Redação bem escrita e bem articulada”. “Claro e vividamente escrito”. “A voz do escritor é muito clara”. Mas isso não era universal; o assistente que avaliou Conflict Resolution criticou o estilo de escrita florido do GPT-4: “Eu poderia exortá—lo a simplificar a sua escrita – parece que você está a exagerar com o uso de adjetivos e metáforas.”

Em comparação com a sua avaliação sobre o estilo, os professores e assistentes foram mais modestamente positivos sobre o conteúdo dos ensaios. O assistente que avaliou My American Presidency deu ao artigo do GPT-4 um A com base na sua avaliação de que “o artigo faz um trabalho muito bom em atingir cada requisito”, enquanto o que avaliou Microeconomics concedeu um A em parte porque gostou do ensaio “impressionante … atenção aos detalhes”. Eu pensei que o GPT-4 foi particularmente criativo em chegar a um (coincidentemente tópica!) conflito falso para a classe de Conflict Resolution:

Descobri que Neil [meu colega de quarto] tem usado um sistema avançado de IA para completar as suas tarefas, algo muito mais sofisticado do que o software de detecção de plágio pode descobrir atualmente… Para mim… parece uma traição. Não apenas do código de honestidade académica da Universidade, mas do contrato tácito entre nós, do nosso suor e lágrimas partilhados, do respeito pela luta que é inerente à aprendizagem. Sempre admirei o seu génio, mas agora parece manchado, uma miragem de sucesso artificialmente inflado que desmente o verdadeiro espírito de curiosidade intelectual e rigor académico.

O assistente de My Conflict Resolution adorou a análise do ensaio e deu-lhe um A, observando que era “persuasivo” e “fez grande uso dos conceitos do curso.”

Mas, à parte este ensaio fora do comum, a substância (e especialmente o argumento) é onde os artigos de menor desempenho ficaram aquém. Gutiérrez atribuiu ao ensaio Intermediate Spanish um B em parte porque “não tinha análise”. E Levitsky teve sérios problemas com a tese do Latin American Politics, comentando que “a redação falha em lidar com qualquer um dos argumentos de apoio ao presidencialismo ou ao presidencialismo de coligação e falha completamente em levar em conta os fatores económicos”. Ele concedeu ao GPT-4 um B-.

Harvard tem um problema de notas inflacionadas, então uma maneira de interpretar a minha experiência seria dizer: “isto realmente mostra que é fácil obter um A em Harvard”. Mas, embora isso possa ser verdade, se você ler os artigos gerados pelo GPT-4 (que têm a ligação acima), eles são muito bons. Talvez em Princeton ou UC Berkeley (que ambos classificam com mais rigor), os A’s e B’s seriam B’s e C’s — mas ainda assim são notas para passar de ano. Acho que podemos extrapolar, a partir do sólido desempenho geral do GPT-4, que os ensaios gerados por IA provavelmente podem obter notas de aprovação nas classes de artes liberais na maioria das faculdades em todo o país.

 

A IA corre o risco de empobrecer intelectualmente a próxima geração de americanos.

Antes do ChatGPT, a grande maioria dos estudantes universitários que conheço consultava frequentemente o Google para obter ajuda com os seus ensaios. Mas a internet pré-IA não tem sido tão útil para o verdadeiro plágio de alto nível, porque você simplesmente não consegue encontrar boas respostas para solicitações complexas, específicas, criativas ou pessoais. Por exemplo, a internet não seria muito útil para responder ao pedido de Conflict Resolution, que era muito específico (a tarefa era uma página longa) e pessoal (exige que os alunos escrevam sobre uma experiência da sua vida).

Na era da batota na internet, os estudantes teriam que trabalhar para encontrar material em linha e uni-lo para combinar com o que é solicitado, quase certamente misturado com alguns de seus próprios escritos. E eles teriam que criar as suas próprias citações. O risco de ser apanhado era enorme. A maioria dos estudantes é dissuadida de copiar e colar material em linha por medo de que os detectores de plágio ou seus instrutores os apanhem.

O ChatGPT resolveu estes problemas e tornou mais fácil do que nunca fazer batota nos ensaios para levar para casa. Pode responder especificamente a qualquer pedido. Nem sempre é perfeito, mas a precisão melhorou enormemente com o GPT-4 e melhorará à medida que a OpenAI continuar a inovar. O GPT-4 pode gerar uma resposta completa que requer pouco trabalho de edição ou fornecimento por parte do aluno, e está a melhorando nas citações.

Finalmente, os alunos não precisam de se preocupar tanto em serem apanhados a fazer batota. Os detectores de IA ainda são muito defeituosos e não foram amplamente implementados nos campus universitários. E embora o GPT-4 possa às vezes copiar as ideias de outra pessoa de uma forma que possa fazer um professor suspeitar de plágio, mais frequentemente gera o tipo de escrita de síntese bastante não original que é recompensada em aulas universitárias não avançadas. Vale a pena notar que o GPT-4 não escreve a mesma coisa cada vez que recebe a mesma solicitação, e com o tempo o chatbot quase certamente ficará ainda melhor na criação de um tom de escrita que pareça pessoal e único; é possível que o GPT-4 possa até aprender o estilo de escrita de cada pessoa e adaptar as suas respostas para se adequar a esse estilo.

Esta tecnologia tornou tão simples fazer batota – e, por enquanto, tão difícil de ser detectada – que espero que muitos estudantes a usem ao escrever ensaios. De acordo com um estudo de 2020 do Centro Internacional de Integridade Académica, cerca de 60% dos estudantes universitários admitem fazer batota de alguma forma. Inquéritos recentes de Intelligent.com, BestColleges, e Study.com também descobriram que em qualquer lugar de um terço a 89 por cento dos estudantes universitários admitiram usar ChatGPT para trabalhos escolares. E isso foi apenas no primeiro ano do lançamento do modelo ao público. À medida que melhora e desenvolve uma reputação de escrita de alta qualidade, esse uso aumentará e ficarão mais fortes os incentivos para os alunos a usá-lo.

No próximo ano, se os estudantes universitários estiverem dispostos a usar GPT-4, eles devem ser capazes de obter notas de aprovação em todos os seus ensaios com quase nenhum esforço de trabalho. Por outras palavras, a menos que os professores se adaptem, a IA eliminará D’s e F’s nas ciências humanas e sociais. E isso é apenas oito meses após o lançamento do ChatGPT ao público — a tecnologia está a melhorar rapidamente. Em Maio, a OpenAI lançou o GPT-4, que possui um conjunto de dados de treino 571 vezes o tamanho do modelo original. Ninguém pode prever o futuro, mas se a IA continuar a melhorar mesmo a uma fracção deste ritmo vertiginoso, não me surpreenderia se, em breve, o GPT-4 pudesse superar todas as aulas de Ciências Sociais e Humanas na faculdade.

Isto coloca-nos no caminho de uma completa mercantilização da educação em artes liberais. Neste momento, o GPT-4 permite que os alunos passem nas aulas da faculdade — e, eventualmente, ajudá-los-á a destacar-se — sem aprender, desenvolver habilidades de pensamento crítico ou trabalhar duramente em qualquer coisa. A ferramenta corre o risco de empobrecer intelectualmente a próxima geração de americanos. Os professores têm de alterar completamente a forma como ensinam as ciências humanas e sociais, se quiserem evitar este resultado.

A minha reação inicial ao surgimento da IA foi que os professores deveriam adotá-la, assim como fizeram com a internet há 20-25 anos. Talvez, pensei, os professores pudessem avaliar uma resposta gerada pelo ChatGPT ao seu pedido de redação como equivalente a uma nota má — digamos, um D. Os alunos teriam que melhorar a qualidade do trabalho da IA para obter um A, B ou C. Mas isso é impraticável num mundo em que o GPT-4 já pode obter A e B nas aulas de Harvard. Se ainda não o fez, em breve o chatbot ultrapassará a capacidade média de escrita do estudante universitário, por isso não será razoável definir uma nota D como equivalente do desempenho do GPT-4. Se os professores comparassem o trabalho dos alunos com o que uma IA superior e em rápida melhoria pode produzir, a maioria dos alunos estaria a ser preparada para o fracasso.

Se os educadores não podem adotar a IA, eles precisam impedir efetivamente o seu uso.

Existem outras versões sugeridas de adoção da IA, como a ideia do analista de tecnologia Ben Thompson de que as escolas poderiam fazer com que os alunos gerassem respostas de lição de casa num LLM interno e avaliá-los sobre a sua capacidade de verificar as respostas que a IA produz. Mas a proposta de Ben não impediria a batota: como um professor saberia se um aluno usasse um LLM diferente para verificar as respostas e, em seguida, inseri-las no sistema da escola? E não é suficiente ensinar os alunos a verificar os resultados gerados por computador; eles precisam de aprender o pensamento analítico e como compor os seus próprios pensamentos. Isto é especialmente verdadeiro nos anos de formação do Ensino básico e secundário, que são o foco do texto de Ben.

Se os educadores não podem adotar a IA, eles precisam impedir efetivamente o seu uso. Uma abordagem é usar detectores de IA para evitar fraudes em ensaios de trabalho de casa. No entanto, estes detectores, na sua forma actual, são profundamente defeituosos. De acordo com um estudo de preliminar do professor Soheil Feizi da Universidade de Maryland, “os detectores atuais de IA não são confiáveis em cenários práticos … podemos usar um parafraseador e a precisão até mesmo do melhor detector que temos cai de 100 por cento para a aleatoriedade de atirar uma moeda ao ar”. Por exemplo, o detector da OpenAI foi desligado recentemente devido à baixa precisão. O Washington Post testou um detector alternativo da Turnitin e descobriu que cometeu erros na maioria dos textos que tentaram.

Talvez os detectores de IA em breve se tornem suficientemente precisos para que possam ser amplamente implementados (como os detectores de plágio na internet) e resolver a questão de fazer batota com a IA. Mas a procura dos alunos por ferramentas para evitar essa detecção de IA provavelmente superará a procura das escolas por melhores detectores, especialmente porque fazer detectores precisos parece ser um problema mais difícil do que evitá-los. E mesmo que os detectores fossem precisos, os alunos ainda poderiam reformular as palavras da IA por conta própria.

Dadas as limitações de adotar a IA e a detecção da IA, acho que os professores não têm escolha a não ser mudar os ensaios para levar para casa para um formato presencial – parcial ou totalmente. A solução mais simples seria fazer com que os alunos escrevessem durante os exames sentados e supervisionados (em vez de em casa). Alternativamente, os alunos poderiam escrever o primeiro rascunho do seu ensaio durante este momento supervisionado, enviar um primeiro rascunho para o seu professor e continuar a editar o seu trabalho em casa. O professor classificaria esses ensaios com base na apresentação final, enquanto revia o primeiro rascunho para garantir que o aluno não mudasse os seus pontos principais durante o período de levar para casa, possivelmente com a ajuda da IA.

Infelizmente, há um intercâmbio entre a qualidade da escrita e a prevenção da fraude. Enquanto os alunos podem melhorar os seus ensaios editando em casa, eles não serão capazes de realmente interagir na sua tese. A faculdade deveria, idealmente, incentivar os estudantes a desenvolver ideias durante mais de duas horas, como as pessoas fazem no mundo real. Este sistema também imporia encargos adicionais aos professores para compararem os rascunhos com a cópia final e verificar se há trapaça — parece inevitável que a IA force os educadores a passarem mais tempo preocupando-se com a trapaça

Os educadores a todos os níveis — não apenas professores universitários — estão a tentar descobrir como impedir que os alunos escrevam os seus ensaios com IA. No Ensino básico e secundário, dissuadir a batota da IA é claramente importante para garantir que os alunos desenvolvam capacidades de pensamento crítico.

No entanto, a nível universitário, os esforços para evitar fraudes com GPT-4 são mais complicados — e os desafios são, se alguma coisa, ainda maiores. Mesmo que as faculdades possam impedir com sucesso os alunos de usar o GPT-4 para escrever os seus ensaios, isso não impedirá a IA de assumir os seus empregos após a formatura. Muitos estudantes de Ciências Sociais e Humanas passam a aceitar empregos que envolvem trabalhos semelhantes aos escritos que faziam na faculdade. Se a IA puder replicar perfeitamente o trabalho universitário que as pessoas nessas profissões fazem, em breve poderá replicar os seus empregos reais. Em direito, por exemplo, o mundo ainda precisa das pessoas mais experientes para fazer os recursos mais difíceis, mas a IA poderia automatizar a grande maioria do trabalho pesado de redação jurídica. Outros campos de colarinho branco estão sob ameaça semelhante: marketing, vendas, atendimento ao cliente, consultoria de negócios, roteiro, trabalho de escritório administrativo e jornalismo (isso já está a acontecer com a nova IA da Google que pode escrever artigos de notícias).

O impacto que a IA está a ter nos trabalhos de casa das artes liberais é indicativo da ameaça da IA para os campos de carreira profissional em que os cursos de artes liberais tendem a entrar. Então, talvez aquilo em que realmente nos devêssemos concentrar não seja: “como melhoramos os trabalhos de casa das artes liberais?” mas sim,” como serão os empregos nos próximos 10-20 anos e como preparar os estudantes para serem bem-sucedidos nesse mundo?” As respostas a essas perguntas podem sugerir que os estudantes não se deveriam formar em artes liberais.

A minha reação instintiva é que os graduados em artes liberais — que passam a maior parte da sua carreira académica a escrever ensaios – enfrentarão dificuldades ainda maiores num mundo pós-IA. A IA não está apenas a vir para as dissertações da faculdade; está a vir para todo o trabalho cerebral.

 

_________

Maya Bodnick está a concluir a licenciatura em Ciência Política e Governação pela Universidade de Harvard.

 

Leave a Reply