🚨Ninguém está pronto para este trabalho. Todo LLM que você usa: GPT-4.1, Claude, Gemini, DeepSeek, Llama-4, Grok, Qwen tem uma falha que nenhuma quantidade de escala corrigiu. Eles não conseguem distinguir informações antigas de novas. Pressão arterial do paciente: 120 na triagem. 128 dez minutos depois. 125 na alta. "Qual é a leitura mais recente?" Qualquer humano: "125, obviamente." Todo LLM, quando atualizações suficientes se acumulam: errado. Às vezes não errado. 100% errado. Precisão zero. Alucinação completa. Todos os modelos. Sem exceções. A resposta está no final da entrada. Bem antes da pergunta. Não preciso procurar. O modelo simplesmente não consegue se livrar dos valores antigos. 35 modelos testados por pesquisadores da UVA e NYU. Todos os 35 seguem exatamente a mesma curva matemática de morte. A precisão cai logaritariamente até zero à medida que informações desatualizadas se acumulam. Sem platô. Sem recuperação. Apenas uma linha reta para o fracasso total. Eles pegaram emprestado um conceito da psicologia cognitiva chamado interferência proativa, memórias antigas, bloqueando a recordação de novas. Nos humanos, esse efeito se estabiliza. Nossos cérebros aprendem a suprimir o ruído e focar no que está no momento. LLMs nunca se estabilizam. Eles declinam até se quebrarem completamente. Os pesquisadores tentaram de tudo: "Esqueça os velhos valores" – mal mexeu na agulha Cadeia de pensamento - mesmo colapso...