1/ MLP yang padat adalah kebohongan. Trafo standar yang kami latih sudah melakukan perutean jarang di dalam lapisan feedforward-mereka — kami tidak dapat melihatnya sampai sekarang. 🧵