Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Alguien acaba de saltarse el Neural Engine de Apple para entrenar modelos. El motor neural de cada Mac de la serie M fue diseñado para la inferencia. Haz modelos, no los entrenes. Sin API pública, sin documentación y, desde luego, sin retropropagación. Un investigador hizo ingeniería inversa de las APIs privadas de todos modos y construyó un bucle de entrenamiento de transformadores que se ejecuta hacia adelante y hacia atrás directamente sobre el hardware de la ANE. El método evita CoreML por completo. En lugar de utilizar las herramientas oficiales de Apple, el proyecto construye programas en MIL (Model Intermediate Language), los compila en memoria usando APIs '_ANEClient' no documentadas y alimenta los datos a través de buffers de memoria compartida de IOSurface. Los pesos se integran en los programas compilados como constantes. E El paso de entrenamiento ACH despacha seis núcleos personalizados: attention forward, feedforward forward y luego cuatro pases hacia atrás que calculan gradientes respecto a las entradas. Los gradientes de peso siguen funcionando en la CPU usando las bibliotecas matriciales de Accelerate, pero el trabajo pesado (multiplicaciones de matrices, softmax, funciones de activación) ocurre en el ANE. Esto hace posibles tres cosas que antes no existían: 1. Entrenar modelos pequeños localmente sin gastar la batería 2. Ajuste fino en el dispositivo sin enviar datos a un servidor ni poner en marcha la GPU 3. Investigar qué puede hacer realmente el hardware ANE cuando ignoras las barreras de Apple Si este enfoque escala, la próxima oleada de IA en el dispositivo dejará de consistir en ejecutar el modelo congelado de otra persona.

Populares

Ranking

Favoritas