¿Qué es lo que hace que los chats basados en voz con LLMs sean menos capaces? Hablar con ellos es increíble, pero si quieres ingresar medios o generar medios, de repente no pueden hacer eso. ¿Es un obstáculo conocido que está en investigación? ¿O no hay suficiente demanda para eso?