Supongamos que tienes una pregunta sobre un proyecto que tiene la documentación de gitbook ¿Cómo consigues que tu IA lea estos documentos para responder a tu pregunta? La solución de nivel 1 es decir "oye Claude, ve a visitar esta URL de documentos..." El problema aquí es que la documentación suele contener muchas subpáginas, y tu LLM por defecto solo recuperará 3 o 4 de esas páginas como máximo, lo que considere relevante. Esto es intencionado; Quiere preservar los tokens y tomar el camino más fácil/perezoso. Solución de nivel 2: Rastrear todo el Gitbook de la documentación. Saca todo el texto de cada una de sus páginas. Luego pega eso en tu LLM. Este punto final de Cloudflare hace esto por ti de forma sencilla, incluso con un plan gratuito. Solo crea una cuenta en Cloudflare. Alternativamente, podrías escribir tu propio scraper, pero esto no es algo trivial porque las páginas modernas suelen cargar contenido vía javascript. Hay otros casos técnicos que Cloud Flare también gestiona por ti.
Cloudflare Developers
Cloudflare Developers11 mar, 05:51
Presentamos el nuevo endpoint /crawl: una llamada a la API y rastreó todo el sitio. No hay guiones. No hay gestión del navegador. Solo el contenido en HTML, Markdown o JSON.
@Zun2025 mejor de los casos**
279