اللحظة التي نقش فيها الذكاء في الحجر البشرية تفعل شيئا مجنونا الآن. بناء مراكز بيانات بحجم المدن، وبناء محطات طاقة بجانبها، وإطلاق شبكات الأقمار الصناعية، وغرف تبريد مليئة بحواسيب فائقة تستهلك مئات الكيلوواط بأنظمة التبريد السائل. كل ذلك لتشغيل الذكاء الاصطناعي. مقتنع أن هذا هو المستقبل. لكن التاريخ يروي قصة مختلفة. كل ثورة تكنولوجية بدأت بنماذج أولية وحشية، وتلك الوحوش اختفت بمجرد أن جاء اختراق عملي. هل تذكر ENIAC؟ وحش أنابيب مفرغة يملأ غرفة كاملة. أظهر للبشرية سحر الحوسبة، لكنه كان بطئا ومكلفا ولم يكن قادرا على التوسع أبدا. ثم وصل الترانزستور، وتغير كل شيء. تبع ذلك محطات العمل وأجهزة الكمبيوتر والهواتف الذكية. اختار العالم تجاوز ENIAC بدلا من بناء المزيد منها. مراكز بيانات GPU التي نبنيها اليوم هي ENIAC الخاص بالذكاء الاصطناعي. إنها تعمل. إنها تبهر. لكن هذا ليس النهاية. قبل أن تتابع القراءة، اذهب إلى الموقع أدناه واسأله عن أي شيء. ثلاثون ثانية تكفي. يجب أن تشعر بهذا في جسدك. وصل نموذج اللغة الكبيرة حيث يكون الجواب موجودا بمجرد الضغط على الإدخال. كنا نعيش وكأن التأخير في استجابات الذكاء الاصطناعي هو ببساطة ما هي عليه الأمور. لهذا السبب هذا صدمة لا يمكن لأي معيار أن ينقلها. غيرت الحوسبة العامة العالم لأنها أصبحت سريعة ورخيصة وسهلة البناء. الذكاء الاصطناعي سيتبع نفس المسار. المشكلة أن الذكاء الاصطناعي اليوم ليس قريبا من هذا المسار. عندما تسأل الذكاء الاصطناعي سؤالا، يرفع ذقنه على يده ويفكر لبعض الوقت. ينظر مساعدو البرمجة بلا تعبير لدقائق قبل أن يقدموا الإجابة، مما يكسر تدفق الأحداث. حتى عندما تكون هناك حاجة لردود سريعة في جزء من الثانية، كل ما تحصل عليه هو رد هادئ. التحدث إلى الذكاء الاصطناعي لا يزال يشبه إجراء مكالمة دولية. تحدث، انتظر، انتظر قليلا أكثر. هذا التأخير هو الجدار بين البشر والذكاء الاصطناعي. مشكلة التكلفة أسوأ. تشغيل الذكاء الاصطناعي اليوم يتطلب معدات ورأس مال هائلين. مكدسات HBM، الإدخال/الإخراج المعقد، الكابلات، التبريد السائل، التغليف المتقدم، التكديس ثلاثي الأبعاد. لماذا كل هذا ضروري؟ لأن المكان الذي يتذكر والمكان الذي يفكر منفصلان. فكر في الأمر بهذه الطريقة. دماغك في سيول، لكن كل ذكرياتك مخزنة في مستودع في بوسان. في كل مرة تحتاج فيها إلى استدعاء شيء، عليك أن تأخذ KTX إلى بوسان لاسترجاعها. أجهزة الذكاء الاصطناعي الحديثة لها هذا الهيكل بالضبط. الذاكرة (DRAM) كبيرة ورخيصة لكنها تقع خارج الشريحة، مما يجعل الوصول أبطأ بآلاف المرات من الذاكرة الموجودة على الشريحة. ولا يمكنك وضع DRAM داخل شريحة الحوسبة أيضا — عمليات التصنيع مختلفة جوهريا. هذا التناقض يخلق كل التعقيد في أجهزة الذكاء الاصطناعي. لتقليل رحلة ذهاب وعودة سيول-بوسان، نقوم بإنشاء HBM كسكة حديدية عالية السرعة، ونبني تكديس ثلاثي الأبعاد كبرج شاهق، ونشغل التبريد السائل كمكيف هواء ضخم. بطبيعة الحال، يرتفع استهلاك الطاقة بشكل كبير وترتفع التكاليف بشكل كبير. قلب تالاس هذا من الصفر. بدلا من جلب الذكريات من بوسان، زرعوها مباشرة داخل الدماغ. كانت توحد الذاكرة والحوسبة على شريحة واحدة بكثافة بمستوى DRAM. ثم ذهبوا خطوة أبعد: بنوا سيليكون مخصصا لكل نموذج. ليس خياطة جاهزة — خياطة مصممة خصيصا. على مدار تاريخ الحوسبة، كان التخصص العميق دائما الطريق الأضمن نحو الكفاءة القصوى. دفع تالاس هذا المبدأ إلى أقصى حدوده. كيف يكون هذا ممكنا؟ تنقش معرفة النموذج المكتسبة — أوزانها — مباشرة في طبقات السيليكون المعدنية. ذكاء، منحوت حرفيا في الحجر. يحمل ترانزستور واحد وزنا بينما يقوم في نفس الوقت بالضرب. يتذكر ويفكر في نفس الوقت. وبكلمات المؤسس ليوبيسا باجيتش، هذا "ليس فيزياء نووية — إنها خدعة ذكية لم يرها أحد لأن لا أحد سلك هذا الطريق." يحافظون على هيكل الشريحة سليما ويبدلون طبقتين معدنيتين فقط لتخصيصه لطراز معين. وشوم مختلفة على نفس الجسم. في عملية 6 نانومتر من TSMC، يستغرق الأمر شهرين من أوزان النماذج إلى بطاقة العمل. معالج HC1، الذي يحتوي على Llama 3.1 8B محفور في سيليكونها، يعالج حوالي 17,000 رمز في الثانية لكل مستخدم. Nvidia H200 يفعل 230 درجة، B200 يفعل 353، Groq 594، SambaNova 932، Cerebras 1981. الجميع يركبون الدراجات. أخذت تالاس طائرة نفاثة. بطاقة واحدة تستهلك 200 واط. عشر بطاقات في الخادم، 2500 واط. المروحة تكفي. يتصل مباشرة بأي مركز بيانات تم بناؤه خلال الثلاثين سنة الماضية. تكلفة التصنيع: واحد من عشرين. القوة: عشر. لا يوجد HBM، لا تغليف متقدم، لا تكديس ثلاثي الأبعاد، لا تبريد سائل. لا شيء مجاني، بالطبع. إذا كانت وحدة معالجة الرسوميات العامة هي مكبر صوت يمكنه تشغيل أي أغنية، فإن شريحة Taalas هي صندوق موسيقى يعزف لحنا واحدا بسلاسة تامة. ليس ذكيا، وعندما يتغير الطراز، تحتاج إلى شريحة جديدة. لكن حجم السياق قابل للتعديل، وضبط LoRA الدقيق. والأهم من ذلك، أن العتبة التي تصبح فيها النماذج كافية للمهام اليومية تقترب. إذا تقدمت نماذج الحدود قليلا أكثر، سندخل فترة يخدم فيها نموذج واحد عملا روتينيا لفترة طويلة. هنا تثبت اقتصاديات صندوق الموسيقى المخصص. استحوذت Nvidia على Groq مقابل 20 مليار دولار، وابتلعت SoftBank Graphcore، ومدت إنتل الاعتماد على SambaNova. موجة ضخمة نحو السيليكون الخاص بالاستدلال تتشكل الآن. تقف Taalas في أقصى حدها راديكالية. يبدأ المنتج الأول بنموذج لاما منحوت من السيليكون، يليه نموذج تفكير متوسط الحجم في الربيع ونموذج حدود بحلول الشتاء. الذكاء الاصطناعي السريع جدا هو ذكاء اصطناعي مختلف جوهريا. عندما يصبح زمن الاستجابة تحت الميلي ثانية ممكنا، تصبح سيناريوهات لا يمكننا إلا تخيلها حقيقية. ليست مكالمة دولية — إحساس الجري بجانب شخص ما والتحدث بأقصى سرعة. افتتحت Taalas كنسخة تجريبية رغم أن أول نموذج لها لم يصل بعد إلى الحدود. وراء ذلك ثقة: اشعر بنفسك بما يصبح ممكنا بهذه السرعة. ...