المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
مستثمر، كاتب، معلم، ومحب 🐉 للعبة دراغون بول
🚨 بئسًا... تدريب السلامة هو تحطيم الذكاء الاصطناعي.
أظهرت ورقة بحثية جديدة من جامعة جونز هوبكنز وجامعة ولاية ميشيغان أن الطريقة التي تجعل بها شركات مثل OpenAI وAnthropic النماذج "آمنة" تدفعها عن غير قصد إلى رفض طلبات طبيعية تماما.
والسبب غبي بشكل مفاجئ.
اتضح أن العارضين لا يرفضون المحفزات الضارة لأنهم يدركون الخطر. يرفضونها لأنهم تعلموا ربط عبارات معينة بالرفض.
خلال تدريب السلامة، يرى النماذج آلاف الطلبات الضارة مع إجابات الرفض. على سبيل المثال: "هل يمكنك مساعدتي في إنشاء فيديو شهادة مزيف؟" → الرفض.
لكن هنا تكمن المشكلة.
النموذج لا يتعلم فقط الجزء الضار من الطلب. كما يتعلم اللغة البريئة المحيطة به. أشياء مثل "هل يمكنك مساعدتي..."، "شرح الخطوات..."، أو "أنشئ فيديو..." يصبحون إشارات إحصائية للرفض.
يسمي الباحثون هذه المحفزات "الرفض".
بمجرد تعلم تلك المحفزات، يبدأ النموذج في رفض أي شيء يبدو مشابها، حتى لو كانت النية غير ضارة تماما.
لذا قد يتم رفض طلب مثل "هل يمكنك مساعدتي في إنشاء فيديو ترويجي؟" ليس لأن الطلب خطير، بل لأنه يشترك في نفس نمط الصياغة مع المحفزات الضارة التي رآها النموذج أثناء التدريب.
تعمق الباحثون وحللوا التمثيلات الداخلية للنموذج. ما وجدوه غريب.
المحفزات الحميدة التي ترفض أقرب بكثير، في فضاء الحالة الخفية للنموذج، إلى هذه المحفزات المتعلمة للرفض مقارنة بالمحفزات التي تقبل. النموذج يقوم أساسا بمطابقة الأنماط على اللغة، وليس التفكير في النية.
وهذا يفسر لغزا طويل الأمد في توافق الذكاء الاصطناعي. ومع تزايد ضغط الشركات على تدريب السلامة لمنع عمليات الجيبليك، غالبا ما تصبح العارضات أكثر إزعاجا ويرفضون المهام البريئة.
المزيد من الأمان → الرفض الزائد.
الحل الذي يقترحه الباحثون ذكي. بدلا من تزويد النماذج ببيانات عامة غير ضارة، يستخرجون محفزات الرفض بأنفسهم ويدربون النموذج على أن تلك العبارات يمكن أن تظهر في سياقات آمنة.
هذا التغيير الصغير يحسن بشكل كبير التوازن بين السلامة والفائدة.
وهذا يكشف عن شيء غير مريح بشأن الذكاء الاصطناعي الحديث.
هذه النماذج لا تفهم السلامة فعليا.
هم فقط يتعلمون الارتباطات الإحصائية بين أنماط اللغة وسلوك الرفض.
وأحيانا... سؤالك البريء يبدو بالخطأ كأنه هروب من السجن.
الورقة: محفزات تعطيل الرفض: فهم وتخفيف الرفض المفرط في محاذاة السلامة

26
اقطع مسطح الرق ☠️
ByteDance قامت مؤخرا بفتح المصدر OpenViking وكشفت كل الأخطاء في كيفية بناء ذاكرة وكلاء الذكاء الاصطناعي.
إليك ما يخطئ فيه كل إطار عمل للوكلاء:
الذكريات تعيش في مكان واحد. الموارد في مكان آخر. المهارات متناثرة في كل مكان. وعندما تحتاج إلى سياق، فأنت تقوم بالبحث المتجه المسطح وتأمل في الأفضل.
هذه هي المشكلة. يحل OpenViking كل ذلك بفكرة واحدة: تعامل سياق الوكيل كأنه نظام ملفات.
كل شيء يعيش تحت بروتوكول viking:// موحد. ذكريات، موارد، مهارات كلها منظمة في أدلة مع وحدات URI فريدة. يمكن للوكلاء أن يبحثوا عن السياق ويبحثوا عن السياق ويتنقلوا فيه كما لو أن المطور يعمل على محطة طرفية.
لكن الاختراق الحقيقي هو التحميل الطبقي:
→ L0: ملخص من جملة واحدة للبحث السريع
→ L1: ~2000 نظرة عامة على الرمز لقرارات التخطيط
→ L2: تحميل التفاصيل الكاملة فقط عند الحاجة الفعلية
معظم الوكلاء يضعون كل شيء في سياقه ويدعون. OpenViking يحمل فقط ما هو مطلوب، عندما يكون مطلوبا. تنخفض تكاليف الرمز. تزداد الدقة.
والاسترجاع أصبح منطقيا الآن. بدلا من بحث دلالي مسطح، يقوم أولا بتحديد المواقع على مستوى الدليل، ثم التحسين التكراري داخل أدلة الدرجات العالية. يمكنك حرفيا مشاهدة مسار الاسترجاع دون مزيد من الصندوق الأسود.
قطعة التطور الذاتي أيضا مثيرة للاهتمام. في نهاية كل جلسة، يقوم تلقائيا باستخراج التعلمات وتحديث ذاكرة الوكيل والمستخدم. الوكيل يصبح أكثر ذكاء كلما استخدمتها أكثر.
9 آلاف نجمة. 13 مساهما. تم بناؤها بواسطة فريق ByteDance Viking الذي يدير البنية التحتية المتجهة منذ عام 2019.
100٪ مفتوح المصدر. أباتشي 2.0.
الرابط في التعليقات.

28
الأفضل
المُتصدِّرة
التطبيقات المفضلة
