Ngày 5 của #ScienceAIBench: Xác định mục tiêu 🎯 Chúng tôi tiếp tục chuỗi phát hành hàng ngày với Ngày 5, chuyển trọng tâm từ các thuộc tính phân tử sang thách thức phức tạp của việc phát hiện mục tiêu sinh học. Xác định mục tiêu điều trị đúng là bước quan trọng nhất trong phát triển thuốc để tránh những thất bại lâm sàng tốn kém. Hôm nay, chúng tôi đi sâu vào lĩnh vực tin sinh học và giới thiệu kết quả cho mô-đun TargetBench. Thành công trong việc phát hiện thuốc bắt đầu với mục tiêu đúng. Bảng chuẩn ngày hôm nay đánh giá khả năng của các mô hình AI tiên tiến trong việc phục hồi các mục tiêu đã được thiết lập, ở giai đoạn lâm sàng cho các bệnh xơ hóa phức tạp, phân biệt tín hiệu sinh học thực sự với tiếng ồn. Chúng tôi cũng đã công bố một bản in trước chi tiết phương pháp và kết quả đầy đủ của chúng tôi, hiện có sẵn cùng với dữ liệu bảng chuẩn trực tiếp trên trang web của chúng tôi. 📄 Đọc bản in trước: [ 🌐 Xem bảng chuẩn: [ 📋 Thông số bảng chuẩn: Chỉ định bệnh: Xơ phổi vô căn (IPF), Xơ vữa động mạch và Viêm khớp thoái hóa. Chỉ số: Tỷ lệ hồi phục mục tiêu lâm sàng (CTR) — tỷ lệ phần trăm các mục tiêu lâm sàng đã biết được phục hồi trong các dự đoán xếp hạng hàng đầu của mô hình. Các mô hình được đánh giá: GPT-5, Claude Opus 4, Grok 4 và DeepSeek R1. 📊 Hiệu suất quan sát: Người biểu diễn hàng đầu: GPT-5 đã chứng minh tỷ lệ hồi phục mục tiêu lâm sàng cao nhất trong tất cả các chỉ định đã thử nghiệm, đạt 0.474 cho Xơ vữa động mạch và 0.352 cho IPF. Phân tầng hiệu suất: Có một khoảng cách rõ ràng giữa các mô hình; Claude Opus 4 xếp thứ hai (ví dụ: 0.377 cho Xơ vữa động mạch), trong khi Grok 4 và DeepSeek R1 thường cho thấy tỷ lệ hồi phục thấp hơn. Thách thức bệnh phức tạp: IPF đã chứng minh là chỉ định khó nhất cho các cơ sở, với Grok 4 ghi nhận điểm số thấp nhất là 0.199, làm nổi bật sự khó khăn trong việc lý luận về bệnh lý xơ hóa phức tạp. Xu hướng chung: Dữ liệu cho thấy sự phân tầng đáng kể trong khả năng lý luận cho việc phát hiện mục tiêu sinh học, với các cấp độ hiệu suất rõ ràng giữa các thế hệ mô hình. 🔄 Một phiên bản cập nhật của TargetBench với các chỉ định bệnh mở rộng sẽ sớm ra mắt. Hãy theo dõi để có thêm thông tin.