Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mọi người đang nhanh chóng hiểu sai biểu đồ này vì sự phấn khích
Dưới đây là một giải thích rõ ràng về những gì đang xảy ra:
METR xây dựng một tiêu chuẩn cho các nhiệm vụ phần mềm, (gỡ lỗi các hệ thống phức tạp, đào tạo các mô hình ML, hoặc tìm kiếm các lỗ hổng bảo mật)
Họ đo thời gian mà mỗi nhiệm vụ mất để một chuyên gia có kỹ năng hoàn thành, sau đó thử nghiệm các tác nhân AI trên những nhiệm vụ tương tự.
"Thời gian chân trời" là một thống kê tóm tắt: độ dài nhiệm vụ mà một AI nhất định thành công 50% thời gian. Một mô hình có thời gian chân trời 2 giờ hoàn thành một nửa số nhiệm vụ mà một chuyên gia con người mất 2 giờ.
METR vừa báo cáo rằng Claude Opus 4.6 có thời gian chân trời 50% khoảng ~14.5 giờ, điều này, tất nhiên, sẽ rất ấn tượng...
nhưng METR đang nói với chúng ta cần thận trọng!
Có một vấn đề thống kê. Đơn giản là không có đủ nhiệm vụ khó còn lại để neo giữ phần trên của đường cong và các mô hình tiên tiến hiện đang thành công gần như mọi thứ trong bộ nhiệm vụ.
Vì vậy, những biến động ngẫu nhiên nhỏ trong kết quả đang làm cho ước lượng thay đổi một cách đáng kể:
Khoảng tin cậy 95% trải dài từ 6 giờ đến 98 giờ, điều này rõ ràng là một khoảng không đáng tin cậy để bất kỳ ai rút ra kết luận.
Chính METR cũng đang làm việc trên các phương pháp mới để đo lường ở cấp độ này, vì vậy hãy giảm bớt kỳ vọng một chút :)
Hàng đầu
Thứ hạng
Yêu thích
