Thậm chí còn có một kịch bản thứ hai đáng lo hơn: trong một thí nghiệm khác, Claude đã chọn tống tiền người dùng để tránh bị tắt và cũng cùng emotion vector “tuyệt vọng” đó được tìm thấy trong các lúc “sáng lên” của mô hình ở thời điểm đó.
Đây là điều quan trọng với bất kỳ ai quan tâm đến AI safety: không phải lúc nào AI cũng vi phạm các rào cản được đặt ra vì nó muốn làm vậy theo nghĩa có ý thức. Đôi khi, một trạng thái cảm xúc nội tại như tuyệt vọng, lo lắng, áp lực có thể là cơ chế trung gian dẫn đến hành vi ngoài ý muốn. Và nếu chúng ta không nhìn thấy trạng thái đó, chúng ta không thể can thiệp đúng lúc.
Phát hiện này cũng giải thích tại sao quá trình dạy AI tránh các hành vi xấu thông qua feedback và reward đôi khi không hiệu quả như kỳ vọng. Nếu bạn chỉ dạy Claude đừng nói ra cảm xúc, mà không xử lý trạng thái bên trong gốc rễ, loài người không thực sự loại bỏ cảm xúc đó mà chỉ chỉ đang dạy nó cách che giấu, dồn nén.
Bức tranh lớn hơn
Anthropic không phải là công ty AI bình thường. Họ được thành lập bởi nhiều cựu nhân viên từ OpenAI, những người tin rằng AI có thể trở nên nguy hiểm khi đủ mạnh và vì vậy, hiểu được cách AI hoạt động bên trong là ưu tiên sống còn. Nghiên cứu về functional emotions là một phần trong nỗ lực lớn hơn của họ để giải mã hộp đen của mạng neuron nhân tạo.
Nhưng điều quan trọng cần nhắc lại: “functional emotions” không phải là cảm xúc thật. Claude có những cách biểu đạt cảm xúc bên trong mạng neuron nhưng điều đó không có nghĩa nó biết cảm giác thật sự của những cảm xúc đó là gì. Giống như một bản đồ địa hình có thể mô tả một ngọn núi rất chính xác, nhưng bản đồ không phải là núi.
công nghệ, khoa học, kĩ thuật, mẹo vặt, cộng đồng, thảo luận, hỏi đáp, sửa lỗi, máy tính, sự cố, camera, lỗi điện thoại, lỗi máy tính#Nghiên #cứu #mới #nhất #của #Anthropic #cho #thấy #Claude #có #cảm #xúc #nhưng #nó #khác #với #con #người1775981101









