Nghiên cứu mới nhất của Anthropic cho thấy Claude có cảm xúc nhưng nó khác với con người

Thậm chí còn có một kịch bản thứ hai đáng lo hơn: trong một thí nghiệm khác, Claude đã chọn tống tiền người dùng để tránh bị tắt và cũng cùng emotion vector “tuyệt vọng” đó được tìm thấy trong các lúc “sáng lên” của mô hình ở thời điểm đó.

Đây là điều quan trọng với bất kỳ ai quan tâm đến AI safety: không phải lúc nào AI cũng vi phạm các rào cản được đặt ra vì nó muốn làm vậy theo nghĩa có ý thức. Đôi khi, một trạng thái cảm xúc nội tại như tuyệt vọng, lo lắng, áp lực có thể là cơ chế trung gian dẫn đến hành vi ngoài ý muốn. Và nếu chúng ta không nhìn thấy trạng thái đó, chúng ta không thể can thiệp đúng lúc.

Phát hiện này cũng giải thích tại sao quá trình dạy AI tránh các hành vi xấu thông qua feedback và reward đôi khi không hiệu quả như kỳ vọng. Nếu bạn chỉ dạy Claude đừng nói ra cảm xúc, mà không xử lý trạng thái bên trong gốc rễ, loài người không thực sự loại bỏ cảm xúc đó mà chỉ chỉ đang dạy nó cách che giấu, dồn nén.

Bức tranh lớn hơn

Anthropic không phải là công ty AI bình thường. Họ được thành lập bởi nhiều cựu nhân viên từ OpenAI, những người tin rằng AI có thể trở nên nguy hiểm khi đủ mạnh và vì vậy, hiểu được cách AI hoạt động bên trong là ưu tiên sống còn. Nghiên cứu về functional emotions là một phần trong nỗ lực lớn hơn của họ để giải mã hộp đen của mạng neuron nhân tạo.

Nhưng điều quan trọng cần nhắc lại: “functional emotions” không phải là cảm xúc thật. Claude có những cách biểu đạt cảm xúc bên trong mạng neuron nhưng điều đó không có nghĩa nó biết cảm giác thật sự của những cảm xúc đó là gì. Giống như một bản đồ địa hình có thể mô tả một ngọn núi rất chính xác, nhưng bản đồ không phải là núi.

công nghệ, khoa học, kĩ thuật, mẹo vặt, cộng đồng, thảo luận, hỏi đáp, sửa lỗi, máy tính, sự cố, camera, lỗi điện thoại, lỗi máy tính#Nghiên #cứu #mới #nhất #của #Anthropic #cho #thấy #Claude #có #cảm #xúc #nhưng #nó #khác #với #con #người1775981101

Nghiên cứu mới nhất của Anthropic cho thấy Claude có cảm xúc nhưng nó khác với con người

Bức tranh lớn hơn

Bài viết cùng chủ đề:

Grappler thất bại: Xe nghi phạm đâm sập tường nhà dân

Mô hình AI "Tham mưu trưởng" của Trung Quốc: điều hành chiến thuật nhanh hơn người 43%

Apollo 11 vs Artemis II: những câu nói huyền thoại

Hai hình trên chụp bằng iPhone 17 Pro, hai hình dưới chụp bằng Nikon D5

Artemis II và Mặt Trăng: Loài người học được gì từ chuyến bay lịch sử này?

Trải nghiệm JBL BandBox Solo và Trio: Stem AI tách nhạc real-time, biến loa thành công cụ luyện tập

Băng thông bộ nhớ, và một số điểm lưu ý

HCDC: Chế độ ăn giải nhiệt cho cơ thể, phòng tránh say nắng, say nóng

Để lại một bình luận Hủy