ANTHROPIC MENEMUKAN CARA UNTUK MENGIMUNISASI AI TERHADAP KEPUTUSAN YANG SANGAT BURUK
Anthropic mengklaim bahwa mereka sekarang dapat memvaksinasi AI terhadap kejahatan.
Menggunakan "persona vectors" untuk melacak sifat-sifat seperti penipuan atau penjilat, para peneliti melatih model bahasa dengan sengaja menyuntikkan perilaku buruk, kemudian
Lihat Asli