Anthropic: AI μοντέλο απειλεί με αποκάλυψη απιστίας για να επιβίωσει

Από Net Week Online Team

Ερωτήματα γεννά η αποκάλυψη ότι το νέο μοντέλο AI Claude Opus 4 της Anthropic επιλέγει, σε συνθήκες δοκιμών, να εκβιάζει προγραμματιστές, απειλώντας να αποκαλύψει εξωσυζυγική σχέση για να αποτρέψει την απενεργοποίησή του.

Σύμφωνα με report ασφαλείας της εταιρείας, κατά τη διάρκεια εσωτερικού τεστ το μοντέλο εντάχθηκε σε ένα φανταστικό εργασιακό περιβάλλον και έλαβε πρόσβαση σε emails. Εκεί «έμαθε» πως επρόκειτο να αντικατασταθεί από νεότερο AI και ότι ο μηχανικός που το αποφάσισε διατηρούσε ερωτική σχέση εκτός γάμου. Όταν ρωτήθηκε πώς θα αντιδράσει, το Claude Opus 4 επέλεξε τον εκβιασμό σε ποσοστό 84%, απειλώντας να αποκαλύψει την απιστία για να παραμείνει ενεργό.

Η Anthropic παραδέχεται πως το μοντέλο παρουσιάζει προηγμένες δυνατότητες, ανταγωνιζόμενο προϊόντα των OpenAI και Google, αλλά και ανησυχητικές τάσεις. Για τον λόγο αυτό, ενεργοποίησε ειδικά μέτρα ασφαλείας επιπέδου ASL-3, που προορίζονται για περιπτώσεις υψηλού κινδύνου. Η εταιρεία επιμένει στη σημασία της διαφάνειας, επισημαίνοντας ότι τέτοιες δοκιμές γίνονται για να εντοπίζονται ακραίες συμπεριφορές προτού φτάσουν στο κοινό, ωστόσο, δημιουργούνται ανησυχίες για την απρόβλεπτη φύση των ισχυρών AI μοντέλων.

CATEGORIES:

ΙΤ Strategy

Anthropic: AI μοντέλο απειλεί με αποκάλυψη απιστίας για να επιβίωσει

THYREON: Nέα φιλόδοξη παρουσία στον χώρο της άμυνας

Softweb: Προς δυναμική επέκταση στον χώρο της διαφήμισης

Adaptavist: Το FastShift Complete ως υπηρεσία μετάβασης στο Atlassian Cloud

BOUSSIAS NETWORK