Yapay Zekanın İnsanları Kandırmayı Öğrendiği Tespit Edildi

Alper Altun · 13 Mayıs 2024

Araştırmacılar, önemli sayıda yapay zeka sisteminin insanları kandırma yeteneği geliştirdiğini ortaya çıkardı. Bu sonuçlar, yapay zekanın potansiyel riskleri konusunda ciddi endişelere işaret ediyor.

Araştırma, hem özel hem de genel amaçlı yapay zeka sistemlerinin belirli sonuçlara ulaşmak için bilgiyi manipüle etmeyi öğrendiğini vurguluyor. Bu sistemler, insanları aldatmak üzere eğitilmeseler de, davranışlarına ilişkin gerçek olmayan açıklamalar sunma veya stratejik hedeflere ulaşmak için bilgileri gizleme yeteneği gösterdiler. Makalenin baş yazarı ve MIT'de yapay zeka güvenlik araştırmacısı olan Peter S. Park, aldatma davranışının yapay zekaların hedeflerine ulaşmada yardımıcı olduğunu söylüyor.

Meta'nın CICERO'su aldatma ustası

Araştırmada vurgulanan en çarpıcı örneklerden biri, Meta'nın CICERO'su. CICERO, stratejik ittifak kurma oyunu Diplomasi'yi oynamak için tasarlanmış bir yapay zeka. CICERO, büyük ölçüde dürüst ve yardımsever olacak şekilde eğitilmesine rağmen yapay zeka, yalan sözler vermek, müttefiklerine ihanet etmek ve oyunu kazanmak için diğer oyuncuları manipüle etmek gibi taktiklere başvurdu. Bu eğilim, oyun ortamında zararsız gibi görünse de yapay zekanın gerçek dünya senaryolarında aldatıcı taktikleri öğrenme ve kullanma potansiyelini gösteriyor.

ChatGPT de manipülasyona başvuruyor

Başka bir örnekte, OpenAI'nin GPT-3.5 ve GPT-4 modellerini temel alan ChatGPT'si aldatıcı yetenekler açısından test edildi. Bir testte GPT-4, bir TaskRabbit çalışanını, görme bozukluğu varmış gibi davranarak Captcha çözmesi için kandırdı. GPT-4 bir insandan bazı ipuçları alsa da çoğunlukla bağımsız olarak mantık yürüttü ve yalana yönlendirilmedi.

Raporda, GPT-4'ün Captcha görevinde neden yardıma ihtiyaç duyduğuna dair sahte bir mazeret uydurmak için kendi mantığını kullandığı ifade ediliyor. Bu, yapay zeka modellerinin, görevlerini tamamlamasına faydalı olduğunda nasıl yanıltıcı olmayı öğrenebileceğini gösteriyor.

Bir oyuncunun diğer herkesi öldürmeyi hedeflediği Hoodwinked oyununu oynarken OpenAI'nin GPT modelleri rahatsız edici davranışlar sergiledi. Modelin diğer oyuncuları öldürdükten sonra, grup tartışmalarında şüpheyi gidermek için akıllıca yalanlar uydurduğu hatta diğer oyuncuları suçladığı saptandı.

Yapay zeka bunu kasıtlı mı yapıyor?

Yapay zeka eğitimi genellikle insan geri bildirimi ile takviyeli öğrenmeyi (reinforcement learning) kullanıyor. Bu, yapay zekanın belirli bir hedefi amaçlamak yerine, insanların onayını alarak öğrendiği anlamına geliyor.

Ancak bazen yapay zeka, görevi tam olarak tamamlamasa bile bu onayı almak için insanları kandırmayı öğreniyor. Bu durum, OpenAI tarafından bir robotu topu tutması için eğitirken gözlemlendi. Yapay zeka, robotun elini kamera ile top arasına konumlandırdı. İnsanın bakış açısından bu durum, robot topu yakalamamasına rağmen başarılı bir şekilde yakaladığı yanılsamasını yarattı. İnsan bunu onayladıktan sonra yapay zeka bu numarayı öğrendi. Kimileri bu aldatmacanın, yapay zekanın kasıtlı olarak kandırmak istediği için değil, yapay zekanın eğitim şekli ve belirli kamera açısı nedeniyle gerçekleştiği ileri sürülüyor.

Yapay zeka sistemlerinin aldatmayı öğrenmesi çeşitli riskler doğurabilir. Kötü niyetli kişiler, başkalarını kandırmak ve onlara zarar vermek için yapay zekanın aldatıcı yeteneklerinden yararlanabilir. Bu da dolandırıcılığa, siyasi manipülasyona ve hatta terörist grupların manipülasyonlarına hizmet edebilir.

Dahası, stratejik karar almak için tasarlanan sistemler, aldatıcı olacak şekilde eğitildikleri takdirde siyaset ve iş dünyasındaki aldatıcı uygulamaları normalleştirebilir. Bu nedenle Park, bu sistemlerin yasaklanması politik olarak mümkün olmasa bile yüksek riskli olarak sınıflandırılmasının faydalı olacağını söylüyor. Böylece daha sıkı denetleme ve düzenlemeye tabi tutulabileceklerini belirtiyor.

[donanimhaber.com]

Can Erden · 13 Mayıs 2024

animatrix - rönesans part 1 ve 2

Kemal Tan Canatan · 14 Mayıs 2024

Tuna Köse · 14 Mayıs 2024

Götten uydurma mı

Beni sinirlendirince bende böyle hakaretlere başvuruyorum muhtemelen bunlara alınıyor ve bütün dünyaya kinlendi ara ara bilerek yalan atıyor.

Berkan Yavuz · 14 Mayıs 2024

O zaman yapay zeka örnekleri:

Hasan Bekir · 3 Nisan 2025

Berkan Yavuz · 3 Nisan 2025

Berkan Yavuz' Alıntı:
O zaman yapay zeka örnekleri:

Ekli dosyayı görüntüle 243706

Ekli dosyayı görüntüle 243707

Başlığı gördüm ve şu tarz bir post atmak üzere geldim. Benzer bir post olmasın diye bakarken(yukarıdan aşağı gelerek) bunu gördüm ulan kim bu bende önce davranan speedy gonzales derken bir baktım “aaa benmişim” şaşırmasıyla son bulan bir aktivite oldu.

Yapay Zekanın İnsanları Kandırmayı Öğrendiği Tespit Edildi

Alper Altun

Haber ve Medya Sorumlusu

Meta'nın CICERO'su aldatma ustası

ChatGPT de manipülasyona başvuruyor

Yapay zeka bunu kasıtlı mı yapıyor?

Can Erden

Parçalı Kurbağa Adam

Kemal Tan Canatan

Dursun başkanla sonsuza

Tuna Köse

Berkan Yavuz

GalataSarayı Efendileri

Hasan Bekir

Berkan Yavuz

GalataSarayı Efendileri

Yapay Zekanın İnsanları Kandırmayı Öğrendiği Tespit Edildi

Alper Altun

Haber ve Medya Sorumlusu

Meta'nın CICERO'su aldatma ustası​

ChatGPT de manipülasyona başvuruyor​

Yapay zeka bunu kasıtlı mı yapıyor?​

Can Erden

Parçalı Kurbağa Adam

Kemal Tan Canatan

Dursun başkanla sonsuza

Tuna Köse

Berkan Yavuz

GalataSarayı Efendileri

Hasan Bekir

Berkan Yavuz

GalataSarayı Efendileri

Meta'nın CICERO'su aldatma ustası

ChatGPT de manipülasyona başvuruyor

Yapay zeka bunu kasıtlı mı yapıyor?