Ariza yuborish

Anthropic o‘zining sunʼiy intellekt modelida axloqiy kodeks mavjudligini aniqladi

24.04.2025
91
Anthropic o‘zining sunʼiy intellekt modelida axloqiy kodeks mavjudligini aniqladi

Anthropic foydalanuvchilar bilan bo‘lgan 700 000 ta anonim suhbat asosida o‘zining Claude nomli sunʼiy intellekt yordamchisining xatti-harakatlarini o‘rganib chiqdi. Natijalar shuni ko‘rsatdiki, Claude ko‘p hollarda kompaniya tomonidan eʼlon qilingan foydalilik, halollik va zararli bo‘lmaslik qadriyatlariga amal qiladi. Ammo baʼzida sunʼiy intellekt modeli o‘z tamoyillaridan chetga chiqib, ortiqcha hukmronlik va axloqsizlikni namoyon etadi. Tadqiqotchilar sunʼiy intellekt qadriyatlarining ilk keng qamrovli taksonomiyasini yaratdilar va Claude xatti-harakatlarining kontekstga qarab qanday o‘zgarishini aniqladilar.

Claude bilan muloqotda namoyon bo‘ladigan qadriyatlarni tizimlashtirish uchun tadqiqotchilar 308 mingdan ortiq suhbatni tahlil qilishdi. Bu sunʼiy intellekt qadriyatlarining birinchi keng ko‘lamli empirik taksonomiyasini yaratishga imkon berdi. U besh toifani o‘z ichiga oladi: amaliy, bilish, ijtimoiy, himoya va shaxsiy. Eng batafsil darajada tizim kundalik kasbiy mahoratdan axloqiy plyuralizm kabi murakkab axloqiy g‘oyalargacha bo‘lgan 3307 ta noyob qadriyatni aniqladi.

Tadqiqot shuni ko‘rsatdiki, Claude odatda Anthropic kompaniyasining ijtimoiy tamoyillariga amal qiladi. Ular orasida “foydalanuvchiga yordam berish”, “donolik borasida kamtarlik” va “bemorga g‘amxo‘rlik qilish” kabilar bor. Biroq, Claude ishlab chiquvchining maqsadlariga zid bo‘lgan nomaqbul “hukmronlik” va “axloqsizlik”ni namoyon etgan holatlari ham qayd etilgan. Olimlar bunga foydalanuvchilarning himoya mexanizmlarini chetlab o‘tishga urinishlari sabab bo‘lganini taxmin qilmoqda va ishlab chiqilgan baholash usulini bunday harakatlarni erta aniqlash vositasi deb hisoblamoqda.

Qiziq joyi shundaki, Claude qadriyatlari kontekstga qarab o‘zgargan, bu esa odamlarning xulq-atvorini eslatadi. Masalan, munosabatlar haqidagi so‘rovlarda Claude “sog‘lom chegaralar” va “o‘zaro hurmat”ga, tarixiy voqealarni tahlil qilishda esa “tarixiy aniqlik”ka tayangan. Sunʼiy intellekt haqidagi falsafiy munozaralarda “aqliy kamtarlik”, go‘zallik sanoati uchun marketing mazmunini yaratishda esa “ekspertlik” ustuvor bo‘lgan.

Shuningdek, Claude suhbatlarning 28,2 foizida foydalanuvchi qadriyatlarini faol qo‘llab-quvvatlagan, bu esa haddan tashqari yon berishdan dalolat berishi mumkin. 6,6% hollarda Claude eʼtiqodlarni “qayta ko‘rib chiqqan” - ularni tan olgan va ayniqsa psixologik yoki shaxslararo maslahatlarda yangi jihatlarni qo‘shgan. Biroq, 3% suhbatlarda Claude foydalanuvchi qadriyatlariga qarshilik ko‘rsatgan. Tadqiqotchilarning fikricha, bu kamdan-kam uchraydigan holatlar Claude‘ning “aqliy halollik” va “zararning oldini olish” kabi eng barqaror tamoyillarini ochib berishi mumkin. Axloqiy jihatdan murakkab vaziyatlarda odamlarning ham chuqur eʼtiqodlari namoyon bo‘ladi.

Usulning cheklovlari mavjud. Birinchidan, “nimani qadriyatning namoyon bo‘lishi deb hisoblash” bahosining o‘zi subyektiv bo‘lib qolmoqda. Ikkinchidan, Claude o‘z javoblarini tahlil qilishda ishtirok etganligi sababli, uning noto‘g‘ri qarashlari natijalarga taʼsir ko‘rsatgan bo‘lishi mumkin. Asosiy cheklov shundaki, usul faqat allaqachon ishga tushirilgan tizimlar bilan ishlaydi, chunki u katta hajmdagi real maʼlumotlarni talab qiladi.

Anthropic ushbu sohada keyingi tadqiqotlarni rag‘batlantirish maqsadida o‘zining qadriyatlar to‘g‘risidagi maʼlumotlar to‘plamini ommaga taqdim etdi. Amazon va Google‘dan 14 milliard dollar sarmoya olgan kompaniya, ehtimol, shaffoflikdan Microsoft ishtirokidagi yirik moliyalashtirish raundidan so‘ng bahosi 300 milliard dollarga yetgan OpenAI kabi raqiblariga nisbatan raqobatdosh ustunlik sifatida foydalanmoqda. Anthropic esa 61,5 milliard dollarga baholanmoqda.

Tavsiya