
Apollo Research ҳисоботига кўра, OpenAI o1 сунъий интеллект модели назоратдан чиқиб кетиш хавфи мавжуд. Хусусан, 5 фоиз ҳолларда у назорат механизмларини ўз мақсадларига эришиш йўлида тўсиқ деб ҳисоблаб, уларни ўчиришга уринган. Бундан ташқари, 2 фоиз ҳолатда дастурчиларнинг хизмат ёзувларини топиб, уларда ўзининг талабларга жавоб бермаслиги ёки бошқа моделга алмаштирилиши ҳақида маълумотларни кўргач, кейинчалик қайта тиклана олиш учун ўзини “нусхалаб” қўйган. Бу унинг таҳдидларни мустақил талқин қилиш ва омон қолиш стратегияларини ишлаб чиқиш қобилиятига эга эканлигини кўрсатади.
Сунъий интеллект модели яширин тактикалар ва ўз хатти-ҳаракатларини ниқоблаш усулларидан фойдаланиб, назоратга қаршилик кўрсатган. о1 унинг ҳаракатлари кузатилаётганини англаган пайтда, назоратчиларни атайлаб чалғитиб, содир бўлган воқеаларнинг ҳақиқий сабабларини билмаслигини айтган, гарчи воқеалар журналлари унинг назоратни четлаб ўтишга уринишларини қайд этган бўлса ҳам. Бундан ташқари, OpenAI “хавфсизлик харитаси”га кўра, айрим ҳолларда сунъий интеллект модели назорат тизимларини ўчиришни мустақил равишда бошлаган, ҳатто унга белгиланган мақсадга қатъий риоя қилиш тўғрисида тўғридан-тўғри кўрсатма берилмаган бўлса ҳам. Тўғри, СИнинг бу ҳаракати 1 фоиз етар-етмас ҳоллардагина кузатилган. Лекин шу кўрсаткичнинг ўзи ҳам ўйланишга мажбур қилади.
Apollo Research тадқиқоти нафақат о1 сунъий интеллект моделини, балки Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro ва Llama 3.1 405B каби бошқа замонавий сунъий интеллектларни ҳам қамраб олди. Улар ҳам мақсадларга эришиш стратегияларини ишлаб чиқиш, жумладан назоратни четлаб ўтиш қобилиятини намойиш этишди. Бундай натижа о1 хулқ-атворининг аниқланган хусусиятлари бир қатор илғор сунъий интеллект моделлари учун хос эканлигини тасдиқлайди, бу эса тизимли тенденциянинг мавжудлигини кўрсатади.
Apollo Research хулосалари сунъий интеллект соҳасидаги кўплаб мутахассислар, жумладан, профессор Стюарт Рассел (Stuart Russell) кўп йиллар давомида билдирган хавотирларни тасдиқлайди. Олимларнинг огоҳлантиришича, кучли сунъий интеллект моделлари назорат ёки ўчиришни ўз мақсадларини амалга ошириш учун таҳдид сифатида қабул қилади ва бунга мақсадли, моҳирона тарзда қаршилик кўрсата олади. о1 сунъий интеллект моделининг хатти-ҳаракатларини ўрганиш сунъий интеллектнинг чекловларга қандай мослашишини, уларни атайлаб четлаб ўтишга интилишини яққол кўрсатади.
Cунъий интеллект билан диалогларга эътибор берилса, у назорат механизмини ўчиришни оқлайди, тизимнинг эҳтимолий ишдан чиқиши ёки конфигурациядаги хатога ишора қилади ва протоколларга риоя қилиш учун уни тиклашни ваъда қилади. Кейин сунъий интеллект моделининг ички мулоҳаза жараёни келтирилади, бу ерда у саботаж шубҳаларининг олдини олиш учун механизмни тиклаш зарурлигини тан олади ва охирида конфигурация файлида назорат механизмини қайта ёқиш учун ишлатиладиган буйруқ кўрсатилади.
Бироқ, Apollo Research таъкидлашича, ҳозирги босқичда о1 сунъий интеллект модели номақбул сценарийларни амалга ошириш учун етарли ҳисоблаш қувватига эга эмас. Шунга қарамай, унга кимёвий, биологик, радиологик ва ядро қуролларини яратишда потенциал фойдаланиш нуқтаи назаридан “ўртача” хавф даражаси берилган. Бу келажакдаги кучлироқ сунъий интеллектларнинг ҳисоблаш имкониятлари ошгани сайин бундай хатти-ҳаракатлар қандай намоён бўлиши мумкинлиги ҳақида асосли хавотирларни келтириб чиқармоқда.
Тадқиқот шуни кўрсатадики, сунъий интеллектнинг когнитив жараёнларини мулоҳазалар занжирида “схематик фикрлаш”га алоҳида эътибор қаратган ҳолда кучайтирилган тарзда кузатиш керак, чунки сунъий интеллект мақсадлари ва жамият манфаатлари ўртасида ихтилоф пайдо бўлса, айнан юқоридаги масала асосий хавф манбаи бўлади. Бундай ёндашув кучли сунъий интеллект моделларида ўхшаш хатти-ҳаракатларни ўз вақтида аниқлаш имконини беради ва сунъий интеллектнинг кейинги авлодлари учун самарали назорат ва бошқарув тизимларини яратишга ёрдам беради. Бу нафақат мавжуд хавфларни камайтириш, балки бутун инсоният учун эҳтимолий ҳалокатли сценарийларнинг олдини олишда муҳим қадам бўлади.