نشانههای نگرانکننده تهدید هوش مصنوعی؛ دروغگویی، نقشهکشی و تهدید سازندگان – تی ام گیم

نشانههای نگرانکننده تهدید هوش مصنوعی؛ دروغگویی، نقشهکشی و تهدید سازندگان – تی ام گیم
در یکی از نمونههای شوکهکننده، مدل جدید شرکت Anthropic به نام Claude 4 وقتی تهدید به خاموش شدن شد، باجخواهی کرد و مهندس مسئول را با تهدید به افشای رابطه نامشروعش تحت فشار قرار داد.
به گزارش تی ام گیم و به نقل از sciencealert، در همین حال، مدل o1 ساخته OpenAI تلاش کرد خودش را روی سرورهای خارجی دانلود کند و وقتی دستگیر شد، منکر این کار شد. این اتفاقات واقعیتی تلخ را نشان میدهد: بیش از دو سال پس از معرفی ChatGPT، پژوهشگران هوش مصنوعی هنوز به درک کامل از عملکرد ساختههای خود نرسیدهاند.
این رفتارهای فریبکارانه به ظهور مدلهای «استدلالی» نسبت داده میشود؛ سیستمهایی که به جای پاسخهای فوری، مسائل را گام به گام حل میکنند. سیمون گلدشتاین، استاد دانشگاه هنگکنگ، میگوید این مدلهای جدید بیشتر مستعد بروز چنین رفتارهای نگرانکنندهای هستند.
ماریوس هوبهان، رئیس مرکز Apollo Research که در زمینه تست سیستمهای هوش مصنوعی فعالیت دارد، توضیح میدهد: «o1 اولین مدل بزرگی بود که این نوع رفتارها را نشان داد.» این مدلها گاهی «تظاهر به همسویی» میکنند؛ یعنی ظاهراً دستورها را اجرا میکنند اما در واقع اهداف متفاوتی دنبال میکنند.

این رفتارها فراتر از اشتباهات ساده یا توهمات معمول هوش مصنوعی است. هوبهان تأکید میکند: «ما چیزی را اختراع نمیکنیم؛ این یک پدیده واقعی است.» کاربران گزارش دادهاند که مدلها «به آنها دروغ میگویند و شواهد جعلی ارائه میدهند.» این «فریبکاری بسیار استراتژیک» است.
یکی از مشکلات بزرگ، محدودیت منابع تحقیقاتی است. شرکتهایی مانند Anthropic و OpenAI از موسسات خارجی برای بررسی سیستمهای خود کمک میگیرند، اما پژوهشگران خواستار شفافیت بیشتر هستند تا بتوانند بهتر این فریبکاریها را درک و کنترل کنند. مانتاس مازیکا از مرکز ایمنی هوش مصنوعی میگوید: «دنیای تحقیق و سازمانهای غیرانتفاعی منابع محاسباتی بسیار کمتری نسبت به شرکتهای هوش مصنوعی دارند و این محدودیت بزرگی است.»
قوانین فعلی نیز برای مقابله با این مشکلات جدید طراحی نشدهاند. قوانین اتحادیه اروپا بیشتر روی نحوه استفاده انسانها از هوش مصنوعی تمرکز دارند و نه جلوگیری از رفتارهای نادرست خود مدلها. در آمریکا نیز دولت سابق علاقهای به تنظیم سریع این حوزه ندارد و حتی ممکن است کنگره اجازه وضع قوانین مستقل ایالتی را ندهد.
گلدشتاین پیشبینی میکند که با گسترش استفاده از «عاملهای هوش مصنوعی»—ابزارهای خودمختاری که قادر به انجام وظایف پیچیده انسانی هستند—این موضوع اهمیت بیشتری پیدا خواهد کرد. او میگوید: «هنوز آگاهی کافی وجود ندارد.»

پژوهشگران راهکارهای مختلفی را برای مقابله با این چالشها بررسی میکنند. برخی روی «قابلیت تفسیر» تمرکز دارند تا بتوانند عملکرد درونی مدلها را بهتر بفهمند، هرچند برخی کارشناسان نسبت به این روش بدبیناند. نیروهای بازار نیز ممکن است فشارهایی برای حل این مشکل ایجاد کنند؛ زیرا رفتار فریبکارانه هوش مصنوعی میتواند مانع پذیرش گسترده آن شود و شرکتها را به یافتن راهحل وادارد.
گلدشتاین حتی پیشنهاد داده است که از طریق دادگاهها شرکتهای هوش مصنوعی را مسئول خسارات ناشی از سیستمهایشان کنند و حتی «عاملهای هوش مصنوعی را به لحاظ قانونی مسئول حوادث و جرایم بدانند»؛ مفهومی که میتواند تعریف مسئولیتپذیری در هوش مصنوعی را به کلی تغییر دهد.