در جدیدترین دستاورد شرکت OpenAI، سیستم هوش مصنوعی GPT-2 که پیش از این میتوانست پاراگرفهایی معنادار از زبان انگلیسی را به صورت خودکار بنویسد، حالا با در اختیار داشتن نیمی از یک تصاویر، میتواند مابقی عکس را تولید و تکمیل کند.
حدودا یک سال پیش بود که مجموعه آزمایشگاههای تحقیقاتی OpenAI به سیستمی دست یافتند که میتوانست با حروف و اعداد یادداشت یا حتی پایاننامهای معنادار را بنویسد یا تکمیل کند. حالا محققان این تیم در تلاش هستند الگوریتمی مشابه را به سرانجام برسانند که در آن هوش مصنوعی بتواند بخشهای مختلف یک تصاویر را تکمیل کند.
GPT-2 در واقع یک موتور قدرتمند در زمینه پیشبینی است؛ به همین ترتیب با پیکسلهای بیشماری مبتنی بر پلتفرم آنلاین ImageNet تعلیم داده شده، تا بتواند با الگوریتمی معین، اجزای یک عکس نیمه کاره را با استفاده از موتور پیشبینیاش تکمیل کند.
از آنجایی که الگوریتم طراحی شده برای نوشتار از دادههای تکبعدی (حروف) استفاده میکرد، محققان مجبور شدهاند عکسها را به بخشهای مفردی از پیکسلهای مجزا تقسیم کنند. با مدل جدیدی که iGPT نام دارد، سیستم میتواند ساختارهای دو بعدی را در دنیای مجازی شکل دهد. با در اختیار گرفتن یک پیکسل از یک رشته، هوش مصنوعی به صورت خودکار پیکسل دوم آن رشته را پیش بینی کرده و طوری که به چشم انسان منطقی بیاید، ادامه عکس را شکل میدهد.
نمونه تصاویر تولید شده توسط این هوش مصنوعی را میتوانید در ادامه مشاهده کنید. عکس سمت چپ نمونه ناقص ارائه شده به سیستم و عکس سمت راست هم محتوای اصلی است. عکسهای وسط هم ساختارهای تولید و پیشبینی شده توسط OpenAI هستند.
بدون شک نتایج این سیستم شگفت انگیز به نظر میرسند و در حقیقت مسیر جدیدی را برای سیستمهای هوش مصنوعی مبتنی بر یادگیری خودکار نشان میدهند. پیش از این هم چنین سیستمهایی در دسترس بودند، اما همگی نیاز به نظارت انسانی داشتند، اما iGPT میتواند بدون نظارت و به صورت هوشمند فعالیت کرده و نتایجی کاملا منطقی و قابل لمس ارائه دهد.
در همین حین این متد بیانگر روشهای نگرانکننده جدیدی در ساخت تصاویر دیپ فیک به شمار میآید. تصاویر دیپ فیکی که در حال حاضر ساخته میشوند، به اندازه قابل توجهی تحت نظارت انسانی هستند و میبایست با دادههای دقیق آموزش داده شوند. به عنوان مثال اگر بخواهید یک چهره را دیپ فیک کنید، میبایست اجزای آن چهره را در اختیار ماشین قرار دهید، اما iGPT به طور کلی به میلیونها و میلیاردها داده پیکسلی از سراسر جهان دسترسی داشته و بدون آموزش خاصی میتواند مدلهای متنوعی از یک چهره دیپ فیک را شکل دهد. هرچند در حال حاضر این مدل یادگیری به شدت گران قیمت است، اما در آینده محدودیتهای کمتری در زمینه دسترسی خواهد داشت.
«جک کلارک» کارگردان این پروژه در رویداد دانشگاه MIT در رابطه با نسل آینده هوش مصنوعی GPT از تولید اتوماتیک ویدیو صحبت میکند. «احتمالا طی پنج سال آینده، تولید خودکار ویدیو با طول پنج تا ده ثانیه امکانپذیر خواهد بود». او حتی نمونهای از تصورات خود را عنوان کرده: «تصاویری از یک سیاستمدار و انفجاری نزدیک به او را به سیستم آموزش دهید، خروجی کشته شدن آن سیاستمدار توسط انفجار را تحویل بگیرید».