هوش مصنوعی مایکروسافت در سه ثانیه صدای شما را تقلید میکند – تی ام گیم
هوش مصنوعی مایکروسافت در سه ثانیه صدای شما را تقلید میکند – تی ام گیم
مدل زبان «وال-ای» (VALL-E) با استفاده از شش هزار ساعت سخنرانی انگلیسی از هفت هزار سخنران مختلف آموزش داده شد تا «طرز حرف زدن شخصیسازی شده با کیفیت بالا» از هر گوینده نادیدهای را بازآفرینی کند.
به گزارش تی ام گیم و به نقل از ایندیپندنت، هنگامی که این دستگاه هوشمصنوعی، صدای ضبطشده فردی را در اختیار داشته باشد، قادر است صدای او را جوری بازسازی کند که گویی آن شخص در حال گفتن هر چیزی است. این سیستم حتی میتواند لحن احساسی و محیط پژواکشناختی گوینده اصلی را تقلید کند.
در مقالهای که این سامانه را توصیف میکند، آمده است: «نتایج آزمایش نشان میدهد که وال-ای از نظر طبیعی بودن گفتار و شباهت به گوینده، به طرز چشمگیری از پیشرفتهترین سامانه یادگیری بدون مشاهده نمونههای مشابه برای تولید متن به گفتار (TTS) بهتر عمل میکند.»
«افزون بر این، متوجه شدیم که وال-ای میتواند احساسات و محیط پژواکشناختی صدای گوینده را در خلال تولید صدا درست حفظ کند.»
از جمله کاربردهای بالقوه آن، خواندن کامل کتابهای صوتی از تنها یک نمونه ضبطشده صدای نویسندگان، ویدیوهایی با صداگذاری به زبان طبیعی، و پرکردن صدا برای بازیگر فیلم در صورت خراب شدن ضبط اصلی است.
همانند سایر فناوریهای «جعل عمیق» که شباهت بصری افراد را در ویدیوها تقلید میکند، امکان استفاده نادرست هم مطرح است.
نرم افزار وال-ای که برای تولید صدای ساختگی استفاده میشود، در حال حاضر برای استفاده عموم در دسترس نیست، و مایکروسافت به «خطرات احتمالی در استفاده نادرست از این ابزار، از جمله جعل شناسایی صدا یا جعل هویت یک گوینده خاص» اشاره کرده است.
مایکروسافت گفت که در ادامه توسعه وال-ای از «اصول هوش مصنوعی مسئولانه» خود پیروی میکند، و راههای ممکن را در تشخیص صداهای تولیدشده برای کاهش چنین خطراتی نیز در نظر میگیرد.
مایکروسافت، وال-ای را با استفاده از ضبط صداها در حوزه عمومی، عمدتا از کتابهای صوتی «لیبریووکس» آموزش داد، و سخنرانانی که صدای آنها تقلید شد، با میل خود در آزمایشها شرکت کردند.
پژوهشگران مایکروسافت در اظهارنامهای اخلاقی گفتند: «زمانی که این مدل به سخنرانان نادیده تعمیم داده میشود، اجزای مربوط به آن باید با مدلهای ویرایش گفتار، شامل پروتکلی به منظور اطمینان از توافق گوینده با اعمال ویرایشها و سیستم تشخیص صدای ویرایششده، همراه شوند.»