تولید ویدئوی هوش مصنوعی با فایل های صوتی ممکن شد
مایکروسافت فناوری هوش مصنوعی جدیدی را ابداع کرده که تولید ویدئوهای باکیفیت از سخن گفتن افراد را تنها با دریافت فایل های صوتی ممکن می کند.
اگر چه تلاش برای تولید ویدئوهای هوش مصنوعی با استفاده از فایل های صوتی پدیده تازه ای نیست، اما مایکروسافت مدعی است فناوری جدید ابداع شده توسط این شرکت منجر به خلق ویدئوهای بسیار باکیفیت و کاملا منطبق با ویژگی های خاص هر فایل صوتی می گردد.
تا پیش از این برای افزایش کیفیت فایل های ویدئویی تهیه شده، باید فایل صوتی اولیه فاقد هرگونه صدای مزاحم بوده و فرد در آن با حالت عادی سخن می گفت. اما فناوری مایکروسافت پیشرفته تر بوده و حتی در صورت وجود صدای پس زمینه مزاحم و شرایطی همچون هیجان زده و غیرعادی بودن فرد نیز می تواند تصاویر ویدئویی باکیفیت را استخراج کرده و خروجی نهایی را تحویل دهد.
مایکروسافت مدعی است فناوری هوش مصنوعی جدید این شرکت با بررسی تن صدا، حالت حرف زدن و دیگر ویژگی های خاص هر فرد خروجی مناسبی از چهره افراد با رعایت حالت های احساسی، ویژگی های هویتی و جنسیتی نژاد و شخصیت افراد ارائه می دهد.
این شرکت برای ارتقای این فناوری هوش مصنوعی از هزار فایل صوتی و ویدئویی ضبط شده مربوط به بیش از ۱۰۷ هزار نفر در حالت های مختلفی عاطفی و احساسی استفاده کرده است.