مسیریابی بهتر هوش مصنوعی با اضافهشدن دادههای صوتی
دانشمندان با اضافهکردن اطلاعات صوتی به اطلاعات تصویری توانستند موفقیت هوش مصنوعی را در مسیرهای پیچوخم سهبعدی افزایش دهند.
محققان از ترکیب دادههای صوتی با دادههای تصویری برای عملکرد بهتر هوش مصنوعی در حوزهی مسیریابی خبر دادهاند. حس بینایی یکی از مهمترین حسهایی است که انسان برای مسیریابی جهان پیرامونش از آن استفاده میکند. البته، صدا نیز بههمان اندازه مهم است. انسانها میتوانند با دنبالکردن نشانههایی چون بلندی صدا و جهت و سرعت سیگنالهای صوتی، مسیرها را ردیابی کنند. دانشمندان دانشگاه فنلاند شرقی اخیرا پیشمقالهای با این عنوان منتشر کردند: «آیا عاملان هوش مصنوعی به دادههای صوتی مجهز میشوند؟» آنها قصد دارند اطلاعات ردیابی مسیر در سیستم هوش مصنوعی را علاوهبر دادههای تصویری با اطلاعات صوتی کاملتر کنند. نتایج اولیه نشان میدهد این رویکرد جدید توانایی عاملان را در تکمیل اهداف مسیرهای پیچوخم سهبعدی بهبود میبخشد.
یادگیری فقط با استفاده از اطلاعات بصری برای هوش مصنوعی آسان نیست. برای مثال، رسیدن به هدف تنها با اطلاعات بصری برای هوش مصنوعی بسیار دشوار است. در محیط شبیهسازیشده، هدف معمولا در دید عامل در مسیر مستقیم وجود ندارد. سناریویی را در نظر بگیرید که اتاقهای متعددی وجود دارد و سوژه در یکی از همین اتاقها است. بنابراین، با اضافهکردن ویژگیهای صوتی میتوان به اطلاعات ارزشمندی دست یافت که بتواند به حل چنین مشکلاتی کمک کند.
پژوهشگران هوش مصنوعی از مدلی انعطافپذیر برای انواع دادهها (پیکسلهای صوتی و تصویری) بهنام Q-network عمیق استفاده کردند. استفاده از این مدل در بازیهای آتاری موفقیت آمیز بود. آنها عامل را در محیط تحقیقاتی دیجیتال ساختهشدهی VizDoom در بازی تیراندازی اول شخص Doom با دو ویژگی مختلف زیر و بمی صدا و نمونههای خام اولیه صوتی آموزش دادند.
تیم تحقیقاتی توضیح داد اطلاعات محیط (فاصله از هدف) بهصورت نمونهی زیر و بمی صدا کدگذاری شد. سپس، این نمونه به عامل هوش مصنوعی همراهبا تصویر ارائه شد. ازآنجاکه فاصله تا هدف بهصورت کموزیادشدن صدا کدگذاری شده بود، این ویژگی بهراحتی میتوانست اطلاعات مفیدی به عامل انتقال دهد. هرچه صدا بلندتر میشد، به این معنا بود که عامل به هدف نزدیکتر شده است. این ویژگیها بهعنوان بررسی منطقی برای دراختیارگذاشتن اطلاعات مفید ارائهشده دربارهی فاصله از هدف برای عامل تعیین شدند.
در آزمایشی، سناریو VizDoom سفارشی روی کامپیوتر اجرا شد. دانشمندان به عامل هوش مصنوعی تکلیفی برای حرکت در مسیر پیچوخم سهبعدی شکل دادند. این حرکت بهصورت چرخیدن به راستوچپ یا جلووعقب یا رفتن به اتاقهای مختلف بود. در ابتدا، عامل اقدامات کاملا تصادفی انجام میداد؛ اما بهمرورزمان و با دریافت پاداش هنگام رسیدن به هدف (روشی در روانشناسی با نام یادگیری تقویتکننده) عملکرد عامل بهبود پیدا کرد.
دو نوع متفاوت از آزمایشها بررسی شدند. در مدل اول، عامل بهصورت تصادفی در یک اتاق قرار میگرفت و در مدل دوم، عاملها در یکی از پنج اتاق ظاهر میشدند. در مدل اول، اطلاعات تصویری همراهبا زیر و بمی صدا و دادههای خام اولیه صوتی کدگذاری شدند. زمانیکه اطلاعات همراهبا ویژگیهای صوتی کدگذاری شده بودند، بهطورمتوسط عاملها پاداش بهتری در هر آزمون بهدست آوردند تا اینکه فقط اطلاعات تصویری بهتنهایی ارائه میشدند. در مدل بعدی، ویژگیهای صوتیوتصویری باهم باعث شدند تا عامل موفق شود در بیشتر موارد به هدف برسد.
طبق آزمایشها، دانشمندان به این نتیجه رسیدند زمانیکه تنها از دادههای تصویری استفاده میکنند، میزان موفقیت در عملکرد عامل هوش مصنوعی ۴۳ درصد است. این در حالی است که وقتی به اطلاعات تصویری اطلاعات خام اولیهی صوتی و زیر و بمی صدا اضافه میشود، میزان موفقیت عامل بهطورمیانگین بهترتیب تا ۸۷ و ۸۶ درصد افزایش مییاید. بهطورمتوسط تعداد مراحل موردنیاز برای رسیدن به هدف هنگام استفاده صرف از اطلاعات تصویری ۱,۴۲۰ مرحله است. این تعداد زمانیکه اطلاعات خام اولیهی صوتی و زیر و بمی صدا اضافه شدند، بهترتیب ۷۵۱ و ۶۱۴ مرحله است.
این تیم تحقیقاتی بهغیر از فعالیت در حوزه بازیهای ویدئویی، مشغول آزمایشها متفاوت در محیطهای آزمایشی مختلف است.