مسیریابی بهتر هوش مصنوعی با اضافه‌شدن داده‌های صوتی

دانش و فناوری
دوشنبه ۳۰ اردیبهشت ۱۳۹۸ ۱۳:۴۸

کد خبر :541815

دانشمندان با اضافه‌کردن اطلاعات صوتی به اطلاعات تصویری توانستند موفقیت هوش مصنوعی را در مسیرهای پیچ‌وخم سه‌بعدی افزایش دهند.

محققان از ترکیب داده‌های صوتی با داده‌های تصویری برای عملکرد بهتر هوش مصنوعی در حوزه‌ی مسیریابی خبر داده‌اند. حس بینایی یکی از مهم‌ترین حس‌هایی است که انسان برای مسیریابی جهان پیرامونش از آن استفاده می‌کند. البته، صدا نیز به‌همان اندازه مهم است. انسان‌ها می‌توانند با دنبال‌کردن نشانه‌هایی چون بلندی صدا و جهت و سرعت سیگنال‌های صوتی، مسیرها را ردیابی کنند. دانشمندان دانشگاه فنلاند شرقی اخیرا پیش‌مقاله‌ای با این عنوان منتشر کردند: «آیا عاملان هوش مصنوعی به داده‌های صوتی مجهز می‌شوند؟» آن‌ها قصد دارند اطلاعات ردیابی مسیر در سیستم هوش مصنوعی را علاوه‌بر داده‌های تصویری با اطلاعات صوتی کامل‌تر کنند. نتایج اولیه نشان می‌دهد این رویکرد جدید توانایی عاملان را در تکمیل اهداف مسیرهای پیچ‌و‌خم سه‌بعدی بهبود می‌بخشد.

یادگیری فقط با استفاده از اطلاعات بصری برای هوش مصنوعی آسان نیست. برای مثال، رسیدن به هدف تنها با اطلاعات بصری برای هوش مصنوعی بسیار دشوار است. در محیط شبیه‌سازی‌شده، هدف معمولا در دید عامل در مسیر مستقیم وجود ندارد. سناریویی را در نظر بگیرید که اتاق‌های متعددی وجود دارد و سوژه در یکی از همین اتاق‌ها است. بنابراین، با اضافه‌کردن ویژگی‎های صوتی می‌توان به اطلاعات ارزشمندی دست یافت که بتواند به حل چنین مشکلاتی کمک کند.

پژوهشگران هوش مصنوعی از مدلی انعطاف‌پذیر برای انواع داده‌ها (پیکسل‌های صوتی و تصویری) به‌نام Q-network عمیق استفاده کردند. استفاده از این مدل در بازی‌های آتاری موفقیت آمیز بود. آن‌ها عامل را در محیط تحقیقاتی دیجیتال ساخته‌شده‌ی VizDoom در بازی تیراندازی اول شخص Doom با دو ویژگی مختلف زیر و بمی صدا و نمونه‌های خام اولیه صوتی آموزش دادند.

تیم تحقیقاتی توضیح داد اطلاعات محیط (فاصله از هدف) به‌صورت نمونه‌ی زیر و بمی صدا کدگذاری شد. سپس، این نمونه به عامل هوش مصنوعی همراه‌با تصویر ارائه شد. ازآنجاکه فاصله تا هدف به‌صورت کم‌و‌زیادشدن صدا کدگذاری شده بود، این ویژگی به‌راحتی می‌توانست اطلاعات مفیدی به عامل انتقال دهد. هرچه صدا بلندتر می‌شد، به این معنا بود که عامل به هدف نزدیک‌تر شده است. این ویژگی‌ها به‌عنوان بررسی منطقی برای دراختیارگذاشتن اطلاعات مفید ارائه‌شده درباره‌ی فاصله از هدف برای عامل تعیین شدند.

در آزمایشی، سناریو VizDoom سفارشی روی کامپیوتر اجرا ‌‌شد. دانشمندان به عامل هوش مصنوعی تکلیفی برای حرکت در مسیر پیچ‌وخم سه‌بعدی شکل دادند. این حرکت به‌صورت چرخیدن به راست‌وچپ یا جلووعقب یا رفتن به اتاق‌های مختلف بود. در ابتدا، عامل اقدامات کاملا تصادفی انجام می‌داد؛ اما به‌مرورزمان و با دریافت پاداش هنگام رسیدن به هدف (روشی در روان‌شناسی با نام یادگیری تقویت‌کننده) عملکرد عامل بهبود پیدا کرد.

دو نوع متفاوت از آزمایش‌ها بررسی شدند. در مدل اول، عامل به‌صورت تصادفی در یک اتاق قرار می‌گرفت و در مدل دوم، عامل‌ها در یکی از پنج اتاق ظاهر می‌شدند. در مدل اول، اطلاعات تصویری همراه‌با زیر و بمی صدا و داده‌های خام اولیه صوتی کدگذاری شدند. زمانی‌که اطلاعات همراه‌با ویژگی‌های صوتی کدگذاری شده بودند، به‌طورمتوسط عامل‌ها پاداش بهتری در هر آزمون به‌دست آوردند تا اینکه فقط اطلاعات تصویری به‌تنهایی ارائه می‌شدند. در مدل بعدی، ویژگی‌های صوتی‌وتصویری باهم باعث شدند تا عامل موفق شود در بیشتر موارد به هدف برسد.

طبق آزمایش‌ها، دانشمندان به این نتیجه رسیدند زمانی‌که تنها از داده‌های تصویری استفاده می‌کنند، میزان موفقیت در عملکرد عامل هوش مصنوعی ۴۳ درصد است. این در حالی است که وقتی به اطلاعات تصویری اطلاعات خام اولیه‌ی صوتی و زیر و بمی صدا اضافه می‌شود، میزان موفقیت عامل به‌طورمیانگین به‌ترتیب تا ۸۷ و ۸۶ درصد افزایش می‌یاید. به‌طورمتوسط تعداد مراحل موردنیاز برای رسیدن به هدف هنگام استفاده صرف از اطلاعات تصویری ۱,۴۲۰ مرحله است. این تعداد زمانی‌که اطلاعات خام اولیه‌ی صوتی و زیر و بمی صدا اضافه شدند، به‌ترتیب ۷۵۱ و ۶۱۴ مرحله است.

این تیم تحقیقاتی به‌غیر از فعالیت در حوزه بازی‌های ویدئویی، مشغول آزمایش‌ها متفاوت در محیط‌های آزمایشی مختلف است.