تعدادی از پژوهشگران در تلاش برای یافتن راهکارهایی هستند که با کمک آنها بتوانند روند تکامل طبیعی تدریجی بشر و سایر گونههای جانوری در محیطهای طبیعی را در موجودات ایجاد شده بر پایه هوش مصنوعی شبیهسازی کنند؛ اما در این مسیر چالشهای بزرگ و پیچیدهای پیش روی خود دارند.
صدها میلیون سال تکامل در زمین باعث ایجاد تنوع بسیار گستردهای از گونههای جانوری مختلف شده است. هر یک از گونههای جانوری سیاره خاکی ما دارای استعدادها و مهارتهای ذاتی، توانایی یادگیری و کسب مهارتهای جدید و همچنین ویژگیهای فیزیکی خاص هستند. جانوران مختلف از تمام این خصیصههای ذاتی و اکتسابی برای حفظ بقای خود بهره میبرند. طبیعتأ انسان هم از این قاعده جدا نیست.
اما در فرایند ساخت موجودات شکلگرفته بر پایه هوش مصنوعی علیرغم اینکه این موجودات با الهام از طبیعت و تکامل طبیعی ساخته میشوند، ابتدا عناصر مختلف مرتبط با هوش و استعداد بهصورت جداگانه ایجاد میشوند و پس از اینکه تمام این عناصر کاملاً توسعه داده شدند، با یکدیگر ترکیب میشوند. اگرچه چنین رویکردی همواره نتیجه بسیار خوبی داشته است؛ اما همیشه میزان انعطافپذیری موجودات ایجاد شده بر پایه هوش مصنوعی را در برخی از سادهترین مهارتها که حتی موجوداتی با سادهترین ساختار بدنی نیز بهخوبی میتوانند آنها انجام دهند، محدود میکند.
پژوهشگران حوزه هوش مصنوعی دانشگاه استنفورد بهتازگی با انتشار مقاله جدیدی در نشریه علمی نیچر (Nature)، تکنیک جدیدی ارائه دادهاند که میتواند به ایجاد گامی رو به جلو برای غلبه بر این موانع کمک کند. پژوهشگران این دانشگاه مدعی هستند در این مقاله که با عنوان یادگیری تقویتی تکاملی عمیق (Deep Evolutionary Reinforcement Learning) منتشر شده، تکنیکهای جدیدی ارائه شدهاند که بر اساس آنها ابتدا محیط مجازی پیچیدهای ایجاد میشود و سپس استعدادها و تواناییهای جسمی موجودات ایجاد شده بر پایه هوش مصنوعی تقویت میشود و تکامل پیدا میکند. نتایج این پژوهش میتواند در آینده در حوزه پژوهشهای مرتبط با هوش مصنوعی و علم رباتیک کاربردهای مهمی داشته باشد.
دشواری شبیهسازی روند تکامل طبیعی
در طبیعت مغز و بدن همزمان با یکدیگر تکامل پیدا میکنند. اندام حرکتی هر یک از انواع گونههای حیوانات در طی چرخههای بیشمار تکامل و با گذشت چندین نسل، بهتدریج رشد و تکامل یافتهاند و سیستم عصبی آنها تمام تواناییهایی که گونههای مختلف برای حفظ و ادامه بقای خود در محیط زندگیشان به آنها نیاز دارند، مدیریت و پشتیبانی میکند؛ بهعنوانمثال حشرات دارای سیستم بینایی حرارتی برای تشخیص میزان حرارت بدن سایر موجودات هستند.
خفاشها نیز علاوه بر اینکه دارای بالهای خاصی هستند، سیستم پژواکسازی طبیعی نیز دارند که به آنها در مسیریابی در محیطهای تاریک کمک میکند. لاکپشتهای دریایی هم پاهای پرهداری دارند که باعث میشود بتوانند بهراحتی شنا کنند و سیستم تشخیص میدان مغناطیسی این حیوانات نیز به مسیریابی آنها در مسیرهای طولانی کمک میکند.
انسان نیز تواناییهای خارقالعادهای دارد؛ او برخلاف بسیاری از موجودات میتواند بایستد و به لطف این ویژگی ذاتی میتواند از دستانش آزادانه استفاده کنند و فواصل دور را بهراحتی ببیند. در ضمن انگشتان دست انسان ظریف و سریع هستند و بشر با استفاده از آنها میتواند اجسام منعطف را بهراحتی تغییر دهد؛ از همه مهمتر انسان مغز پیچیده و کاملاً منحصربهفردی نسبت به مغز سایر موجودات دارد که باعث شده به اجتماعیترین موجود سیاره زمین تبدیل شود و بتواند تقریباً برای تمام مشکلات راهحلهای مؤثری پیدا کند.
جالب است بدانید که تمام گونههای جانوری که امروزه شاهد آنها هستیم، شکل تکاملیافته نخستین شکل حیات هستند که میلیاردها سال پیش ایجاد شده است. فشار محیطی در محیطهای مختلف باعث شده نخستین گونههای حیات برای کسب تواناییهای لازم برای حفظ بقای خود در محیط زندگیشان، بهتدریج به اشکال مختلفی تکامل پیدا کنند. در یک جمله باید بگوییم سرمنشأ تمام گونههای جانوری، نخستین شکل حیات ایجاد شده در سیاره زمین است.
مطالعه و پژوهش در مورد تکامل استعداد و حیات میتواند بسیار جالب و جذاب باشد؛ اما مسلماً شبیهسازی چنین فرایندی بسیار دشوار است. چنانچه پژوهشگران حوزه هوش مصنوعی بخواهند زندگی هوشمندانه گونههای مختلف از جمله انسان را درست به همان روشی که در طبیعت تکامل یافته است، شبیهسازی کنند، باید تمام اشکال ممکن علم مورفولوژی را بررسی کنند که امر بسیار پیچیدهای است و از لحاظ محاسباتی پروژه بسیار پرهزینهای محسوب میشود؛ زیرا چنین کاری نیازمند انجام چرخههای آزمون و خطای موازی و متوالی بسیار زیادی است.
پژوهشگران حوزه هوش مصنوعی برای غلبه کردن بر چنین مشکلاتی روشهای میانبر و ویژگیهای ازپیشطراحیشدهای را مشخص کردهاند؛ بهعنوان مثال آنها ابتدا برای یک سیستم هوش مصنوعی یا رباتیک، طراحی معماری یا فیزیکی ثابتی ایجاد و سپس روی بهینهسازی پارامترهای قابلآموزش تمرکز میکنند. بهرهمندی از مکتب تکامل لامارکیسم بهجای نظریه تکامل داروینی، یکی دیگر از روشهای میانبر مورد استفاده توسط این پژوهشگران است. چنین رویکردی باعث میشود موجودات ایجاد شده بر پایه هوش مصنوعی بتوانند آن دسته از تواناییهایی را که فراگرفتهاند، به مخلوقات بشری پس از خود نیز انتقال دهند.
یکی دیگر از رویکردهای بهکارگرفتهشده توسط پژوهشگران حوزه هوش مصنوعی، آموزش جداگانه سیستمهای زیرمجموعه هوش مصنوعی است که شامل سیستم بینایی، حرکتی، زبانی و سایر موارد میشود. پژوهشگرانی که از این رویکرد استفاده کنند در مرحله بعدی سیستمهایی را که آموزش اطلاعات به آنها تکمیل شده است، در سیستم نهایی هوش مصنوعی یا رباتیک در کنار یکدیگر قرار میدهند؛ البته با وجود اینکه تمام این رویکردها باعث تسریع فرایند و کاهش هزینه ساخت موجودات مبتنی بر هوش مصنوعی با قابلیت تکامل تدریجی میشوند، اما از سوی دیگر محدود شدن انعطافپذیری و تنوع نتایج بهدستآمده را نیز به دنبال دارند.
یادگیری تقویتی تکاملی عمیق
پژوهشگران دانشگاه استنفورد قصد دارند در فعالیت پژوهشی جدید، تحقیقات مرتبط با هوش مصنوعی را یک گام به فرایند تکامل واقعی نزدیکتر کنند و در عین حال هزینهها را نیز تا جای ممکن پایین نگه دارند. آنها در مقاله خود در مورد این هدفشان اینچنین نوشتهاند:
«هدف ما شفافسازی برخی اصول حاکم بر روابط بین پیچیدگی محیطی، مورفولوژی تکاملیافته و قابلآموزش بودن کنترل هوش است.»
چهارچوب فعالیتی آنها یادگیری تقویتی تکاملی عمیق (DERL) نام دارد. مخلوقات بشری که در چهارچوب DERL بر پایه هوش مصنوعی ایجاد شدهاند، جهت کسب مهارتهای موردنیاز برای به حداکثر رساندن اهدافشان در زندگیشان، از رویکرد یادگیری تقویتی عمیق استفاده میکنند. در حقیقت پژوهشگرانی که بر اساس چهارچوب DERL فعالیت میکنند، از مکتب تکامل داروینی برای یافتن راهحلهای بهینه در شاخههای مختلف مورفولوژی بهره میگیرند.
این موضوع به معنای این است که زمانی که نسلهای بعدی موجودات شکلگرفته بر پایه هوش مصنوعی به وجود میآیند، خصیصههای معماری و فیزیکی آموزشدادهشده به نسلهای قبلیشان بهصورت ذاتی با کمی تغییر و جهش به آنها منتقل میشود و نسلهای جدید نیازی به فراگیری آنها ندارند؛ بنابراین میتوان گفت پارامترهای آموزشدادهشده به یک نسل از موجودات ایجاد شده بر پایه هوش مصنوعی، به نسل بعدی آنها نیز آموزش داده نمیشود و این پارامترها به ویژگیهای ذاتی نسلهای جدید تبدیل میشوند.
پژوهشگران دانشگاه استنفورد در مقاله خود در مورد این موضوع اینچنین نوشتهاند:
«DERL میتواند زمینه انجام آزمایشهای درونکامپیوتری (آزمایشهای مرتبط با شبیهسازی سامانههای زیستی در کامپیوتر) در مقیاس گسترده را فراهم کند. این آزمایشها میتوانند باعث دستیابی پژوهشگران به نگرشهایی شوند که با کمک آنها میتوانند بفهمند چگونه آموزش و تکامل در کنار یکدیگر روابط پیچیده بین مفاهیم پیچیدگی محیط، هوش مورفولوژیکی و قابلآموزش بودن مهارتهای کنترلکننده را ایجاد میکنند.»
شبیهسازی روند تکامل طبیعی
پژوهشگران دانشگاه استنفورد در چهارچوب خود از MuJoCo استفاده میکنند که در حقیقت محیطی مجازی با قابلیت ارائه شبیهسازی فیزیکی بسیار دقیق بدون احتمال تغییر شکل است. فضای طراحی مورد استفاده توسط این پژوهشگران UNIversal aniMAL (UNIMAL) نام دارد که هدف از استفاده از آن ایجاد اشکال مختلف مورفولوژی برای آموزش مهارتهای حرکتی و مهارتهای مربوط به تغییر و دستکاری اشیا در محیطهای مختلف است.
هر یک از موجودات ایجاد شده بر پایه هوش مصنوعی که در چنین محیطی حضور دارند، دارای ژنوتیپ (یک سری از اطلاعات ژنتیکی) هستند که ساختار اندام حرکتی و مفاصل آنها را تعریف میکند. ژنوتیپ هر یک از این موجودات به شکل ویژگیهای ذاتی مستقیماً به نسل بعدی آنها منتقل میشود. ممکن است در فرایند انتقال ژنوتیپ به نسل بعدی، جهشها و تغییراتی نیز در آن ایجاد شود که تغییرات عمدهای مثل ایجاد اندام حرکت جدید، حذف برخی اندامهای حرکتی موجود یا ایجاد تغییرات کوچک در خصیصههای جسمی مثل تغییر میزان آزادی این موجودات در فعالیتهای حرکتی و تغییر اندازه اندامهای حرکتی آنها را به دنبال دارد.
پژوهشگران برای بررسی و آزمایش نتایج سیستمی که ایجاد کردهاند، موجودات ایجاد شده بر پایه هوش مصنوعی را در سه محیط مختلف آزمایش میکنند که شامل محیط مسطح یا Flat (FT)، محیط متغیر یا Variable (VT) و محیط دارای اشیای قابلتغییر یا Modifiable Objects (MVT) میشود.
اولین محیط کمترین فشار را به موجودات وارد میکند و آنها در این محیط مجبور به ایجاد تغییر در ساختار فیزیکی خود نمیشود؛ اما در محیط دوم وضعیت کاملاً فرق میکند و آنها مجبورند برای انجام کارهایی مثل بالا رفتن از شیب یا حرکت در اطراف موانع، ساختار فیزیکی خود را تغییر دهند تا بتوانند تواناییهای حرکتی بیشتری را به دست آورند. در محیط سوم آنها باید علاوه بر اینکه ساختار فیزیکی خود را برای پشت سر گذاشتن موانع تقویت کنند، تغییراتی نیز در اجسام موجود در محیط ایجاد کنند تا به هدف خود برسند.
مزایای یادگیری تقویتی تکاملی عمیق
یکی از جالبترین یافتههای DERL، تنوع آن است. تمام رویکردهای مورد استفاده دیگر برای ایجاد هوش مصنوعی تکاملپذیر به یک راهحل ختم میشوند؛ زیرا نسل جدید موجودات ایجاد شده بر پایه هوش مصنوعی بهصورت مستقیم ویژگیهای جسمی و مهارتهای فراگرفتهشده توسط نسل قبلی را به ارث میبرند؛ اما در DERL تنها دادههای مورفولوژیکی به نسلهای بعدی منتقل میشود و نتیجه نهایی سیستم شکلگیری مجموعهای از مورفولوژیهای موفق تبدیل است که شامل دوپایان، سهپایان و چهارپایان با دست و بدون دست میشود.
در ضمن همزمان نشانههایی از اثر بالدوین (Baldwin effect) نیز در سیستم مشاهده میشود. اثر بالدوین در حقیقت یک نظریه تکامل است که به این موضوع اشاره میکند که احتمالاً موجوداتی که سریعتر یاد میگیرند، برای تولیدمثل و انتقال ویژگیهای خود بهصورت ذاتی به نسل بعدی خود هم سریعتر عمل میکنند.
بر اساس مقاله استنفورد، DERL نشان میدهد که تنها موجوداتی برای تکامل و بهتر شدن انتخاب میشوند که این تواناییها را بدون اعمال فشار مستقیم از سوی محیط روی آنها برای یادگیری تواناییهای مختلف، فرا میکیرند.
پژوهشگران این دانشگاه در مقاله خود در رابطه با این موضوع اینچنین نوشتهاند:
«جالب است بدانید که اثر بالدوین میتواند در آینده برای ایجاد موجودات جدید با پیچیدگی کمتر در زمینه انتخاب نمونههای مناسب و همچنین ایجاد نسلهای جدید با ظرفیت بالاتر مورد بهرهبرداری قرار گیرد.»
درنهایت چهارچوب DERL نظریه مرتبط با هوشمندترشدن موجودات آموزشدیده در محیط پیچیدهتر را نیز مورد بررسی و آزمایش قرار میدهد. پژوهشگران استنفورد موجودات تکاملیافته را در هشت مهارت مختلف آزمایش کردهاند که شامل فرار کردن، گشت زنی، تغییر دادن اجسام و اکتشاف میشود. یافتهها نشان میدهد که در حالت کلی موجودات ایجاد شده بر پایه هوش مصنوعی آموزشدیدهشده در محیطهای سهگانه معرفیشده در این مقاله در مقایسه با موجوداتی که تنها در محیط مسطح آموزش داده شدهاند، دارای توانایی یادگیری سریعتر و عملکرد بهتری هستند.
به نظر میرسد این یافتهها با فرضیههای مطرحشده از سوی دانشمندان دیپ مایند (DeepMind) مشابه باشد. دانشمندان این شرکت فعال در حوزه هوش مصنوعی معتقدند که محیط پیچیده، سیستم پاداشدهی مناسب و یادگیری تقویتی درنهایت میتواند به پیدایش تمام رفتارهای انسان قابلاجرا در پلتفرم هوش مصنوعی منجر شود.
مزایای استفاده از یادگیری تقویتی تکاملی عمیق
محیط ایجاد شده بر اساس چهارچوب DERL تنها بخش بسیار کوچکی از پیچیدگیهای محیط واقعی را دارد.
پژوهشگران دانشگاه استنفورد در مقاله خود در رابطه با این موضوع اینچنین نوشتهاند:
«اگرچه تاکنون با تکیه بر DERL توانستهایم در راستای افزایش پیچیدگی محیط مورد استفاده برای افزایش تکاملپذیری در موجودات ایجاد شده بر پایه هوش مصنوعی، گام بزرگی برداریم؛ اما در آینده باید محیطی با فضای بازتر طراحی کنیم که ازنظر فیزیکی به دنیای واقعی شباهت بیشتری داشته باشد و آزمایش چند موجود بهصورت همزمان نیز در آن امکانپذیر باشد. طراحی محیطی با این ویژگیها اهمیت بسیار زیادی دارد.»
این پژوهشگران قصد دارند در آینده از پارامترهای ارزیابی بیشتری استفاده کنند تا ببینند موجودات هوش مصنوعی چگونه میتوانند تواناییهای خود را در زمینه یادگیری رفتارهای مرتبط انسانی در زمینههای مختلف تقویت کنند.
پژوهش انجامشده توسط دانشمندان استنفورد میتوانند کاربردهای مهمی در آینده حوزه هوش مصنوعی و رباتیک داشته باشد و به محققان کمک کنند برای افزایش تکاملپذیری در موجودات هوش مصنوعی به روشهایی دست یابند که به روند تکامل طبیعی موجودات شباهت بیشتری داشته باشند.
پژوهشگران دانشگاه استنفورد در مقاله خود در رابطه با این موضوع اینچنین نوشتهاند:
«امیدواریم کاری که شروع کردهایم، به مشوقی برای افزایش پژوهشها و اکتشافات در حوزه رشد توانایی یادگیری و تکاملپذیری در موجودات ایجاد شده بر پایه هوش مصنوعی تبدیل شود و این پژوهشها باعث شکلگیری نگرشهای بیشتر در رابطه با ایجاد قابلیت یادگیری سریع رفتارهای انسانی توسط هوش مصنوعی شوند و به افزایش پیشرفت در زمینه ایجاد رفتارهای انسانی در موجودات ایجاد شده بر پایه هوش مصنوعی، نیز کمک کنند.»