شبکه عصبی پیچشی
یادگیری ماشین و دادهکاوی |
---|
![]() |
شبکههای عصبی پیچشی یا همگشتی (به انگلیسی: convolutional neural network) (مخفف انگلیسی: CNN یا ConvNet) ردهای از شبکههای عصبی ژرف هستند که معمولاً برای انجام تحلیلهای تصویری یا گفتاری در یادگیری ماشین استفاده میشوند.
شبکههای عصبی پیچشی به منظور کمینه کردن پیشپردازشها از گونهای از پرسپترونهای چندلایه استفاده میکنند.[۱] به جای شبکه عصبی پیچشی گاهی از این شبکهها با نام شبکههای عصبی تغییرناپذیر با انتقال (shift invariant) یا تغییرناپذیر با فضا (space invariant) هم یاد میشود. این نامگذاری بر مبنای ساختار این شبکه است که در ادامه به آن اشاره خواهیم کرد.[۲][۳]
ساختار شبکههای پیچشی از فرایندهای زیستی قشر بینایی گربه الهام گرفتهشدهاست. این ساختار به گونهای است که تکنورونها تنها در یک ناحیه محدود به تحریک پاسخ میدهند که به آن ناحیه پذیرش گفته میشود.[۴] نواحی پذیرش نورونهای مختلف به صورت جزئی با هم همپوشانی دارند به گونه ای که کل میدان دید را پوشش میدهند.
شبکههای عصبی پیچشی نسبت به بقیه رویکردهای دستهبندی تصاویر به میزان کمتری از پیشپردازش استفاده میکنند. این امر به معنی آن است که شبکه معیارهایی را فرامیگیرد که در رویکردهای قبلی به صورت دستی فراگرفته میشدند. این استقلال از دانش پیشین و دستکاریهای انسانی در شبکههای عصبی پیچشی یک مزیت اساسی است.
تا کنون کاربردهای مختلفی برای شبکههای عصبی از جمله در بینایی کامپیوتر، سیستمهای پیشنهاددهنده و پردازش زبان طبیعی پیشنهاد شدهاند.[۵]
طراحی
یک شبکه عصبی پیچشی از یک لایه ورودی، یک لایه خروجی و تعدادی لایه پنهان تشکیل شدهاست. لایههای پنهان یا پیچشی هستند، یا تجمعی یا کامل.
لایههای پیچشی
لایههای پیچشی یک عمل پیچش را روی ورودی اعمال میکنند، سپس نتیجه را به لایه بعدی میدهند. این پیچش در واقع پاسخ یک تکنورون را به یک تحریک دیداری شبیهسازی میکند.[۶]
هر نورون پیچشی دادهها را تنها برای ناحیه پذیرش خودش پردازش میکند. مشبککردن به شبکههای پیچشی این اجازه را میدهد که انتقال، دوران یا اعوجاج ورودی را تصحیح کنند.
اگرچه شبکههای عصبی پیشخور کاملاً همبند میتوانند برای یادگیری ویژگیها و طبقهبندی داده به کار روند، این معماری در کاربرد برای تصاویر به کار نمیرود. در این حالت حتی برای یک شبکه کمعمق تعداد بسیار زیادی نورون لازم است. عمل پیچش یک راهحل برای این شرایط است که تعداد پارامترهای آزاد را به عمیقتر کردن شبکه کاهش میدهد.[۷]
لایههای پیچشی نسبت به شبکههای عصبی اولیه تفاوتهای زیادی دارند که از آنها میتوان به موارد زیر اشاره کرد:
- تعامل پراکنده (sparse interaction): در این لایه به جای اینکه به ازای هریک از ورودیهای لایه یکوزن تعریف شده باشد و هر ورودی با تمام خروجیهای لایه در ارتباط باشد، یک هسته (Kernel) مشخص میشود که ماتریسی است که ابعاد آن نسبت به ورودی بسیار کوچک است. برای مثال برای پردازش تصویری که میلیونها پیکسل دارد، یک ماتریس هسته با اندازهای در حدود صد تا هزار پیکسل در نظر گرفته میشود که به کمک آن میتوان تمام لبههایی که در تصویر موجود است را مشخص کرد. این به این معناست که اطلاعات کمتری نسبت به ورودی نیاز داریم تا شبکه را آموزش دهیم.[۸]
- اشتراکگذاری پارامترها(Parameter Sharing): در یک شبکه عصبی هر یک از درایههای ماتریس وزن دقیقاً یکبار در محاسبه خروجی لایه استفاده میشود. اما در لایههای پیچشی، هریک از درایههای ماتریس هسته درتمام موقعیتهای ورودی استفاده میشود. درواقع هربار این ماتریس هسته روی ماتریس ورودی میلغزد و تمامی درایههای هسته در آن بخش از ورودی ضرب میشود. اینکار باعث میشود برای تمام لایه تنها نیاز به یادگیری یک ماتریس هسته باشد که در کاهش حجم مورد نیاز کمک میکند.[۹]

لایههای ادغام
لایههای ادغام (pooling layer): شبکههای عصبی پیچشی ممکن است شامل لایههای ادغام محلی یا سراسری باشند که خروجیهای خوشههای نورونی در یک لایه را در یک تکنورون در لایه بعدی ترکیب میکند.[۱۰] به عنوان مثال روش حداکثر تجمع (max pooling) حداکثر مقدار بین خوشههای نورونی در لایه پیشین استفاده میکند.[۱۱] مثال دیگر میانگین تجمع (average pooling) است که از مقدار میانگین خوشههای نورونی در لایه پیشین استفاده میکند.
کاملاً همبند
لایههای کاملاً همبند، هر نورون در یک لایه را به هر نورون در لایه دیگر متصل میکنند. این رویکرد در اصل مشابه کاری است که در شبکه عصبی پرسپترون چند لایه (MLP) انجام میشود.
وزنها
شبکههای عصبی پیچشی وزنها را در لایههای پیچشی به اشتراک میگذارند که باعث میشود حداقل حافظه و بیشترین کارایی بهدست بیاید.
شبکههای عصبی متأخر
برخی شبکههای عصبی متأخر از معماری مشابهی استفاده میکنند، مخصوصاً آنهایی که برای تشخیص تصویر یا طبقهبندی استفاده میشوند.[۱۲]
یادگیری
یادگیری ماشینی با نظارت (supervised learning) به دنبال تابعی از میان یک سری توابع هست که تابع هزینه (loss function) دادهها را بهینه سازد. به عنوان مثال در مسئله رگرسیون تابع هزینه میتواند اختلاف بین پیشبینی و مقدار واقعی خروجی به توان دو باشد، یا در مسئله طبقهبندی ضرر منفی لگاریتم احتمال خروجی باشد. مشکلی که در یادگیری شبکههای عصبی وجود دارد این است که این مسئله بهینهسازی دیگر محدب (convex) نیست.[۱۳] ازین رو با مشکل کمینههای محلی روبرو هستیم. یکی از روشهای متداول حل مسئله بهینهسازی در شبکههای عصبی بازگشت به عقب یا همان back propagation است.[۱۳] روش بازگشت به عقب گرادیانِ تابع هزینه را برای تمام وزنهای شبکه عصبی محاسبه میکند و بعد از روشهای گرادیان کاهشی (gradient descent) برای پیدا کردن مجموعه وزنهای بهینه استفاده میکند.[۱۴] روشهای گرادیان کاهشی سعی میکنند به صورت متناوب در خلاف جهت گرادیان حرکت کنند و با این کار تابع هزینه را به حداقل برسانند.[۱۴] پیدا کردن گرادیانِ لایه آخر ساده است و با استفاده از مشتق جزئی بهدست میآید. گرادیانِ لایههای میانی اما به صورت مستقیم بهدست نمیآید و باید از روشهایی مانند قاعده زنجیری در مشتقگیری استفاده کرد.[۱۴] روش بازگشت به عقب از قاعده زنجیری برای محاسبه گرادیانها استفاده میکند و همانطور که در پایین خواهیم دید، این روش به صورت متناوب گرادیانها را از بالاترین لایه شروع کرده آنها را در لایههای پایینتر «پخش» میکند.
بازگشت به عقب (Backpropagation)، روشی برا محاسبه گرادیانها

برای سلول عصبی ورودیی که از سلول عصبی به این سلول وارد میشود را با نشان میدهیم. وزن این ورودی است و مجموع ضرب ورودیها با وزنهایشان را با نمایش میدهیم، به این معنی که . حال باید بر روی تابعی غیر خطی اعمال کنیم این تابع را مینامیم و خروجی آن را با نمایش میدهیم یعنی . به همین شکل خروجیی که از سلول عصبی خارج شده و به سلول وارد میشود را با نمایش میدهیم و وزن آن را مینامیم. حال تمام وزنهای این شبکه عصبی را در مجموعهای به اسم میگنجانیم، هدف یادگیری این وزنهاست.[۱۵] اگر ورودی ما باشد و خروجی و خروجی شبکه عصبی ما ، هدف پیدا کردن انتخاب است به قسمی که برای تمام دادهها و به هم خیلی نزدیک شوند. به عبارت دیگر هدف کوچک کردن یک تابع هزینه بر روی تمام داده هاست، اگر دادهها را با و تابع هزینه را با نشان دهیم هدف کمینه کردن تابع پایین است:[۱۶]
به عنوان مثال اگر مسئله رگرسیون است برای میتوانیم خطای مربعات را در نظر بگیریم و اگر مسئله دستهبندی است برای میشود منفی لگاریتم بازنمایی را استفاده کرد.
برای بهدست آوردن کمینه باید از روش گرادیان کاهشی استفاده کرد، به این معنی که گرادیان تابع را حساب کرده، کمی در خلاف جهت آن حرکت کرده و این کار را آنقدر ادامه داد تا تابع هزینه خیلی کوچک شود. روش بازگشت به عقب در واقع روشی برای پیدا کردن گرادیان تابع است.
حال فرض کنیم میخواهیم گرادیان تابع را نسبت به وزن بهدست بیاوریم. برای این کار نیاز به قاعده زنجیری در مشتقگیری داریم. قاعده زنجیری به این شکل کار میکند: اگر تابعی داشته باشیم به اسم که وابسته به سه ورودی ، و باشد و هرکدام از این سه ورودی به نوبه خود وابسته به باشند، مشتق به به این شکل محاسبه میشود:
با استفاده از این قاعده زنجیری روش بازگشت به عقب را به این شکل دنبال میکنیم:
همانطور که در خط پیشین دیدیم برای بهدست آوردن گرادیان نسبت به به دو مقدار نیاز داریم ورودی به سلول عصبی از سلول عصبی که همان است و راحت بهدست میآید و که از روش بازگشتی بهدست میآید و بستگی به هایی لایه بعد دارد که سلول به آنها وصل است، بهطور دقیقتر .
روش بازگشتی برای بهدست آوردن ها به این شکل کار میکند که ابتدا را برای سلولهای لایه خروجی حساب میکنیم، و بعد لایهها را به نوبت پایین آئیم و برای هر سلول آن را با ترکیت های لایههای بالایی آن طبق فرمول حساب میکنیم. محاسبه کردن برای لایه خروجی آسان است و مستقیماً با مشتق گرفتن از بهدست میآید.[۱۷]
ابرپارامترها
ابرپارامترها نقش مهمی در عملکرد شبکههای عصبی دارند. با تنظیم این ابرپارامترها با استفاده از داده اعتبار سنجی (validation) میتوان عملکرد مدل را بهبود داد.
تعدادی از ابرپارامترها در شبکههای عصبی پیچشی، مشابه با ابرپارامترهای سایر شبکههای عصبی است. برای مثال میتوان به نرخ یادگیری (learning rate)، تعداد ایپاکها (epoch) اشاره کرد. اما این نوع شبکهها نسبت به سایر شبکهها تعداد ابرپاراکتر بیشتری دارند که به بررسی آنها پرداخته میشود.
- اندازه هسته (kernel size): هر لایه پیچشی یا ادغامی دارای یک هسته است که عمق آن به اندازه تعداد فیلترهای ورودی است. اما اندازه طول و عرض آن قابل تنظیم است و معمولاً اندازهای کوچک مانند یا دارد.
- گام (stride): همانطور که در ابتدا بیان شد، هسته (کرنل) در روی ماتریس ورودی میلغزد و با هربار لغزش، ماتریس کرنل و آن بخش از ورودی که منطبق بر کرنل است در یکدیگر ضرب میشوند. لغزیدن ماتریس هسته بر روی ورودی میتواند با گامهای مختلف انجام شود.

- حاشیهگذاری (padding): حاشیه گذاری به معنای اضافه کردن پیکسلهایی (معمولا با مقدار صفر) به حاشیه تصویر است. اینکار به دلایل متفاوتی انجام میشود. یکی از دلایل، آن است که با تغییر مقدار گام (stride) از ۱ به اعداد دیگر، ممکن است با لغزاندن ماتریس هسته روی ورودی، مقداری از این ماتریس خارج از ورودی بیفتد که منجر به بروز خطا در مدل میشود. در نتیجه با اضافه کردن حاشیه به تصویر از این مورد جلوگیری میشود. یکی دیگر از دلایل اضافه کردن حاشیه به تصویر، برابر کردن اهمیت پیکسلها در ورودی است. درصورتی که حاشیه گذاری وجود نداشته باشد، پیکسلهایی که در گوشه تصویر هستند، تنها در یکی از عملیاتهای ضرب پیچشی قرار یگیرند و در نتیجه اهمیت آنها در خروجی کمرنگتر است. با اضافه کردن حاشیه مناسب، تعداد بارهایی که هر پیکسل در عملیات ضرب پیچشی میآید برابر با تمام پیکسلهای دیگر است.
- تعداد فیلترها: همانطور که پیشتر نیز ذکر شد، عمق هر ماتریس هسته به اندازه عمق ورودی است و از ضرب پیچشی هر ماتریس هسته در ورودی، یک ماتریس با عمق یک به وجود میآید. برای آنکه بتوان تعداد بیشتری ویژگی را از ورودی استخراج کرد، ورودی را با چند ماتریس هسته متفاوت با مقادیر مختلف ضرب پیچشی میکنند و در نتیجه عمق خروجی نیز به اندازه تعداد هستههایی است که ورودی را در آن ضرب میکنند. در نتیجه تعداد فیلترها همان عمق خروجی را مشخص میکند.
محاسبه اندازه خروجی لایه پیچشی
درصورتی که اندازه ورودی باشد و تعداد فیلترها باشد و اندازه ماتریس هسته باشد، و همچنین از هر طرف تصویر مقدار حاشیهگذاری باشد و مقدار گام در نظر گرفته شود اندازه تصویر خروجی از رابطه زیر به دست میآید:
تاریخچه
شبکههای عصبی پیچشی مشابه سیستم پردازش دیداری در موجودات زنده عمل میکنند. از قرن نوزدهم بهطور همزمان اما جداگانه از سویی نوروفیزیولوژیستها سعی کردند سیستم یادگیری و تجزیه و تحلیل مغز را کشف کنند، و از سوی دیگر ریاضیدانان تلاش کردند مدل ریاضی ای بسازند که قابلیت فراگیری و تجزیه و تحلیل عمومی مسائل را دارا باشد. اولین کوششها در شبیهسازی با استفاده از یک مدل منطقی در اوایل دههٔ ۱۹۴۰ توسط وارن مککالک و والتر پیتز انجام شد که امروزه بلوک اصلی سازنده اکثر شبکههای عصبی مصنوعی است. عملکرد این مدل مبتنی بر جمع ورودیها و ایجاد خروجی با استفاده از شبکهای از نورونها است. اگر حاصل جمع ورودیها از مقدار آستانه بیشتر باشد، اصطلاحاً نورون برانگیخته میشود. نتیجه این مدل اجرای ترکیبی از توابع منطقی بود.[۱۸]
در سال ۱۹۴۹ دونالد هب قانون یادگیری را برای شبکههای عصبی طراحی کرد.[۱۹] در سال ۱۹۵۸ شبکه پرسپترون توسط روزنبلات معرفی گردید. این شبکه نظیر واحدهای مدل شده قبلی بود. پرسپترون دارای سه لایه است که شامل لایهٔ ورودی، لایهٔ خروجی و لایهٔ میانی میشود. این سیستم میتواند یاد بگیرد که با روشی تکرارشونده وزنها را به گونهای تنظیم کند که شبکه توان بازتولید جفتهای ورودی و خروجی را داشتهباشد.[۲۰] روش دیگر، مدل خطی تطبیقی نورون است که در سال ۱۹۶۰ توسط برنارد ویدرو و مارسیان هاف در دانشگاه استنفورد) به وجود آمد که اولین شبکههای عصبی به کار گرفته شده در مسائل واقعی بودند. آدالاین یک دستگاه الکترونیکی بود که از اجزای سادهای تشکیل شده بود، روشی که برای آموزش استفاده میشد با پرسپترون فرق داشت.
در سال ۱۹۶۹ میسکی و پاپرت کتابی نوشتند که محدودیتهای سیستمهای تک لایه و چند لایه پرسپترون را تشریح کردند. نتیجه این کتاب پیش داوری و قطع سرمایهگذاری برای تحقیقات در زمینه شبیهسازی شبکههای عصبی بود. آنها با طرح اینکه طرح پرسپترون قادر به حل هیچ مسئله جالبی نمیباشد، تحقیقات در این زمینه را برای مدت چندین سال متوقف کردند.
با وجود اینکه اشتیاق عمومی و سرمایهگذاریهای موجود به حداقل خود رسیده بود، برخی محققان تحقیقات خود را برای ساخت ماشینهایی که توانایی حل مسائلی از قبیل تشخیص الگو را داشته باشند، ادامه دادند. از جمله گراسبگ که شبکهای تحت عنوان Avalanch را برای تشخیص صحبت پیوسته و کنترل دست ربات مطرح کرد. همچنین او با همکاری کارپنتر شبکههای نظریه تشدید انطباقی را بنا نهادند که با مدلهای طبیعی تفاوت داشت. اندرسون و کوهونن نیز از اشخاصی بودند که تکنیکهایی برای یادگیری ایجاد کردند. ورباس در سال ۱۹۷۴ شیوه آموزش پس انتشار خطا را ایجاد کرد که یک شبکه پرسپترون چندلایه البته با قوانین نیرومندتر آموزشی بود.
پیشرفتهایی که در سال ۱۹۷۰ تا ۱۹۸۰ بهدست آمد برای جلب توجه به شبکههای عصبی بسیار مهم بود. برخی فاکتورها نیز در تشدید این مسئله دخالت داشتند، از جمله کتابها و کنفرانسهای وسیعی که برای مردم در رشتههای متنوع ارائه شد. امروز نیز تحولات زیادی در تکنولوژی ANN ایجاد شدهاست.
منابع بیشتر
جستارهای وابسته
منابع
- ↑ LeCun, Yann. "LeNet-5, convolutional neural networks". Retrieved 16 November 2013.
- ↑ Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of annual conference of the Japan Society of Applied Physics.
- ↑ Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32).
- ↑ Matusugu, Masakazu; Katsuhiko Mori; Yusuke Mitari; Yuji Kaneda (2003). "Subject independent facial expression recognition with robust face detection using a convolutional neural network" (PDF). Neural Networks. 16 (5): 555–559. doi:10.1016/S0893-6080(03)00115-1. Retrieved 17 November 2013.
- ↑ Collobert, Ronan; Weston, Jason (2008-01-01). "A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning". Proceedings of the 25th International Conference on Machine Learning. ICML '08. New York, NY, USA: ACM: 160–167. doi:10.1145/1390156.1390177. ISBN 978-1-60558-205-4.
- ↑ "Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation". DeepLearning 0.1. LISA Lab. Archived from the original on 28 December 2017. Retrieved 31 August 2013.
- ↑ Habibi,, Aghdam, Hamed. Guide to convolutional neural networks: a practical application to traffic-sign detection and classification. Heravi, Elnaz Jahani,. Cham, Switzerland. ISBN 978-3-319-57549-0. OCLC 987790957.
{cite book}
: نگهداری CS1: نقطهگذاری اضافه (link) - ↑ Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning.
- ↑ Li et. Al., A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects.
- ↑ Krizhevsky, Alex. "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). Archived from the original (PDF) on 12 May 2013. Retrieved 17 November 2013.
- ↑ Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York, NY: Institute of Electrical and Electronics Engineers (IEEE): 3642–3649. arXiv:1202.2745v1. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. Retrieved 2013-12-09.
- ↑ Le Callet, Patrick; Christian Viard-Gaudin; Dominique Barba (2006). "A Convolutional Neural Network Approach for Objective Video Quality Assessment" (PDF). IEEE Transactions on Neural Networks. 17 (5): 1316–1327. doi:10.1109/TNN.2006.879766. PMID 17001990. Archived from the original (PDF) on 23 February 2014. Retrieved 17 November 2013.
- ↑ ۱۳٫۰ ۱۳٫۱ Ian Goodfellow and Yoshua Bengio and Aaron Courville (۲۰۱۶). Deep learning. MIT Press. صص. ۲۰۰.
- ↑ ۱۴٫۰ ۱۴٫۱ ۱۴٫۲ Heaton, Jeff (2017-10-29). "Ian Goodfellow, Yoshua Bengio, and Aaron Courville: Deep learning". Genetic Programming and Evolvable Machines. 19 (1–2): 305–307. doi:10.1007/s10710-017-9314-z. ISSN 1389-2576.
- ↑ «Build with AI | DeepAI». DeepAI. بایگانیشده از اصلی در ۱۷ اکتبر ۲۰۱۸. دریافتشده در ۲۰۱۸-۱۰-۲۴.
- ↑ A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 October 2018. Retrieved 20 December 2018.
{cite journal}
: Cite journal requires|journal=
(help) - ↑ Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam, Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. p. 578.
- ↑ فاست، مبانی شبکههای عصبی، ۳۰–۳۱.
- ↑ فاست، مبانی شبکههای عصبی، ۳۱.
- ↑ فاست، مبانی شبکههای عصبی، ۳۰–۳۱.