شبکه عصبی پیچشی

شبکه‌های عصبی پیچشی یا همگشتی (به انگلیسی: convolutional neural network) (مخفف انگلیسی: CNN یا ConvNet) رده‌ای از شبکه‌های عصبی ژرف هستند که معمولاً برای انجام تحلیل‌های تصویری یا گفتاری در یادگیری ماشین استفاده می‌شوند.

شبکه‌های عصبی پیچشی به منظور کمینه کردن پیش‌پردازش‌ها از گونه‌ای از پرسپترونهای چندلایه استفاده می‌کنند.^[۱] به جای شبکه عصبی پیچشی گاهی از این شبکه‌ها با نام شبکه‌های عصبی تغییرناپذیر با انتقال (shift invariant) یا تغییرناپذیر با فضا (space invariant) هم یاد می‌شود. این نام‌گذاری بر مبنای ساختار این شبکه است که در ادامه به آن اشاره خواهیم کرد.^[۲]^[۳]

ساختار شبکه‌های پیچشی از فرایندهای زیستی قشر بینایی گربه الهام گرفته‌شده‌است. این ساختار به گونه‌ای است که تک‌نورون‌ها تنها در یک ناحیه محدود به تحریک پاسخ می‌دهند که به آن ناحیه پذیرش گفته می‌شود.^[۴] نواحی پذیرش نورون‌های مختلف به صورت جزئی با هم همپوشانی دارند به گونه ای که کل میدان دید را پوشش می‌دهند.

شبکه‌های عصبی پیچشی نسبت به بقیه رویکردهای دسته‌بندی تصاویر به میزان کمتری از پیش‌پردازش استفاده می‌کنند. این امر به معنی آن است که شبکه معیارهایی را فرامی‌گیرد که در رویکردهای قبلی به صورت دستی فراگرفته می‌شدند. این استقلال از دانش پیشین و دستکاری‌های انسانی در شبکه‌های عصبی پیچشی یک مزیت اساسی است.

تا کنون کاربردهای مختلفی برای شبکه‌های عصبی از جمله در بینایی کامپیوتر، سیستم‌های پیشنهاددهنده و پردازش زبان طبیعی پیشنهاد شده‌اند.^[۵]

طراحی

یک شبکه عصبی پیچشی از یک لایه ورودی، یک لایه خروجی و تعدادی لایه پنهان تشکیل شده‌است. لایه‌های پنهان یا پیچشی هستند، یا تجمعی یا کامل.

لایه‌های پیچشی

لایه‌های پیچشی یک عمل پیچش را روی ورودی اعمال می‌کنند، سپس نتیجه را به لایه بعدی می‌دهند. این پیچش در واقع پاسخ یک تک‌نورون را به یک تحریک دیداری شبیه‌سازی می‌کند.^[۶]

هر نورون پیچشی داده‌ها را تنها برای ناحیه پذیرش خودش پردازش می‌کند. مشبک‌کردن به شبکه‌های پیچشی این اجازه را می‌دهد که انتقال، دوران یا اعوجاج ورودی را تصحیح کنند.

اگرچه شبکه‌های عصبی پیش‌خور کاملاً همبند می‌توانند برای یادگیری ویژگی‌ها و طبقه‌بندی داده به کار روند، این معماری در کاربرد برای تصاویر به کار نمی‌رود. در این حالت حتی برای یک شبکه کم‌عمق تعداد بسیار زیادی نورون لازم است. عمل پیچش یک راه‌حل برای این شرایط است که تعداد پارامترهای آزاد را به عمیق‌تر کردن شبکه کاهش می‌دهد.^[۷]

لایه‌های پیچشی نسبت به شبکه‌های عصبی اولیه تفاوت‌های زیادی دارند که از آن‌ها می‌توان به موارد زیر اشاره کرد:

تعامل پراکنده (sparse interaction): در این لایه به جای اینکه به ازای هریک از ورودی‌های لایه یک‌وزن تعریف شده باشد و هر ورودی با تمام خروجی‌های لایه در ارتباط باشد، یک هسته (Kernel) مشخص می‌شود که ماتریسی است که ابعاد آن نسبت به ورودی بسیار کوچک است. برای مثال برای پردازش تصویری که میلیون‌ها پیکسل دارد، یک ماتریس هسته با اندازه‌ای در حدود صد تا هزار پیکسل در نظر گرفته می‌شود که به کمک آن می‌توان تمام لبه‌هایی که در تصویر موجود است را مشخص کرد. این به این معناست که اطلاعات کمتری نسبت به ورودی نیاز داریم تا شبکه را آموزش دهیم.^[۸]
اشتراک‌گذاری پارامترها(Parameter Sharing): در یک شبکه عصبی هر یک از درایه‌های ماتریس وزن دقیقاً یکبار در محاسبه خروجی لایه استفاده می‌شود. اما در لایه‌های پیچشی، هریک از درایه‌های ماتریس هسته درتمام موقعیت‌های ورودی استفاده می‌شود. درواقع هربار این ماتریس هسته روی ماتریس ورودی می‌لغزد و تمامی درایه‌های هسته در آن بخش از ورودی ضرب می‌شود. اینکار باعث می‌شود برای تمام لایه تنها نیاز به یادگیری یک ماتریس هسته باشد که در کاهش حجم مورد نیاز کمک می‌کند.^[۹]

نحوه لغزیدن ماتریس هسته روی ورودی و به دست آوردن ماتریس خروجی

لایه‌های ادغام

لایه‌های ادغام (pooling layer): شبکه‌های عصبی پیچشی ممکن است شامل لایه‌های ادغام محلی یا سراسری باشند که خروجی‌های خوشه‌های نورونی در یک لایه را در یک تک‌نورون در لایه بعدی ترکیب می‌کند.^[۱۰] به عنوان مثال روش حداکثر تجمع (max pooling) حداکثر مقدار بین خوشه‌های نورونی در لایه پیشین استفاده می‌کند.^[۱۱] مثال دیگر میانگین تجمع (average pooling) است که از مقدار میانگین خوشه‌های نورونی در لایه پیشین استفاده می‌کند.

کاملاً همبند

لایه‌های کاملاً همبند، هر نورون در یک لایه را به هر نورون در لایه دیگر متصل می‌کنند. این رویکرد در اصل مشابه کاری است که در شبکه عصبی پرسپترون چند لایه (MLP) انجام می‌شود.

وزن‌ها

شبکه‌های عصبی پیچشی وزن‌ها را در لایه‌های پیچشی به اشتراک می‌گذارند که باعث می‌شود حداقل حافظه و بیشترین کارایی به‌دست بیاید.

شبکه‌های عصبی متأخر

برخی شبکه‌های عصبی متأخر از معماری مشابهی استفاده می‌کنند، مخصوصاً آن‌هایی که برای تشخیص تصویر یا طبقه‌بندی استفاده می‌شوند.^[۱۲]

یادگیری

یادگیری ماشینی با نظارت (supervised learning) به دنبال تابعی از میان یک سری توابع هست که تابع هزینه (loss function) داده‌ها را بهینه سازد. به عنوان مثال در مسئله رگرسیون تابع هزینه می‌تواند اختلاف بین پیش‌بینی و مقدار واقعی خروجی به توان دو باشد، یا در مسئله طبقه‌بندی ضرر منفی لگاریتم احتمال خروجی باشد. مشکلی که در یادگیری شبکه‌های عصبی وجود دارد این است که این مسئله بهینه‌سازی دیگر محدب (convex) نیست.^[۱۳] ازین رو با مشکل کمینه‌های محلی روبرو هستیم. یکی از روش‌های متداول حل مسئله بهینه‌سازی در شبکه‌های عصبی بازگشت به عقب یا همان back propagation است.^[۱۳] روش بازگشت به عقب گرادیانِ تابع هزینه را برای تمام وزن‌های شبکه عصبی محاسبه می‌کند و بعد از روش‌های گرادیان کاهشی (gradient descent) برای پیدا کردن مجموعه وزن‌های بهینه استفاده می‌کند.^[۱۴] روش‌های گرادیان کاهشی سعی می‌کنند به صورت متناوب در خلاف جهت گرادیان حرکت کنند و با این کار تابع هزینه را به حداقل برسانند.^[۱۴] پیدا کردن گرادیانِ لایه آخر ساده است و با استفاده از مشتق جزئی به‌دست می‌آید. گرادیانِ لایه‌های میانی اما به صورت مستقیم به‌دست نمی‌آید و باید از روش‌هایی مانند قاعده زنجیری در مشتق‌گیری استفاده کرد.^[۱۴] روش بازگشت به عقب از قاعده زنجیری برای محاسبه گرادیان‌ها استفاده می‌کند و همان‌طور که در پایین خواهیم دید، این روش به صورت متناوب گرادیان‌ها را از بالاترین لایه شروع کرده آن‌ها را در لایه‌های پایینتر «پخش» می‌کند.

بازگشت به عقب (Backpropagation)، روشی برا محاسبه گرادیانها

برای سلول عصبی $c$ ورودیی که از سلول عصبی $p$ به این سلول وارد می‌شود را با $b_{pc$ نشان می‌دهیم. وزن این ورودی $w_{pc$ است و مجموع ضرب ورودی‌ها با وزنهایشان را با $a_{c$ نمایش می‌دهیم، به این معنی که $a_{c}=\sum _{p}w_{pc}\times b_{pc$ . حال باید بر روی $a_{c$ تابعی غیر خطی اعمال کنیم این تابع را $\theta _{c$ می‌نامیم و خروجی آن را با $b_{c$ نمایش می‌دهیم یعنی $b_{c}=\theta _{c}(a_{c})$ . به همین شکل خروجیی که از سلول عصبی $c$ خارج شده و به سلول $n$ وارد می‌شود را با $b_{cn$ نمایش می‌دهیم و وزن آن را $w_{cn$ می‌نامیم. حال تمام وزن‌های این شبکه عصبی را در مجموعه‌ای به اسم $W$ می‌گنجانیم، هدف یادگیری این وزنهاست.^[۱۵] اگر ورودی ما $x$ باشد و خروجی $y$ و خروجی شبکه عصبی ما $h_{W}(x)$ ، هدف پیدا کردن انتخاب $W$ است به قسمی که برای تمام داده‌ها $y$ و $h_{W}(x)$ به هم خیلی نزدیک شوند. به عبارت دیگر هدف کوچک کردن یک تابع هزینه بر روی تمام داده هاست، اگر داده‌ها را با $(x_{1},y_{1}),\cdots ,(x_{n},y_{n})$ و تابع هزینه را با $l$ نشان دهیم هدف کمینه کردن تابع پایین است:^[۱۶]

$Q(W)=\sum _{i=1}^{n}l\left(h_{W}(x_{i}),\,\,y_{i}\right)$

به عنوان مثال اگر مسئله رگرسیون است برای $l$ می‌توانیم خطای مربعات را در نظر بگیریم و اگر مسئله دسته‌بندی است برای $l$ می‌شود منفی لگاریتم بازنمایی را استفاده کرد.

برای به‌دست آوردن کمینه $Q(W)$ باید از روش گرادیان کاهشی استفاده کرد، به این معنی که گرادیان تابع را حساب کرده، کمی در خلاف جهت آن حرکت کرده و این کار را آنقدر ادامه داد تا تابع هزینه خیلی کوچک شود. روش بازگشت به عقب در واقع روشی برای پیدا کردن گرادیان تابع $Q(W)$ است.

حال فرض کنیم می‌خواهیم گرادیان تابع $Q(W)$ را نسبت به وزن $w_{pc$ به‌دست بیاوریم. برای این کار نیاز به قاعده زنجیری در مشتق‌گیری داریم. قاعده زنجیری به این شکل کار می‌کند: اگر تابعی داشته باشیم به اسم $f$ که وابسته به سه ورودی $u$ ، $v$ و $w$ باشد و هرکدام از این سه ورودی به نوبه خود وابسته به $t$ باشند، مشتق $f$ به $t$ به این شکل محاسبه می‌شود:

${\frac {\partial f\left(u(t),v(t),w(t)\right)}{\partial t}={\frac {\partial f}{\partial u}{\frac {\partial u}{\partial t}+{\frac {\partial f}{\partial v}{\frac {\partial v}{\partial t}+{\frac {\partial f}{\partial w}{\frac {\partial w}{\partial t$

با استفاده از این قاعده زنجیری روش بازگشت به عقب را به این شکل دنبال می‌کنیم:

$\delta _{c}={\frac {\partial Q}{\partial a_{c$

$a_{c}=\sum _{p}w_{pc}\times b_{pc$

$b_{c}=\theta _{c}(a_{c})$

$\delta _{c}={\frac {\partial Q}{\partial a_{c}={\frac {\partial Q}{\partial b_{c}{\frac {\partial b_{c}{\partial a_{c}={\frac {\partial Q}{\partial b_{c}\times {\acute {\theta }_{c}(a_{c})=\left(\sum _{n}{\frac {\partial Q}{\partial a_{n}{\frac {\partial a_{n}{\partial b_{c}\right)\times {\acute {\theta }_{c}(a_{c})=\left(\sum _{n}w_{cn}\delta _{n}\right)\times {\acute {\theta }_{c}(a_{c})$

${\frac {\partial Q}{\partial w_{pc}={\frac {\partial Q}{\partial a_{c}{\frac {\partial a_{c}{\partial w_{pc}=\delta _{c}b_{p$

همان‌طور که در خط پیشین دیدیم برای به‌دست آوردن گرادیان نسبت به $w_{pc$ به دو مقدار نیاز داریم ورودی به سلول عصبی $c$ از سلول عصبی $p$ که همان $b_{p$ است و راحت به‌دست می‌آید و $\delta _{c$ که از روش بازگشتی به‌دست می‌آید و بستگی به $\delta$ ‌هایی لایه بعد دارد که سلول $c$ به آن‌ها وصل است، به‌طور دقیقتر $\delta _{c}=\left(\sum _{n}w_{cn}\delta _{n}\right)\times {\acute {\theta }_{c}(a_{c})$ .

روش بازگشتی برای به‌دست آوردن $\delta$ ‌ها به این شکل کار می‌کند که ابتدا $\delta$ را برای سلول‌های لایه خروجی حساب می‌کنیم، و بعد لایه‌ها را به نوبت پایین آئیم و برای هر سلول $\delta$ آن را با ترکیت $\delta$ ‌های لایه‌های بالایی آن طبق فرمول حساب می‌کنیم. محاسبه کردن $\delta$ برای لایه خروجی آسان است و مستقیماً با مشتق گرفتن از $Q$ به‌دست می‌آید.^[۱۷]

ابرپارامترها

ابرپارامترها نقش مهمی در عملکرد شبکه‌های عصبی دارند. با تنظیم این ابرپارامترها با استفاده از داده اعتبار سنجی (validation) می‌توان عملکرد مدل را بهبود داد.

تعدادی از ابرپارامترها در شبکه‌های عصبی پیچشی، مشابه با ابرپارامترهای سایر شبکه‌های عصبی است. برای مثال می‌توان به نرخ یادگیری (learning rate)، تعداد ایپاک‌ها (epoch) اشاره کرد. اما این نوع شبکه‌ها نسبت به سایر شبکه‌ها تعداد ابرپاراکتر بیشتری دارند که به بررسی آن‌ها پرداخته می‌شود.

اندازه هسته (kernel size): هر لایه پیچشی یا ادغامی دارای یک هسته است که عمق آن به اندازه تعداد فیلترهای ورودی است. اما اندازه طول و عرض آن قابل تنظیم است و معمولاً اندازه‌ای کوچک مانند $2\times 2$ یا $3\times 3$ دارد.
گام (stride): همان‌طور که در ابتدا بیان شد، هسته (کرنل) در روی ماتریس ورودی می‌لغزد و با هربار لغزش، ماتریس کرنل و آن بخش از ورودی که منطبق بر کرنل است در یکدیگر ضرب می‌شوند. لغزیدن ماتریس هسته بر روی ورودی می‌تواند با گام‌های مختلف انجام شود.

حاشیه‌گذاری (padding): حاشیه گذاری به معنای اضافه کردن پیکسل‌هایی (معمولا با مقدار صفر) به حاشیه تصویر است. اینکار به دلایل متفاوتی انجام می‌شود. یکی از دلایل، آن است که با تغییر مقدار گام (stride) از ۱ به اعداد دیگر، ممکن است با لغزاندن ماتریس هسته روی ورودی، مقداری از این ماتریس خارج از ورودی بیفتد که منجر به بروز خطا در مدل می‌شود. در نتیجه با اضافه کردن حاشیه به تصویر از این مورد جلوگیری می‌شود. یکی دیگر از دلایل اضافه کردن حاشیه به تصویر، برابر کردن اهمیت پیکسل‌ها در ورودی است. درصورتی که حاشیه گذاری وجود نداشته باشد، پیکسل‌هایی که در گوشه تصویر هستند، تنها در یکی از عملیات‌های ضرب پیچشی قرار ی‌گیرند و در نتیجه اهمیت آن‌ها در خروجی کم‌رنگ‌تر است. با اضافه کردن حاشیه مناسب، تعداد بارهایی که هر پیکسل در عملیات ضرب پیچشی می‍آید برابر با تمام پیکسل‌های دیگر است.
تعداد فیلترها: همان‌طور که پیشتر نیز ذکر شد، عمق هر ماتریس هسته به اندازه عمق ورودی است و از ضرب پیچشی هر ماتریس هسته در ورودی، یک ماتریس با عمق یک به وجود می‌آید. برای آنکه بتوان تعداد بیشتری ویژگی را از ورودی استخراج کرد، ورودی را با چند ماتریس هسته متفاوت با مقادیر مختلف ضرب پیچشی می‌کنند و در نتیجه عمق خروجی نیز به اندازه تعداد هسته‌هایی است که ورودی را در آن ضرب می‌کنند. در نتیجه تعداد فیلترها همان عمق خروجی را مشخص می‌کند.

محاسبه اندازه خروجی لایه پیچشی

درصورتی که اندازه ورودی $N*N*K$ باشد و تعداد فیلترها $L$ باشد و اندازه ماتریس هسته $M*M$ باشد، و همچنین از هر طرف تصویر مقدار حاشیه‌گذاری $P$ باشد و مقدار گام $S$ در نظر گرفته شود اندازه تصویر خروجی از رابطه زیر به دست می‌آید:

$({\frac {N+2*P-M}{S}+1,{\frac {N+2*P-M}{S}+1,L)$

تاریخچه

شبکه‌های عصبی پیچشی مشابه سیستم پردازش دیداری در موجودات زنده عمل می‌کنند. از قرن نوزدهم به‌طور همزمان اما جداگانه از سویی نوروفیزیولوژیست‌ها سعی کردند سیستم یادگیری و تجزیه و تحلیل مغز را کشف کنند، و از سوی دیگر ریاضیدانان تلاش کردند مدل ریاضی ای بسازند که قابلیت فراگیری و تجزیه و تحلیل عمومی مسائل را دارا باشد. اولین کوشش‌ها در شبیه‌سازی با استفاده از یک مدل منطقی در اوایل دههٔ ۱۹۴۰ توسط وارن مک‌کالک و والتر پیتز انجام شد که امروزه بلوک اصلی سازنده اکثر شبکه‌های عصبی مصنوعی است. عملکرد این مدل مبتنی بر جمع ورودی‌ها و ایجاد خروجی با استفاده از شبکه‌ای از نورون‌ها است. اگر حاصل جمع ورودی‌ها از مقدار آستانه بیشتر باشد، اصطلاحاً نورون برانگیخته می‌شود. نتیجه این مدل اجرای ترکیبی از توابع منطقی بود.^[۱۸]

در سال ۱۹۴۹ دونالد هب قانون یادگیری را برای شبکه‌های عصبی طراحی کرد.^[۱۹] در سال ۱۹۵۸ شبکه پرسپترون توسط روزنبلات معرفی گردید. این شبکه نظیر واحدهای مدل شده قبلی بود. پرسپترون دارای سه لایه است که شامل لایهٔ ورودی، لایهٔ خروجی و لایهٔ میانی می‌شود. این سیستم می‌تواند یاد بگیرد که با روشی تکرارشونده وزن‌ها را به گونه‌ای تنظیم کند که شبکه توان بازتولید جفت‌های ورودی و خروجی را داشته‌باشد.^[۲۰] روش دیگر، مدل خطی تطبیقی نورون است که در سال ۱۹۶۰ توسط برنارد ویدرو و مارسیان هاف در دانشگاه استنفورد) به وجود آمد که اولین شبکه‌های عصبی به کار گرفته شده در مسائل واقعی بودند. آدالاین یک دستگاه الکترونیکی بود که از اجزای ساده‌ای تشکیل شده بود، روشی که برای آموزش استفاده می‌شد با پرسپترون فرق داشت.

در سال ۱۹۶۹ میسکی و پاپرت کتابی نوشتند که محدودیت‌های سیستم‌های تک لایه و چند لایه پرسپترون را تشریح کردند. نتیجه این کتاب پیش داوری و قطع سرمایه‌گذاری برای تحقیقات در زمینه شبیه‌سازی شبکه‌های عصبی بود. آن‌ها با طرح اینکه طرح پرسپترون قادر به حل هیچ مسئله جالبی نمی‌باشد، تحقیقات در این زمینه را برای مدت چندین سال متوقف کردند.

با وجود اینکه اشتیاق عمومی و سرمایه‌گذاری‌های موجود به حداقل خود رسیده بود، برخی محققان تحقیقات خود را برای ساخت ماشین‌هایی که توانایی حل مسائلی از قبیل تشخیص الگو را داشته باشند، ادامه دادند. از جمله گراسبگ که شبکه‌ای تحت عنوان Avalanch را برای تشخیص صحبت پیوسته و کنترل دست ربات مطرح کرد. همچنین او با همکاری کارپنتر شبکه‌های نظریه تشدید انطباقی را بنا نهادند که با مدل‌های طبیعی تفاوت داشت. اندرسون و کوهونن نیز از اشخاصی بودند که تکنیک‌هایی برای یادگیری ایجاد کردند. ورباس در سال ۱۹۷۴ شیوه آموزش پس انتشار خطا را ایجاد کرد که یک شبکه پرسپترون چندلایه البته با قوانین نیرومندتر آموزشی بود.

پیشرفت‌هایی که در سال ۱۹۷۰ تا ۱۹۸۰ به‌دست آمد برای جلب توجه به شبکه‌های عصبی بسیار مهم بود. برخی فاکتورها نیز در تشدید این مسئله دخالت داشتند، از جمله کتاب‌ها و کنفرانس‌های وسیعی که برای مردم در رشته‌های متنوع ارائه شد. امروز نیز تحولات زیادی در تکنولوژی ANN ایجاد شده‌است.

منابع بیشتر

شبیه‌سازی تصویری شبکه‌های عصبی پیچشی

جستارهای وابسته

منابع

↑ LeCun, Yann. "LeNet-5, convolutional neural networks". Retrieved 16 November 2013.
↑ Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of annual conference of the Japan Society of Applied Physics.
↑ Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32).
↑ Matusugu, Masakazu; Katsuhiko Mori; Yusuke Mitari; Yuji Kaneda (2003). "Subject independent facial expression recognition with robust face detection using a convolutional neural network" (PDF). Neural Networks. 16 (5): 555–559. doi:10.1016/S0893-6080(03)00115-1. Retrieved 17 November 2013.
↑ Collobert, Ronan; Weston, Jason (2008-01-01). "A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning". Proceedings of the 25th International Conference on Machine Learning. ICML '08. New York, NY, USA: ACM: 160–167. doi:10.1145/1390156.1390177. ISBN 978-1-60558-205-4.
↑ "Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation". DeepLearning 0.1. LISA Lab. Archived from the original on 28 December 2017. Retrieved 31 August 2013.
↑ Habibi,, Aghdam, Hamed. Guide to convolutional neural networks: a practical application to traffic-sign detection and classification. Heravi, Elnaz Jahani,. Cham, Switzerland. ISBN 978-3-319-57549-0. OCLC 987790957.{cite book}: نگهداری CS1: نقطه‌گذاری اضافه (link)
↑ Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning.
↑ Li et. Al., A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects.
↑ Krizhevsky, Alex. "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). Archived from the original (PDF) on 12 May 2013. Retrieved 17 November 2013.
↑ Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York, NY: Institute of Electrical and Electronics Engineers (IEEE): 3642–3649. arXiv:1202.2745v1. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. Retrieved 2013-12-09.
↑ Le Callet, Patrick; Christian Viard-Gaudin; Dominique Barba (2006). "A Convolutional Neural Network Approach for Objective Video Quality Assessment" (PDF). IEEE Transactions on Neural Networks. 17 (5): 1316–1327. doi:10.1109/TNN.2006.879766. PMID 17001990. Archived from the original (PDF) on 23 February 2014. Retrieved 17 November 2013.
↑ ^۱۳٫۰ ^۱۳٫۱ Ian Goodfellow and Yoshua Bengio and Aaron Courville (۲۰۱۶). Deep learning. MIT Press. صص. ۲۰۰.
↑ ^۱۴٫۰ ^۱۴٫۱ ^۱۴٫۲ Heaton, Jeff (2017-10-29). "Ian Goodfellow, Yoshua Bengio, and Aaron Courville: Deep learning". Genetic Programming and Evolvable Machines. 19 (1–2): 305–307. doi:10.1007/s10710-017-9314-z. ISSN 1389-2576.
↑ «Build with AI | DeepAI». DeepAI. بایگانی‌شده از اصلی در ۱۷ اکتبر ۲۰۱۸. دریافت‌شده در ۲۰۱۸-۱۰-۲۴.
↑ A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 October 2018. Retrieved 20 December 2018. {cite journal}: Cite journal requires |journal= (help)
↑ Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam, Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. p. 578.
↑ فاست، مبانی شبکه‌های عصبی، ۳۰–۳۱.
↑ فاست، مبانی شبکه‌های عصبی، ۳۱.
↑ فاست، مبانی شبکه‌های عصبی، ۳۰–۳۱.

[LeCun-1] LeCun, Yann. "LeNet-5, convolutional neural networks". Retrieved 16 November 2013.

[:0-2] Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of annual conference of the Japan Society of Applied Physics.

[:1-3] Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32).

[robust_face_detection-4] Matusugu, Masakazu; Katsuhiko Mori; Yusuke Mitari; Yuji Kaneda (2003). "Subject independent facial expression recognition with robust face detection using a convolutional neural network" (PDF). Neural Networks. 16 (5): 555–559. doi:10.1016/S0893-6080(03)00115-1. Retrieved 17 November 2013.

[5] Collobert, Ronan; Weston, Jason (2008-01-01). "A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning". Proceedings of the 25th International Conference on Machine Learning. ICML '08. New York, NY, USA: ACM: 160–167. doi:10.1145/1390156.1390177. ISBN 978-1-60558-205-4.

[deeplearning-6] "Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation". DeepLearning 0.1. LISA Lab. Archived from the original on 28 December 2017. Retrieved 31 August 2013.

[7] Habibi,, Aghdam, Hamed. Guide to convolutional neural networks: a practical application to traffic-sign detection and classification. Heravi, Elnaz Jahani,. Cham, Switzerland. ISBN 978-3-319-57549-0. OCLC 987790957.{cite book}: نگهداری CS1: نقطه‌گذاری اضافه (link)

[8] Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning.

[9] Li et. Al., A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects.

[10] Krizhevsky, Alex. "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). Archived from the original (PDF) on 12 May 2013. Retrieved 17 November 2013.

[mcdns-11] Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (June 2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York, NY: Institute of Electrical and Electronics Engineers (IEEE): 3642–3649. arXiv:1202.2745v1. doi:10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. Retrieved 2013-12-09.

[video_quality-12] Le Callet, Patrick; Christian Viard-Gaudin; Dominique Barba (2006). "A Convolutional Neural Network Approach for Objective Video Quality Assessment" (PDF). IEEE Transactions on Neural Networks. 17 (5): 1316–1327. doi:10.1109/TNN.2006.879766. PMID 17001990. Archived from the original (PDF) on 23 February 2014. Retrieved 17 November 2013.

[:02-13] ۱۳٫۰ ^۱۳٫۱ Ian Goodfellow and Yoshua Bengio and Aaron Courville (۲۰۱۶). Deep learning. MIT Press. صص. ۲۰۰.

[:12-14] ۱۴٫۰ ^۱۴٫۱ ^۱۴٫۲ Heaton, Jeff (2017-10-29). "Ian Goodfellow, Yoshua Bengio, and Aaron Courville: Deep learning". Genetic Programming and Evolvable Machines. 19 (1–2): 305–307. doi:10.1007/s10710-017-9314-z. ISSN 1389-2576.

[15] «Build with AI | DeepAI». DeepAI. بایگانی‌شده از اصلی در ۱۷ اکتبر ۲۰۱۸. دریافت‌شده در ۲۰۱۸-۱۰-۲۴.

[16] A., Nielsen, Michael (2015). "Neural Networks and Deep Learning" (به انگلیسی). Archived from the original on 22 October 2018. Retrieved 20 December 2018. {cite journal}: Cite journal requires |journal= (help)

[17] Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam, Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. p. 578.

[18] فاست، مبانی شبکه‌های عصبی، ۳۰–۳۱.

[19] فاست، مبانی شبکه‌های عصبی، ۳۱.

[20] فاست، مبانی شبکه‌های عصبی، ۳۰–۳۱.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]