شبکه های عصبی کانولوشنال (CNN) ابتدا با هدف تشخیص تصویر در زمینه بینایی کامپیوتری طراحی شدند. این شبکه ها یک نوع تخصصی از شبکه های عصبی مصنوعی هستند که ثابت کرده اند در تجزیه و تحلیل داده های بصری بسیار موثر هستند. توسعه CNN ها به دلیل نیاز به ایجاد مدل هایی بود که بتوانند تصاویر را به طور دقیق طبقه بندی و دسته بندی کنند و موفقیت آنها در این حوزه منجر به استفاده گسترده از آنها در کاربردهای مختلف دیگر مانند تشخیص اشیا، تقسیم بندی تصویر و حتی پردازش زبان طبیعی شده است.
CNN ها از ساختار و عملکرد قشر بینایی در مغز انسان الهام گرفته شده اند. مانند قشر بینایی، CNN ها از چندین لایه نورون های به هم پیوسته تشکیل شده اند که جنبه های مختلف داده های ورودی را پردازش می کنند. نوآوری کلیدی CNN ها در توانایی آنها برای یادگیری خودکار و استخراج ویژگی های مرتبط از تصاویر نهفته است و نیاز به مهندسی ویژگی های دستی را از بین می برد. این از طریق استفاده از لایههای کانولوشن به دست میآید که فیلترهایی را روی تصویر ورودی اعمال میکنند تا الگوها و ویژگیهای بصری مختلف مانند لبهها، گوشهها و بافتها را شناسایی کنند.
اولین پیشرفت در CNN ها با معرفی معماری LeNet-5 توسط Yann LeCun و همکاران صورت گرفت. در سال 1998. LeNet-5 به طور خاص برای تشخیص ارقام دست نویس طراحی شد و عملکرد قابل توجهی در مجموعه داده MNIST به دست آورد، مجموعه داده معیاری که به طور گسترده برای ارزیابی الگوریتم های تشخیص تصویر استفاده می شود. LeNet-5 قدرت CNN ها را در گرفتن ویژگی های سلسله مراتبی از تصاویر نشان داد و طبقه بندی دقیق را حتی در حضور تغییرات در مقیاس، چرخش و ترجمه امکان پذیر کرد.
از آن زمان، CNN ها با معماری های عمیق تر و پیچیده تر توسعه یافته اند. یکی از پیشرفت های قابل توجه، معرفی معماری AlexNet توسط الکس کریژفسکی و همکاران بود. در سال 2012. AlexNet با برنده شدن در چالش تشخیص تصویری در مقیاس بزرگ ImageNet (ILSVRC) با نرخ خطای قابل توجهی کمتر در مقایسه با رویکردهای قبلی، به پیشرفتی در طبقه بندی تصاویر دست یافت. این موفقیت راه را برای پذیرش گسترده CNN در وظایف تشخیص تصویر هموار کرد.
CNN ها همچنین با موفقیت در سایر وظایف بینایی کامپیوتری اعمال شده اند. به عنوان مثال، در تشخیص اشیا، CNN ها را می توان با لایه های اضافی ترکیب کرد تا اشیاء درون یک تصویر را بومی سازی و طبقه بندی کند. شبکه عصبی پیچیده مبتنی بر منطقه (R-CNN) که توسط راس گیرشیک و همکاران معرفی شد. در سال 2014 نمونه ای از چنین معماری است. R-CNN با استفاده از قدرت CNN برای استخراج ویژگی و ترکیب آن با روشهای پیشنهادی منطقه، به نتایج پیشرفتهای در معیارهای تشخیص اشیا دست یافت.
شبکه های عصبی کانولوشن برای اولین بار برای وظایف تشخیص تصویر در زمینه بینایی کامپیوتر طراحی شدند. آنها با یادگیری خودکار ویژگیهای مرتبط از تصاویر، این حوزه را متحول کردهاند و نیاز به مهندسی ویژگیهای دستی را از بین بردهاند. توسعه CNN ها منجر به پیشرفت های قابل توجهی در طبقه بندی تصاویر، تشخیص اشیا و سایر وظایف بینایی کامپیوتری شده است.
سایر پرسش ها و پاسخ های اخیر در مورد EITC/AI/ADL یادگیری عمیق پیشرفته:
- چرا باید بهینه سازی ها را در یادگیری ماشین اعمال کنیم؟
- چه زمانی overfitting اتفاق می افتد؟
- آیا شبکههای عصبی کانولوشنال میتوانند دادههای متوالی را با ترکیب کانولوشنها در طول زمان، همانطور که در مدلهای Convolutional Sequence to Sequence استفاده میشود، مدیریت کنند؟
- آیا شبکههای متخاصم مولد (GANs) بر ایده یک مولد و یک تبعیض تکیه میکنند؟