روش تشخیص ناهنجاری
تشخیص ناهنجاریها (به انگلیسی: Anomaly detection) که به عنوان تشخیص دورافتادهها (به انگلیسی: Outlier detection) نیز شناخته شده است، به تشخیص الگوهای موجود در یک مجموعه اطلاعات داده شده، که با رفتار هنجار (نرمال) از پیش مقررشده، مطابقت ندارد، اشاره میکند؛ بنابراین الگوهای تشخیص داده شده، ناهنجاریها نامیده میشوند و اغلب به اطلاعات حیاتی و کارآمد، در چندین حوزهٔ کاربرد، ترجمه میشوند. همچنین ناهنجاریها به عنوان دورافتادگی، تغییر، انحراف، تعجب، نابجایی، صفات عجیب، نفوذ و غیره ارجاع میشوند.
بهطور خاص، در زمینه تشخیص سوءاستفاده و نفوذ به شبکه، موارد جالب اغلب موارد نادر نیستند، اما انفجارات غیرمنتظره در کار است. این الگو به یک تعریف آماری مشترک از دورافتادگی، به عنوان به عنوان یک شیء نادر پایبند نیست؛ و بسیاری از روشهای تشخیص دورافتادگی (بویژه در روش بدون نظارت)، بر روی تعدادی دادهها ناموفق است، مگر آنکه بهطور مناسب توزیع شده باشد. در عوض، یک الگوریتم تجزیه و تحلیل خوشهای ممکن است توانایی تشخیص خردخوشههای[۱] تشکیلشده توسط این الگوها را داشته باشد.
سه دستهٔ گسترده از فنون تشخیص ناهنجاری وجود دارد. فنون تشخیص ناهنجاری بدون ناظر، ناهنجاریها را در یک مجموعهٔ دادهٔ آزمون بدون برچسب، تحت این فرض که اکثریت موارد در مجموعه دادهها بهنجار هستند و با گشتن به دنبال مواردی که حداقل تناسب را با بقیه مجموعه دادهها دارند، تشخیص میدهند. فنون تشخیص ناهنجاری باناظر، نیاز به یک مجموعهٔ دادهها دارند که که با عنوان بهنجار و نابهنجار نشاندار شده و شامل آموزش طبقهبندی شده (تفاوت کلیدی بسیاری از مسایل طبقهبندی آماری، ماهیت نامتعادل ذاتی، ناشی از تشخیص دورافتادگی است) باشند. فنون تشخیص ناهنجاری نیمهنظارتی یک مدل که نشاندهندۀ رفتار طبیعی با توجه به یک مجموعه دادهاست، میسازند و سپس، احتمال یک مورد آزمون تولیدی بهوسیلهٔ مدل آموختهشده را میسنجند.
انواع مختلف ناهنجاریها[۲]
ناهنجاریها مختلفی که یک ماشین با آن مواجه میشود به شرح زیر است:
ناهنجاری سراسری
آنها همچنین به عنوان ناهنجاریهای نقطهای شناخته میشوند. اینها سادهترین نوع ناهنجاریها هستند. اگر در یک مجموعه داده معین، یک نقطه داده به شدت از بقیه نقاط داده منحرف شود، به عنوان نقطه دورافتاده جهانی شناخته میشود. بهطور مثال، در یک سیستم تشخیص نفوذ، اگر تعداد زیادی بسته در یک بازه زمانی بسیار کوتاه پخش شود، آنگاه ممکن است به عنوان یک نقطه دورافتاده جهانی در نظر گرفته شود و میتوان گفت که آن سیستم خاص هک شدهاست.
ناهنجاریهای زمینهای
آنها همچنین به عنوان «ناهنجاریهای شرطی» شناخته میشوند. اگر در یک مجموعه داده معین، یک شی داده بهطور قابل توجهی از سایر نقاط داده بر اساس یک زمینه یا شرایط خاص منحرف شود به عنوان دورافتاده زمینهای شناخته میشود. یک نقطه داده ممکن است به دلیل شرایط خاصی یک نقطه پرت باشد و ممکن است تحت شرایط دیگری رفتار عادی نشان دهد؛ بنابراین، یک زمینه باید به عنوان بخشی از بیان مسئله مشخص شود تا نقاط دورافتاده زمینهای شناسایی شوند. بهطور مثال، دمای ۴۰ درجه سانتیگراد ممکن است در زمینه «فصل زمستان» به عنوان یک نقطه دورافتاده عمل کند، اما در زمینه «فصل تابستان» مانند یک نقطه داده معمولی رفتار میکند.
ناهنجاریهای جمعی
اگر در یک مجموعه داده معین، برخی از نقاط داده، بهطور کلی، بهطور قابل توجهی از بقیه مجموعه داده منحرف شوند، ممکن است به عنوان نقاط دورافتاده جمعی شناخته شوند. در اینجا، تکتک اشیاء داده ممکن است دورافتاده نباشند، اما وقتی به عنوان یک کل دیده شوند، ممکن است به صورت دورافتاده رفتار کنند. برای شناسایی این نوع دورافتادهها، ممکن است به اطلاعات پس زمینهای در مورد رابطه بین آن اشیاء دادهای نیاز داشته باشیم که رفتار دورافتاده را نشان میدهد. بهطور مثال، در یک سیستم تشخیص نفوذ، بسته DOS از یک کامپیوتر به کامپیوتر دیگر ممکن است به عنوان رفتار عادی در نظر گرفته شود. با این حال، اگر این اتفاق با چندین رایانه بهطور همزمان رخ دهد، ممکن است این رفتار غیرعادی در نظر گرفته شود و بهطور کلی میتوان آنها را به عنوان ناهنجاری جمعی نامید.
الگوریتمهای تشخیص ناهنجاریها
دور افتادهها یا همان outlierها و بینظمیها در دادهها معمولاً توسط الگوریتمهای دادهکاوی مختلف قابل تشخیص هستند. به عنوان مثال، الگوریتمهایی برای خوشهبندی و طبقهبندی.
بهطور کلی، الگوریتمها به دو دسته کلیدی تقسیم میشوند که عبارتند از یادگیری تحت نظارت، بدون نظارت، نیمه نظارت. یادگیری تحت نظارت نوع رایجتر است. این یادگیری شامل الگوریتمهایی مانند رگرسیون خطی،[۳] رگرسیون لجستیک، ماشین بردار پشتیبانی، طبقهبندی چند کلاس و … است.
پنج مورد از الگوریتمهای تشخیص ناهنجاری به شرح زیر است (توضیحی مختصر در مورد هر یک داده شدهاست):
الگوریتم k-NN[۴]
k-NN یکی از الگوریتمهای مبتنی بر روشهای یادگیری تحت نظارت در یادگیری ماشین است. تمام نمونههای موجود را ذخیره میکند و سپس نمونههای جدید را بر اساس شباهتهای معیارهای فاصله طبقهبندی میکند بدین صورت که به k نزدیکترین نقاط داده آموزشی (k-نزدیکترین همسایگان) نگاه میکند. سپس، همانطور که از k-نزدیکترین همسایهها استفاده میکند، k-NN تصمیم میگیرد که چگونه دادههای جدید باید طبقهبندی شوند.
الگوریتم LOF[۵]
LOF یک الگوریتم تشخیص ناهنجاری کلیدی بر اساس مفهوم چگالی محلی است. از فاصله بین k نزدیکترین همسایه برای تخمین چگالی استفاده میکند.
LOF چگالی محلی یک آیتم را با چگالی محلی همسایگان آن مقایسه میکند؛ بنابراین میتوان مناطقی با چگالی مشابه و مواردی که چگالی قابل توجهی کمتر نسبت به همسایگان خود دارند را تعیین کرد. این موارد دورافتادهها یا همان outlierها هستند.
الگوریتم K-means[۶]
این الگوریتم خوشهبندی است. از مجموعهای از آیتمها k گروه ایجاد میکند تا عناصر یک گروه شبیهتر باشند. بدین صورت که اقلام داده، بسته به شباهت ویژگیهایشان خوشه بندی میشوند.
الگوریتم ماشینهای بردار پشتیبان[۷]
ماشین بردار پشتیبانی یک تکنیک یادگیری ماشین که به صورت یادگیری نظارت شده است که بیشتر در مسائل طبقهبندی استفاده میشود. از یک hyperplane برای طبقهبندی دادهها به دو گروه مختلف استفاده میکند. بدین صورت که این الگوریتم رفتار عادی دادهها را با استفاده از یک ناحیه یادگیری خوشهبندی میکند. سپس با استفاده از مثال آزمایشی، ناهنجاریهایی را که از ناحیه یادگرفته شده خارج میشوند، شناسایی میکند.
شبکه عصبی مبتنی بر تشخیص ناهنجاریها[۸]
شبکههای عصبی، الگوریتمهای بسیار محبوبی هستند که در ابتدا برای تقلید از نورونهای بیولوژیکی طراحی شدند. هدف اولیه از ایجاد سیستمی از نورونهای مصنوعی به دست آوردن سیستمهایی است که میتوانند برای یادگیری برخی الگوهای داده و اجرای عملکردهایی مانند طبقهبندی، رگرسیون خطی، پیشبینی و … آموزش ببینند بهطور مثال ساخت یک شبکه عصبی بازگشتی که ناهنجاریها را در دادههای سری زمانی کشف میکند. چیزی که آنها را برای تشخیص ناهنجاری در سریهای زمانی بسیار مفید میکند، این قدرت برای یافتن ویژگیهای وابسته در چند مرحله زمانی است.
کاربرد
تشخیص ناهنجاریها کاربردهای زیادی دارد که مواردی از آنها به شرح زیر است:
- تشخیص تقلب بهطور مثال، رفتار خرید شخصی که کارت اعتباری را نگه میدارد با رفتار مالک اولیه متفاوت است. شرکتهای کارت اعتباری سعی میکنند با مشاهده طرحهایی که مشخصه سرقت هستند یا با درک تغییری از رفتار عمومی، سرقت را شناسایی کنند. روشهای مشابهی برای انواع مختلف کلاهبرداری استفاده میشود.
- سامانه تشخیص نفوذ[۹] بهطور مثال، حملات به سیستمهای کامپیوتری و شبکههای کامپیوتری مرسوم است. در حالی که چندین حمله، از جمله حملاتی که برای از کار انداختن یا از کار انداختن رایانهها و شبکهها طراحی شدهاند، آشکار هستند، سایر حملات، از جمله حملاتی که برای جمعآوری مخفیانه دادهها طراحی شدهاند، پیچیده هستند. برخی از این نفوذها را میتوان با مشاهده سیستمها و شبکهها برای رفتار غیرعادی شناسایی کرد.
- اختلالات اکوسیستم بهطور مثال، در دنیای رایج، رویدادهای کلی وجود دارد که میتواند تأثیر اساسی بر انسان داشته باشد. نمونهها شامل طوفان، سیل، خشکسالی، امواج گرما و آتشسوزی است. هدف پیشبینی احتمال وقوع این رویدادها و علل آن است.
- بهداشت عمومی بهطور مثال، در برخی کشورها، بیمارستانها و کلینیکهای پزشکی چندین آمار را برای تجزیه و تحلیل بیشتر به سازمانهای ملی گزارش میدهند. به عنوان مثال، اگر برخی از کودکان در یک شهر برای یک بیماری خاص مانند سرخک واکسینه شوند، آنگاه ظهور برخی موارد پراکنده در چندین بیمارستان در یک شهر یک رویداد غیرعادی است که میتواند نشاندهنده مشکل در برنامههای واکسیناسیون در شهر باشد.
این روش اغلب در پردازش به منظور حذف دادههای غیرعادی از مجموعه دادهها، بکار میرود. در یادگیری تحت نظارت، حذف دادههای غیرعادی از مجموعه داده، اغلب منجر به افزایش معنی دار آماری در دقت میشود.
کاربرد در امنیت داده
تشخیص ناهنجاری برای سامانههای تشخیص نفوذ (IDS) در سال ۱۹۸۶ توسط دوروتی دنینگ[۱۰] ارائه شد. پیش از آن، تشخیص ناهنجاری برای IDSها بهطور معمول با آستانهها و آمار انجام میشدهاست. اما با محاسبات نرمافزاری و یادگیری استقرایی نیز میتواند انجام شود. انواع آمار ارائه شده در ۱۹۹۹، شامل پروفایلهای کاربران، ایستگاههای کاری، شبکهها، میزبانهای کنترل شده از راه دور، گروههای کاربران و برنامههای بر اساس فرکانس، میانگین، واریانس، کوواریانس (همبستگی) و انحراف استاندارد بود. همتای دیگر روش تشخیص ناهنجاری در تشخیص نفوذ، تشخیص سوءاستفاده است.
منابع
- ↑ micro clusters
- ↑ anomaly detection in machine learning-serokell blog
- ↑ Liu, X. , & Nielsen, P.S. (2016). Regression-based Online Anomaly Detection for Smart Grid Data. ArXiv, abs/1606.05781.
- ↑ Pang, G. , Ting, K.M. , & Albrecht, D.W. (2015). LeSiNN: Detecting Anomalies by Identifying Least Similar Nearest Neighbours. 2015 IEEE International Conference on Data Mining Workshop (ICDMW), 623-630.
- ↑ Yang, Mengjia & Ergu, Daji. (2020). Anomaly Detection of Vehicle Data Based on LOF Algorithm. Frontiers in Signal Processing. 4. 10.22606/fsp.2020.41007.
- ↑ Sarvani, A. & Venugopal, B. & Devarakonda, Nagaraju. (2019). Anomaly Detection Using K-means Approach and Outliers Detection Technique: Proceedings of SoCTA 2017. 10.1007/978-981-13-0589-4_35.
- ↑ Xueqin Zhang, Chunhua Gu and Jiajun Lin, "Support Vector Machines for Anomaly Detection," 2006 6th World Congress on Intelligent Control and Automation, Dalian, 2006, pp. 2594-2598, doi: 10.1109/WCICA.2006.1712831.
- ↑ Zhang, C. , Song, D. , Chen, Y. , Feng, X. , Lumezanu, C. , Cheng, W. , Ni, J. , Zong, B. , Chen, H. , & Chawla, N. V. (2019). A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data. Proceedings of the AAAI Conference on Artificial Intelligence, 33(01), 1409-1416. https://doi.org/10.1609/aaai.v33i01.33011409
- ↑ Intrusion Detectioin System
- ↑ Dorothy Denning
- مشارکتکنندگان ویکیپدیا. «Anomaly detection». در دانشنامهٔ ویکیپدیای انگلیسی.