اندیس ژاکار
اندیس ژاکار (به انگلیسی: Jaccard index) یا ضریب شباهت ژاکار (به فرانسوی: coefficient de communauté) معیاری برای مقایسه شباهت یا تفاوت مجموعه نمونههای آماری است.
میزان شباهت دو مجموعه نمونه با توجه به اندیس ژاکار ، از تقسیم تعداد اشتراک دو مجموعه بر تعداد اجتماع دو مجموعه به دست میآید.
همچنین، فاصله ژاکار که میزان تفاوت دو مجموعه نمونه را میسنجند، با کم کردن میزان شباهت ژاکار از یک بدست میآید. همینطور با کسر تعداد اشتراک از تعداد اجتماع دو مجموعه و تقسیم آن به تعداد اجتماع دو مجموعه میتوان فاصله ژاکار بین آن دو مجموعه را محاسبه کرد.
اندیس ژاکار یک تابع استاندارد فاصله (متریک) است.[۱][۲]
شباهت صفتهای دودویی نامتقارن
دو شیء A و B را در نظر میگیریم که هر کدام شامل n صفت دودویی هستند. با استفاده از ضریب ژاکار میتوان میزان صفتهای مشترک بین A و B را محاسبه کرد. هر صفتی از A و B میتواند دارای مقدار ۰ یا ۱ باشد. تعداد کل شیوههای مختلف ترکیب صفات در A و B به شکل زیر مشخص میشود:
- نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار ۱ دارند.
- نشان دهنده تعداد کل صفاتی است که صفت A برابر ۰ و صفت B برابر ۱ است.
- نشان دهنده تعداد کل صفاتی است که صفت A برابر ۱ و صفت B برابر ۰ است.
- نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار ۰ دارند.
هر صفت میبایست در یکی از چهار گروه فوق قرار بگیرد؛ بنابراین:
ضریب شباهت ژاکار به این طریق بدست میآید:
همچنین فاصله ژاکار به شکل زیر محاسبه میشود:
جستارهای وابسته
- فاصله همینگ
- ضریب تاس که معادل است با و
- ضریب همبستگی
پانویس
منابع
- Tan, Pang-Ning; Steinbach, Michael; Kumar, Vipin (2005), Introduction to Data Mining, ISBN 0-321-32136-7.
- Jaccard, Paul (1901), "Étude comparative de la distribution florale dans une portion des Alpes et des Jura", Bulletin de la Société Vaudoise des Sciences Naturelles, 37: 547–579.
- Tanimoto, Taffee T. (November 17, 1957), IBM Internal Report
{citation}
: Missing or empty|title=
(help).