اندیس ژاکار

اندیس ژاکار

اندیس ژاکار (به انگلیسی: Jaccard index) یا ضریب شباهت ژاکار (به فرانسوی: coefficient de communauté) معیاری برای مقایسه شباهت یا تفاوت مجموعه نمونه‌های آماری است.

میزان شباهت دو مجموعه نمونه با توجه به اندیس ژاکار ، از تقسیم تعداد اشتراک دو مجموعه بر تعداد اجتماع دو مجموعه به دست می‌آید.

همچنین، فاصله ژاکار که میزان تفاوت دو مجموعه نمونه را می‌سنجند، با کم کردن میزان شباهت ژاکار از یک بدست می‌آید. همین‌طور با کسر تعداد اشتراک از تعداد اجتماع دو مجموعه و تقسیم آن به تعداد اجتماع دو مجموعه می‌توان فاصله ژاکار بین آن دو مجموعه را محاسبه کرد.

اندیس ژاکار یک تابع استاندارد فاصله (متریک) است.[۱][۲]

شباهت صفت‌های دودویی نامتقارن

دو شیء A و B را در نظر می‌گیریم که هر کدام شامل n صفت دودویی هستند. با استفاده از ضریب ژاکار می‌توان میزان صفت‌های مشترک بین A و B را محاسبه کرد. هر صفتی از A و B می‌تواند دارای مقدار ۰ یا ۱ باشد. تعداد کل شیوه‌های مختلف ترکیب صفات در A و B به شکل زیر مشخص می‌شود:

نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار ۱ دارند.
نشان دهنده تعداد کل صفاتی است که صفت A برابر ۰ و صفت B برابر ۱ است.
نشان دهنده تعداد کل صفاتی است که صفت A برابر ۱ و صفت B برابر ۰ است.
نشان دهنده تعداد کل صفاتی است که در آن A و B هر دو مقدار ۰ دارند.

هر صفت می‌بایست در یکی از چهار گروه فوق قرار بگیرد؛ بنابراین:

ضریب شباهت ژاکار به این طریق بدست می‌آید:

همچنین فاصله ژاکار به شکل زیر محاسبه می‌شود:

جستارهای وابسته

پانویس

  1. Lipkus, Alan H (1999), "A proof of the triangle inequality for the Tanimoto distance", J Math Chem, 26 (1–3): 263–265
  2. Levandowsky, Michael; Winter, David (1971), "Distance between sets", Nature, 234 (5): 34–35

منابع

  • Tan, Pang-Ning; Steinbach, Michael; Kumar, Vipin (2005), Introduction to Data Mining, ISBN 0-321-32136-7.
  • Jaccard, Paul (1901), "Étude comparative de la distribution florale dans une portion des Alpes et des Jura", Bulletin de la Société Vaudoise des Sciences Naturelles, 37: 547–579.
  • Tanimoto, Taffee T. (November 17, 1957), IBM Internal Report {citation}: Missing or empty |title= (help).