Gistogramma

Gistogramma

Gistogramma — bu sonli maʼlumotlar taqsimotining taxminiy koʻrinishi. Bu atama birinchi marta Karl Pearson tomonidan kiritilgan.[1] Gistogrammani yaratish uchun birinchi qadam qiymatlar diapazonini „bin“ (yoki „chelak“) qilish, yaʼni qiymatlarning butun diapazonini bir qator intervallarga boʻlish va keyin har bir intervalga qancha qiymat tushishini hisoblashdir. Qopqoqlar odatda oʻzgaruvchining ketma-ket, bir-birining ustiga chiqmaydigan intervallari sifatida belgilanadi. Axlat qutilari (intervallar) qoʻshni boʻlishi kerak va koʻpincha (lekin boʻlishi shart emas) bir xil oʻlchamda boʻlishi kerak.[2]

Agar qutilar teng oʻlchamda boʻlsa, balandligi chastotaga — har bir qutidagi qutilar soniga mutanosib boʻlgan toʻrtburchaklar oʻrnatiladi. Gistogramma „nisbiy“ chastotalarni koʻrsatish uchun ham normallashtirilishi mumkin. Keyinchalik, balandliklar yigʻindisi 1 ga teng boʻlgan bir nechta toifalarning har biriga kiradigan holatlar nisbatini koʻrsatadi.

Biroq, qutilarning kengligi teng boʻlishi shart emas; u holda oʻrnatilgan toʻrtburchak uning maydoni qutidagi holatlar chastotasiga mutanosib boʻlishi uchun aniqlanadi.[3] Keyin vertikal oʻq chastota emas, balki chastota zichligi — gorizontal oʻqdagi oʻzgaruvchining birligi uchun holatlar soni kerak boʻladi. Oʻzgaruvchan quti kengligi misollari quyida aholini roʻyxatga olish byurosi maʼlumotlarida koʻrsatilgan.

Qoʻshni qutilar boʻshliq qoldirmaganligi sababli, gistogrammaning toʻrtburchaklari bir-biriga tegib, asl oʻzgaruvchining uzluksiz ekanligini koʻrsatadi.[4]

Gistogrammalar maʼlumotlarning asosiy taqsimotining zichligi haqida taxminiy maʼlumot beradi va koʻpincha zichlikni baholash uchun: asosiy oʻzgaruvchining ehtimollik zichligi funktsiyasini baholash uchun. Ehtimollik zichligi uchun ishlatiladigan gistogrammaning umumiy maydoni har doim 1 ga normallashtiriladi. Agar x oʻqidagi intervallarning uzunligi hammasi 1 boʻlsa, u holda gistogramma nisbiy chastota grafigi bilan bir xil boʻladi.

Gistogramma yadro zichligining soddalashtirilgan bahosi sifatida koʻrib chiqilishi mumkin, u yadrolar ustidagi chastotalarni tekislash uchun foydalanadi. Bu, umuman olganda, asosiy oʻzgaruvchining taqsimlanishini aniqroq aks ettiradigan yumshoqroq ehtimollik zichligi funksiyasini beradi. Zichlik bahosi gistogrammaga muqobil sifatida chizilishi mumkin va odatda qutilar toʻplami emas, balki egri chiziq sifatida chiziladi. Shunga qaramay, statistik xususiyatlarini modellashtirish kerak boʻlganda, gistogrammalar ilovalarda afzallik beriladi. Yadro zichligi bahosining korrelyatsiyali oʻzgarishini matematik tarzda tasvirlash juda qiyin, shu bilan birga har bir bin mustaqil ravishda oʻzgarib turadigan gistogramma uchun bu oddiy.

Yadro zichligini baholashga muqobil oʻrtacha oʻzgartirilgan gistogramma boʻlib, u tez hisoblab chiqiladi va yadrolardan foydalanmasdan zichlikning silliq egri chiziqli bahosini beradi.[5]

Gistogramma sifat nazoratining yettita asosiy vositalaridan biridir. Gistogrammalar baʼzan shtrixli diagrammalar bilan aralashib ketadi. Gistogramma uzluksiz maʼlumotlar uchun ishlatiladi, bu erda qutilar maʼlumotlar diapazonini ifodalaydi, shtrixli diagramma esa kategorik oʻzgaruvchilarning syujetidir. Baʼzi mualliflar farqni aniqlashtirish uchun shtrixli diagrammalarda toʻrtburchaklar orasidagi boʻshliqlar boʻlishini tavsiya qiladilar.[6][7]

Misollar

Bu 500 ta elementdan foydalangan holda oʻngdagi gistogramma uchun maʼlumotlar:

Gistogramma misoli
Quti/Interval Hisoblash/Chastotasi
−3.5 to −2.51 9
−2.5 to −1.51 32
−1.5 to −0.51 109
−0.5 to 0.49 180
0.5 to 1.49 132
1.5 to 2.49 34
2.5 to 3.49 4

Gistogrammadagi naqshlarni tavsiflash uchun ishlatiladigan soʻzlar: "simmetrik", „chapga egik“ yoki „oʻngga egik“, „unimodal“, „bimodal“ yoki „multimodal“.

Bu haqda koʻproq maʼlumot olish uchun bir nechta turli xil quti kengligidan foydalangan holda maʼlumotlarni chizish yaxshi fikrdir. Restoranda berilgan maslahatlarga misol.

AQSH aholini roʻyxatga olish byurosi 124 million odam oʻz uyidan tashqarida ishlayotganini aniqladi. Quyidagi jadvalda ularning ish joyiga sayohat qilish vaqti haqidagi maʼlumotlaridan foydalanib, "kamida 30, lekin 35 daqiqadan kam" sayohat vaqtlari bilan javob berganlarning mutlaq soni yuqoridagi va pastdagi toifalar sonidan yuqori ekanligini koʻrsatadi. Bu, ehtimol, odamlarning xabar qilingan sayohat vaqtini yaxlitlashi bilan bogʻliq. Qiymatlarni biroz oʻzboshimchalik bilan yaxlitlangan raqamlar sifatida hisobot qilish muammosi odamlardan maʼlumotlarni yigʻishda keng tarqalgan hodisadir.

Gistogramma
Proportsional maʼlumotlar
Interval Kengligi Miqdori (Q) Q/umumiy/kenglik
0 5 4180 0.0067
5 5 13687 0.0221
10 5 18618 0.0300
15 5 19634 0.0316
20 5 17981 0.0290
25 5 7190 0.0116
30 5 16369 0.0264
35 5 3212 0.0052
40 5 4122 0.0066
45 15 9200 0.0049
60 30 6461 0.0017
90 60 3435 0.0005

Bu gistogramma birinchisidan faqat vertikal masshtabda farq qiladi. Har bir blokning maydoni har bir toifadagi jamining ulushi boʻlib, barcha chiziqlarning umumiy maydoni 1 ga teng („barcha“ degan maʼnoni anglatadi). Koʻrsatilgan egri chiziq zichlikning oddiy taxminidir. Ushbu versiya nisbatlarni koʻrsatadi va birlik maydoni gistogrammasi sifatida ham tanilgan.

Boshqacha qilib aytadigan boʻlsak, gistogramma kengliklari sinf oraligʻini ifodalovchi va maydonlari mos keladigan chastotalarga proportsional boʻlgan toʻrtburchaklar yordamida chastota taqsimotini ifodalaydi: har birining balandligi interval uchun oʻrtacha chastota zichligi. Gistogrammada koʻrsatilgan maʼlumotlar eksklyuziv boʻlsa-da, u bilan birga ekanligini koʻrsatish uchun intervallar birga joylashtirilgan. (Masalan, gistogrammada 10,5-20,5 va 20,5-33,5 boʻlgan ikkita bogʻlovchi intervalga ega boʻlish mumkin, lekin ikkita bogʻlovchi oraliq 10,5-20,5 va 22,5-32,5 boʻlishi mumkin emas. Boʻsh oraliqlar boʻsh sifatida ifodalanadi va oʻtkazib yuborilmaydi.)[8]

Matematik taʼriflar

Gistogrammani yaratish uchun foydalaniladigan maʼlumotlar har bir ajratilgan toifaga kiruvchi kuzatuvlar sonini hisoblaydigan m funktsiyasi orqali yaratiladi. Shunday qilib, agar n — kuzatuvlarning umumiy soni va k — qutilarning umumiy soni boʻlsa, m gistogramma maʼlumotlari quyidagi shartlarga javob beradi:

Kumulatif gistogramma

Kumulatif gistogramma — bu belgilangan qutigacha boʻlgan barcha qutilardagi kuzatuvlarning yigʻindisini hisoblaydigan xaritalash. Yaʼni, mj gistogrammasining Mi yigʻma gistogrammasi quyidagicha aniqlanadi:

Qutilar soni va kengligi

Qutilarining „eng yaxshi“ soni yoʻq va turli xil quti oʻlchamlari maʼlumotlarning turli xususiyatlarini koʻrsatishi mumkin. Maʼlumotlarni guruhlash kamida Jon Grauntning XVII asrdagi ishi kabi eski, ammo 1926-yildagi Gerbert Sturges ishiga qadar hech qanday tizimli koʻrsatmalar berilmagan.

Asosiy maʼlumotlar nuqtalarining zichligi past boʻlgan kengroq qutilardan foydalanish namuna olishning tasodifiyligi tufayli shovqinni kamaytiradi; zichligi yuqori boʻlgan tor qutilardan foydalanish (shuning uchun signal shovqinni boʻgʻadi) zichlikni baholashga koʻproq aniqlik beradi. Shunday qilib, gistogramma ichidagi quti kengligini oʻzgartirish foydali boʻlishi mumkin. Shunga qaramay, teng kenglikdagi qutilar keng qoʻllaniladi.

Baʼzi nazariyotchilar qutilarning optimal sonini aniqlashga harakat qilishdi, ammo bu usullar odatda taqsimot shakli haqida kuchli taxminlarni keltirib chiqaradi. Haqiqiy maʼlumotlarni taqsimlash va tahlil maqsadlariga qarab, turli xil quti kengliklari mos boʻlishi mumkin, shuning uchun tegishli kenglikni aniqlash uchun odatda tajriba oʻtkazish kerak. Biroq, turli xil foydali koʻrsatmalar va qoidalar mavjud.[9] K qutilari soni to'g'ridan-to'g'ri tayinlanishi mumkin yoki tavsiya etilgan h quti kengligi quyidagicha hisoblanishi mumkin:

Qavslar funksiyasini bildiradi.

Kvadrat ildiz tanlash

Gistogramma

Bu namunadagi ma'lumotlar nuqtalari sonining kvadrat ildizini oladi ( Excelning Analysis Toolpak gistogrammalari va boshqa ko'plab dasturlarda qo'llaniladi) va keyingi butun songa o'tadi.[10]

Sturges formulasi

Sturges formulasi binomial taqsimotdan olingan va bilvosita taxminan normal taqsimotni qabul qiladi.[11]

Sturges formulasi bilvosita quti oʻlchamlarini maʼlumotlar diapazoniga asoslaydi va agar n <30 boʻlsa, yomon ishlashi mumkin, chunki qutilar soni kichik boʻladi — yettidan kam — va maʼlumotlardagi tendentsiyalarni yaxshi koʻrsata olmaydi. Boshqa tomondan, Sturges formulasi juda katta maʻlumotlar toʻplamlari uchun quti kengligini haddan tashqari oshirib yuborishi mumkin, buning natijasida gistogrammalar haddan tashqari tekislanadi. Agar maʻlumotlar normal taqsimlanmagan boʻlsa, u ham yomon ishlashi mumkin.[12]

Izoh

Qutilar soni ga mutanosib boʻlishining yaxshi sababi quyidagilar: maʼlumotlar mustaqil realizatsiyasi sifatida olingan deylik. silliq zichlik bilan chegaralangan ehtimollik taqsimoti. Keyin gistogramma teng darajada „qoʻpol“ boʻlib qoladi, chunki cheksizlikka intiladi. Agar taqsimotning „kengligi“ boʻlsa (masalan, standart ogʻish yoki kvartillararo diapazon), u holda qutidagi birliklar soni (chastota) tartibida boʻladi va nisbiy standart xatosi tartibida. Keyingi quti bilan solishtirganda, zichlikning hosilasi nolga teng boʻlmagan holda chastotaning nisbiy oʻzgarishi tartibida boʻladi. Bu ikkisi bir xil tartibda, agar tartibli boʻlsa, , shuning uchun tartibda boʻladi. . Ushbu oddiy kubik ildiz tanlovi doimiy boʻlmagan kenglikdagi qutilarga ham qoʻllanilishi mumkin.

Manbalar

  1. Pearson, K. (1895). „Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material“. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences. 186-jild. 343–414-bet. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010.
  2. Howitt, D.; Cramer, D.. Introduction to Statistics in Psychology, Fourth, Prentice Hall, 2008. ISBN 978-0-13-205161-3. 
  3. Freedman, D.; Pisani, R.; Purves, R.. Statistics, Third, W. W. Norton, 1998. ISBN 978-0-393-97083-8. 
  4. Charles Stangor (2011) „Research Methods For The Behavioral Sciences“. Wadsworth, Cengage Learning. ISBN 9780840031976.
  5. David W. Scott (December 2009). „Averaged shifted histogram“. Wiley Interdisciplinary Reviews: Computational Statistics. 2:2-jild, № 2. 160–164-bet. doi:10.1002/wics.54.
  6. Naomi, Robbins „A Histogram is NOT a Bar Chart“. Forbes. Qaraldi: 31-iyul 2018-yil.
  7. M. Eileen Magnello (December 2006). „Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician“. The New Zealand Journal for the History and Philosophy of Science and Technology. 1 volume-jild. OCLC 682200824.
  8. Dean, S., & Illowsky, B. (2009, February 19). Descriptive Statistics: Histogram. Retrieved from the Connexions Web site: http://cnx.org/content/m16298/1.11/
  9. e.g. § 5.6 „Density Estimation“, W. N. Venables and B. D. Ripley, Modern Applied Statistics with S (2002), Springer, 4th edition. ISBN 0-387-95457-0.
  10. „EXCEL Univariate: Histogram“.
  11. Sturges, H. A. (1926). „The choice of a class interval“. Journal of the American Statistical Association. 21-jild, № 153. 65–66-bet. doi:10.1080/01621459.1926.10502161. JSTOR 2965501.
  12. Scott, David W. (2009). „Sturges' rule“. WIREs Computational Statistics. 1-jild, № 3. doi:10.1002/wics.35.

Shuningdek, qarang

  • Lancaster, H.O. An Introduction to Medical Statistics. John Wiley and Sons. 1974. ISBN 0-471-51250-8

Havolalar