سلاخی داده
![](http://upload.wikimedia.org/wikipedia/commons/thumb/0/0c/Spurious_correlations_-_spelling_bee_spiders.svg/220px-Spurious_correlations_-_spelling_bee_spiders.svg.png)
سلاخی داده یا صید داده یا پی-هکینگ (به انگلیسی: p-hacking)[۱] سوء استفاده از تحلیل داده برای پیدا کردن الگوهایی در داده است که می توانند تحت عنوان به لحاظ آماری معنادار معرفی شوند در حالی که در واقع هیچ اثر زیربناییای وجود ندارد. این کار با انجام آزمونهای آماری متعدد روی داده و تنها گزارش آنهایی که نتایج قابل ملاحظه یا معنادار (significant) برمیگردانند، صورت میگیرد. به جای آن که یک تک فرضیه درباره اثری زیربنایی قبل از تحلیل وضع شود و آنگاه تک آزمونی برای آن به انجام رسانده شود.[۲]
در سلاخی داده با جستجوی جامع (جستجوی بروت-فورس) - احتمالاً برای پیدا کردن ترکیبی از متغیرها که همبستگی نشان دهند یا مشاهداتی که در میانگین یا فروپاشیشان توسط متغیری دیگر تفاوت دارند - چندین فرضیه روی یک مجموعه داده تست میشود.
آزمونهای معمول برای معناداری آماری بر این اساسند که چقدر احتمال دارد یک نتیجه کاملاً بر حسب تصادف بروز پیدا کند، و همواره مقداری ریسک برای نتایج اشتباه (مانند رد کردن اشتباهی فرضیه تهی) را میپذیرند. سطح این ریسک معناداری (significance) نام دارد. وقتی تعداد زیادی تست انجام می شود، برخی از آن ها نتایج کاذبی از این نوع تولید می کنند،بنابراین در سطح معناداری ۵ درصد، ۵ درصد از فرضیههای انتخاب شدهی تصادفی ممکن است اشتباهی معنادار اعلام شده باشند، و به همین ترتیب به بقیهی سطوح. هنگامی که فرضیه های کافیای آزموده شود، کمابیش مسلم است که برخی به لحاظ آماری معنادار خواهند بود(گرچه گمراهکننده)، چراکه تقریباً هر مجموعه دادهای با هر درجهای از تصادفیبودن ممکن است شامل همبستگی جعلی باشد. اگر محققانی که از دادهکاوی استفاده می کنند محتاط نباشند می توانند به آسانی با این نتایج به بیراهه بروند.
سلاخی داده یکی از مثالهای اهمیت ندادن به مسئلهی مقایسه چندگانه است. یک شکل آن زمانی رخ میدهد که بدون اظلاع دادن به خواننده درباره تعداد کل مقایسه زیرگروهها آنها را مقایسه کنیم.[۳]
جستارهای وابسته
- الایزینگ
- گلچینکردن
- سوءاستفاده از آمار
- بیشبرازش
- پاریدولیا
- تحلیل پیشگویانه
- مغالطه تیرانداز زرنگ
جستارهای وابسته
- ↑ Wasserstein, Ronald L.; Lazar, Nicole A. (2016-04-02). "The ASA Statement on p -Values: Context, Process, and Purpose". The American Statistician (به انگلیسی). 70 (2): 129–133. doi:10.1080/00031305.2016.1154108. ISSN 0003-1305.
- ↑ Davey Smith, G. (2002-12-21). "Data dredging, bias, or confounding". BMJ. 325 (7378): 1437–1438. doi:10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654.
{cite journal}
: نگهداری یادکرد:فرمت پارامتر PMC (link) - ↑ Young, S. S.; Karr, A. (2011). "Deming, data and observational studies" (PDF). Significance. 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x.
منابع
- مشارکتکنندگان ویکیپدیا. «Data dredging». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۵ سپتامبر ۲۰۱۹.