یک راهنمای کامل برای توطئه های جعبه

  • 2021-10-8

یک طرح جعبه (جعبه با نام مستعار و طرح ویسکر) از جعبه ها و خطوط برای نشان دادن توزیع یک یا چند گروه از داده های عددی استفاده می کند. محدودیت های جعبه نشان دهنده دامنه 50 ٪ مرکزی داده ها است ، با یک خط مرکزی که مقدار متوسط را نشان می دهد. خطوط از هر جعبه برای گرفتن دامنه داده های باقیمانده گسترش می یابند ، با نقاط در حاشیه خط قرار می گیرند تا از فضای دور استفاده کنند.

Box plot showing daily downloads grouped by month.

طرح جعبه مثال در بالا بارگیری های روزانه را برای یک برنامه دیجیتال داستانی ، که توسط ماه با هم گروه بندی می شوند ، نشان می دهد. از این طرح ، می بینیم که بارگیری ها به تدریج از حدود 75 در روز در ژانویه به حدود 95 در روز در ماه آگوست افزایش یافته است. همچنین به نظر می رسد که در ماه نوامبر و دسامبر کاهش کمی در بارگیری های متوسط وجود دارد. امتیازات روزهای نمایش با تعداد بارگیری های خارج از کشور: در ماه ژوئن دو روز و یک روز در ماه اکتبر با بارگیری کم در مقایسه با روزهای دیگر ماه وجود داشت. طرح جعبه و ویسکرها ، در مقایسه با نمودار خط معادل ، بازنمایی پاک تر از روند کلی داده ها را ارائه می دهد.

Line chart showing daily downloads.

چه زمانی باید از یک طرح جعبه استفاده کنید

از توطئه های جعبه برای نشان دادن توزیع مقادیر داده های عددی استفاده می شود ، به خصوص هنگامی که می خواهید آنها را بین چندین گروه مقایسه کنید. آنها برای ارائه اطلاعات سطح بالا در یک نگاه ساخته شده اند و اطلاعات کلی در مورد گروهی از تقارن ، SKEW ، واریانس و خارج از کشور ارائه می دهند. به راحتی می توان فهمید که بخش اصلی داده ها در کجا قرار دارد و این مقایسه را بین گروه های مختلف انجام می دهد.

در روند نزولی ، سادگی یک طرح جعبه محدودیت هایی را در چگالی داده هایی که می تواند نشان دهد تعیین می کند. با یک طرح جعبه ، ما توانایی مشاهده شکل دقیق توزیع را از دست می دهیم ، مانند اینکه در روش توزیع (تعداد "هامپ ها یا قله ها) و skew وجود دارد.

Two different histograms result in the same box plot representation.

مجموعه داده های موجود در هر دو هیستوگرام ، طرح جعبه یکسانی را در صفحه مرکزی ایجاد می کنند.

تفسیر جعبه و سوت

ساخت یک طرح جعبه در اطراف کوارتیل های یک مجموعه داده یا مقادیری که مجموعه داده را به چهارمین برابر تقسیم می کند ، مستقر است. اولین کوارتیل (Q1) بیشتر از 25 ٪ از داده ها و کمتر از 75 ٪ دیگر است. کوارتیل دوم (Q2) در وسط قرار دارد و داده ها را به نصف تقسیم می کند. Q2 همچنین به عنوان میانه شناخته می شود. کوارتیل سوم (Q3) از 75 ٪ داده ها بزرگتر است و از 25 ٪ باقی مانده کوچکتر است. در یک جعبه و طرح ویسکرها ، انتهای جعبه و خط مرکزی آن مکان این سه کوارتیل را مشخص می کند.

Diagram showing how box and whiskers are derived from a set of data.

فاصله بین Q3 و Q1 به عنوان محدوده بین قشر (IQR) شناخته شده است و نقش مهمی در مدت زمان گسترش سوت ها از جعبه دارد. هر ویسکر به دورترین نقطه داده در هر بال که در فاصله 1. 5 برابر IQR است ، گسترش می یابد. هر نقطه داده فراتر از آن فاصله ، یک فاصله دور در نظر گرفته می شود و با یک نقطه مشخص می شود. روش های دیگری برای تعیین طول ویسکر وجود دارد که در زیر مورد بحث قرار می گیرد.

هنگامی که توزیع داده متقارن است ، می توانید انتظار داشته باشید که میانه در مرکز دقیق جعبه قرار داشته باشد: فاصله بین Q1 و Q2 باید بین Q2 و Q3 باشد. Outriers باید به طور مساوی در هر دو طرف جعبه حضور داشته باشد. اگر توزیع به هم ریخته شود ، میانه در وسط جعبه قرار نمی گیرد و در عوض به سمت آن خاموش می شود. همچنین ممکن است عدم تعادل در طول ویسکر پیدا کنید ، جایی که یک طرف کوتاه است و بدون هیچ حریص و بی حسی است ، و طرف دیگر دارای دم بلند و دارای تعداد زیادی است.

Data shape can affect the way a box and whiskers plot looks.

نمونه ساختار داده ها

Box plots can be generated from a table with columns for data values and data groups

ابزارهای تجسم معمولاً قادر به تولید توطئه های جعبه از ستون داده های خام و غیرمجاز به عنوان ورودی هستند. آمار برای کادر به پایان می رسد ، ویسک ها و Outliers به طور خودکار به عنوان بخشی از فرآیند ایجاد نمودار محاسبه می شوند. هنگامی که یک طرح جعبه برای چندین گروه باید ترسیم شود ، گروه ها معمولاً توسط یک ستون دوم مانند جدول بالا نشان داده می شوند.

بهترین روشها برای استفاده از یک طرح جعبه

چندین گروه را مقایسه کنید

در صورت نیاز به مقایسه در توزیع بین گروه ها ، توطئه های جعبه در بهترین حالت هستند. آنها در جمع بندی داده های خود جمع و جور هستند و مقایسه گروه ها از طریق جعبه و موقعیت های مارک های ویسکر آسان است.

توجیه یک طرح جعبه آسانتر است وقتی فقط توزیع یک گروه را در طرح قرار می دهید. توطئه های جعبه فقط خلاصه ای از داده ها را ارائه می دهند و فاقد توانایی نشان دادن جزئیات شکل توزیع داده ها هستند. تنها با یک گروه ، ما این آزادی را داریم که یک نوع نمودار دقیق تر مانند هیستوگرام یا منحنی چگالی را انتخاب کنیم.

ترتیب گروه ها را در نظر بگیرید

اگر گروه هایی که در یک طرح جعبه ترسیم شده اند ، نظم ذاتی ندارند ، پس باید آنها را به ترتیب ترتیب دهید که الگوهای و بینش را برجسته کند. یکی از سفارشات مشترک برای گروه ها ، مرتب سازی آنها با ارزش متوسط است.

Side-by-side comparison of box plot sorted by team name and median score.

گزینه های طرح جعبه مشترک

طرح جعبه عمودی در مقابل افقی

همانطور که از طریق این مقاله مشاهده می شود ، می توان یک طرح جعبه را به گونه ای تراز کرد که جعبه ها به صورت عمودی (با گروه هایی در محور افقی) یا به صورت افقی قرار بگیرند (با گروه هایی که به صورت عمودی تراز شده اند). جهت گیری افقی می تواند یک قالب مفید باشد که گروه های زیادی برای ترسیم وجود داشته باشند ، یا اینکه این گروه ها طولانی هستند. همچنین امکان ارائه نامهای طبقه طولانی را بدون چرخش یا کوتاه کردن امکان پذیر می کند. از طرف دیگر ، هنگامی که متغیر گروه بندی مبتنی بر واحدهای زمان است ، یک جهت گیری عمودی می تواند یک فرمت طبیعی تر باشد.

Box plots can be oriented with horizontal boxes or vertical boxes.

عرض جعبه متغیر و شکاف

برخی از ابزارهای تجسم شامل گزینه هایی برای رمزگذاری اطلاعات آماری اضافی در توطئه های جعبه هستند. این زمانی مفید است که داده های جمع آوری شده نمایانگر مشاهدات نمونه برداری از جمعیت بزرگتر باشد.

از شکافها برای نشان دادن محتمل ترین مقادیر مورد انتظار برای میانه در هنگام داده ها استفاده می شود. هنگامی که مقایسه ای بین گروه ها انجام می شود ، می توانید بگویید که آیا تفاوت بین میانه از نظر آماری بر اساس همپوشانی دامنه آنها معنی دار است یا خیر. اگر هر یک از مناطق شکاف با هم همپوشانی داشته باشد ، نمی توانیم بگوییم که میانه ها از نظر آماری متفاوت هستند. اگر آنها همپوشانی نداشته باشند ، می توانیم اطمینان خوبی داشته باشیم که میانه واقعی متفاوت است.

Notches in a box plot indicate uncertainty about the median

این طرح نشان می دهد که فرآیند B مؤلفه هایی با زمان شکست بهتر (بالاتر) ایجاد می کند ، اما شکافهای همپوشانی نشان می دهد که تفاوت در میانه از نظر آماری معنی دار نیست.

از عرض جعبه می توان به عنوان شاخصی که تعداد نقاط داده در هر گروه قرار می گیرد استفاده شود. عرض جعبه اغلب به ریشه مربع تعداد نقاط داده تقسیم می شود ، زیرا ریشه مربع متناسب با عدم اطمینان است (یعنی خطای استاندارد) ما در مورد مقادیر واقعی داریم. از آنجا که تفسیر عرض جعبه همیشه بصری نیست ، جایگزین دیگر اضافه کردن حاشیه نویسی با هر نام گروه است تا توجه داشته باشید که در هر گروه چند امتیاز وجود دارد.

Box width can be used as an indicator of how many data points were recorded for each group of data.

دامنه ویسکر و دور

چندین روش برای تعیین حداکثر طول ویسک ها که از انتهای جعبه ها در یک طرح جعبه امتداد دارند وجود دارد. همانطور که در بالا ذکر شد ، روش سنتی گسترش سوت ها به دورترین نقطه داده در 1. 5 برابر ضریب هوشی از هر پایان جعبه است. از طرف دیگر ، شما ممکن است نشانگرهای ویسکر را در صداهای دیگر داده ها قرار دهید ، مانند نحوه نشستن اجزای جعبه در صدک های 25 ، 50 و 75.

موقعیت‌های رایج جایگزین سبیل شامل صدک‌های 9 و 91 یا صدک‌های 2 و 98 است. اینها بر اساس خواص توزیع نرمال، نسبت به سه چارک مرکزی است. در توزیع نرمال، فاصله بین صدک 9 و 25 (یا 91 و 75) باید تقریباً به اندازه فاصله بین صدک 25 و 50 (یا 50 و 75) باشد، در حالی که فاصله بین صدک 2 و 25 (صدک های 98 و 75 باید تقریباً برابر با فاصله بین صدک های 25 و 75 باشند. این می تواند به جنبه یک نگاه نمودار جعبه کمک کند تا مشخص شود داده ها متقارن یا کج هستند.

Whisker lengths can be defined by various methods like data percentiles or a multiple of box length.

هنگامی که یکی از این مشخصات جایگزین سبیل استفاده می شود، ایده خوبی است که این را در یا نزدیک طرح ذکر کنید تا با فرمول سنتی طول سبیل اشتباه نشود.

نمودارهای ارزش حرف

همانطور که توسط Hofmann، Kafadar و Wickham توسعه داده شده است، نمودارهای ارزش حرفی بسط نمودار جعبه استاندارد هستند. نمودارهای ارزش حرفی از کادرهای متعدد برای محصور کردن نسبت‌های بزرگ‌تر از مجموعه داده استفاده می‌کنند. جعبه اول هنوز 50٪ مرکزی را پوشش می دهد و جعبه دوم از اولی گسترش می یابد تا نیمی از منطقه باقی مانده را پوشش دهد (به طور کلی 75٪، 12. 5٪ در هر انتها باقی مانده است). کادر سوم نیمی دیگر از ناحیه باقیمانده را پوشش می دهد (در کل 87. 5٪، 6. 25٪ در هر انتها باقی مانده است) و به همین ترتیب تا زمانی که روش به پایان برسد و نقاط باقیمانده به عنوان نقاط پرت مشخص شوند.

Each box in a letter value plot captures half of the remaining data points.

نمودار ارزش حرف با این واقعیت ایجاد می شود که وقتی داده های بیشتری جمع آوری می شود، تخمین های پایدارتری از دنباله ها می توان انجام داد. علاوه بر این، نقاط داده بیشتر به این معنی است که تعداد بیشتری از آنها به عنوان نقاط پرت برچسب گذاری می شوند، چه قانونی یا غیر قانونی. در حالی که نمودار حرف-مقدار هنوز تا حدودی در نشان دادن برخی جزئیات توزیعی مانند مدالیته وجود ندارد، می‌تواند روش دقیق‌تری برای مقایسه بین گروه‌ها زمانی که داده‌های زیادی در دسترس است باشد.

توطئه های مرتبط

هیستوگرام

همانطور که در بالا ذکر شد، زمانی که می خواهید توزیع یک گروه را تنها رسم کنید، توصیه می شود به جای نمودار جعبه ای از هیستوگرام استفاده کنید. در حالی که یک هیستوگرام شامل نشانه های مستقیم چارک ها مانند نمودار جعبه نمی شود، اطلاعات اضافی در مورد شکل توزیع اغلب یک معاوضه ارزشمند است.

با دو یا چند گروه ، هیستوگرام های متعدد را می توان در ستونی مانند طرح جعبه افقی جمع کرد. با این حال ، توجه داشته باشید که هرچه گروه های بیشتری باید ترسیم شوند ، به طور فزاینده ای پر سر و صدا می شود و شکل دادن به شکل هیستوگرام هر گروه دشوار خواهد بود. علاوه بر این ، فقدان علائم آماری می تواند مقایسه ای بین گروه ها را برای انجام انجام دهد. به همین دلایل ، خلاصه های طرح جعبه می تواند به منظور مقایسه مقایسه بین گروه ها ارجح باشد.

Side-by-side comparison of faceted histogram and box plot.

نقشه ویولن

یکی از گزینه های جایگزین برای طرح جعبه ، طرح ویولن است. در یک طرح ویولن ، توزیع هر گروه توسط یک منحنی چگالی نشان داده شده است. در یک منحنی چگالی ، هر نقطه داده مانند یک هیستوگرام در یک سطل واحد قرار نمی گیرد ، بلکه در عوض حجم کمی از منطقه را به توزیع کل کمک می کند. توطئه های ویولن یک روش جمع و جور برای مقایسه توزیع بین گروه ها است. غالباً ، علائم اضافی به طرح ویولن اضافه می شود تا اطلاعات نقشه استاندارد جعبه را نیز ارائه دهد ، اما این می تواند طرح حاصل از خواندن را به وجود آورد.

Side-by-side comparison of box plot and violin plot.

ابزارهای تجسم

بسته به بسته تجسم مورد استفاده شما ، طرح جعبه ممکن است یک گزینه اصلی نمودار موجود در دسترس نباشد. حتی هنگامی که می توان توطئه های جعبه را ایجاد کرد ، گزینه های پیشرفته مانند اضافه کردن شکاف یا تغییر تعاریف ویسکر همیشه امکان پذیر نیست. با این حال ، حتی ساده ترین توطئه های جعبه هنوز هم می تواند یک روش خوب برای انتقال سریع به عناصر اساسی باشد تا سریع داده های شما را درک کند.

طرح جعبه یکی از انواع مختلف نمودارهای مختلف است که می تواند برای تجسم داده ها مورد استفاده قرار گیرد. از مقالات ما در مورد انواع نمودار ضروری ، نحوه انتخاب یک نوع تجسم داده یا با مرور مجموعه کامل مقالات در دسته نمودارها ، بیشتر بدانید.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.