اعتبارسنجی متقابل، یک روش ارزیابی مدل است که تعیین مینماید نتایج یک تحلیل آماری بر روی یک مجموعهداده تا چه اندازه قابل تعمیم و مستقل از دادههای آموزشی است. این روش بهطور ویژه در کاربردهای پیشبینی مورد استفاده قرار میگیرد تا مشخص شود مدل موردنظر تا چه اندازه در عمل مفید خواهد بود. بهطور کلی یک دور از اعتبارسنجی ضربدری شامل افراز دادهها به دو زیرمجموعه مکمل، انجام تحلیل بر روی یکی از آن زیرمجموعهها (دادههای آموزشی) و اعتبارسنجی تحلیل با استفاده از دادههای مجموعه دیگر است (دادههای اعتبارسنجی یا آزمایش). برای کاهش پراکندگی، عمل اعتبارسنجی چندین بار با افرازهای مختلف انجام و از نتایج اعتبارسنجیها میانگین گرفته میشود. در اعتبارسنجی متقابل K لایه، دادهها به K زیرمجموعه افراز میشوند. از این K زیرمجموعه، هر بار یکی برای اعتبارسنجی و K-1 تای دیگر برای آموزش بکار میروند. این روال K بار تکرار میشود و همه دادهها دقیقاً یک بار برای آموزش و یک بار برای اعتبارسنجی بکار میروند. در نهایت میانگین نتیجه این K بار اعتبارسنجی بهعنوان یک تخمین نهایی برگزیده میشود. بهطور معمول از روش اعتبارسنجی پنج لایه یا ده لایه در پژوهشهای مدلسازی و پیشبینی استفاده میشود.
فرض کنید ما یک مدل با یک یا چند پارامتر ناشناخته داریم و یک مجموعهداده که مدل مناسب است (مدل آموزشی). اگر ما یک نمونه مستقل از دادههای اعتبارسنجی از همان جمعیت را بهعنوان دادههای آموزش در نظر بگیریم، بهطور کلی معلوم میشود که این مدل دادههای اعتبارسنجی متناسب با دادههای آموزش نیست. اندازه این تفاوت احتمالاً بزرگ است، بهخصوص اگر اندازه مجموعهدادههای آموزشی کوچک باشد یا زمانی که تعداد پارامترهای موجود در مدل بزرگ باشد. اعتبارسنجی متقابل یک راه برای برآورد اندازه این اثر است. در رگرسیون خطی، مقادیر پاسخ واقعی و n تا بردار p بعدی واریانس را داریم. اجزای هر بردار بهصورت است. اگر ما از کمترین مربعات برای متناسبسازی یک تابع بهصورت ابرصفحهٔ به دادههای استفاده کنیم، در واقع از خطای میانگین مربعات استفاده کردهایم. این خطا برای پارامتر تخمین زدهشده a بهصورت زیر است:
اگر مدل بهدرستی مشخص شده باشد میتوان آن را در زیر فرضهای خفیف نشان داد، که ارزش مورد انتظار MSE برای مجموعه آموزشی است؛ بنابراین اگر ما مدل را محاسبه کنیم و محاسبات MSE را بر روی مجموعه آموزش انجام دهیم، ما یک ارزیابی دارای اریبی و محرمانه از اینکه چگونه مدل یک مجموعهداده مستقل مناسب خواهد بود، دریافت خواهیم کرد. تخمین اریبی شده را در برآورد نمونه (به انگلیسی: in-sample estimate) از تناسب مینامند، در حالی که اعتبارسنجی متقابل یک برآورد غیر نمونه است.
دو نوع متقابل اعتبارسنجی متمایز موجود است، اعتبارسنجی جامع و غیر جامع.
روشهای اعتبارسنجی جامع روشهای اعتبارسنجی متقابل هستند که تمام روشهای ممکن برای تقسیم نمونه اصلی را به یک آموزش و یک مجموعه اعتبارسنجی آزمایش میکنند.
x (بردار طول N با مقادیر x - مقدار نقاط داده)
y (بردار طول N با مقادیر y از نقاط داده)
err (تخمین خطای پیشبینی)
err ← ۰
برای i ← 1,... , N
تعریف زیرمجموعههایی که اعتبارسنجی را تعریف کنید:
x_in ← (x[1],... , x[i − 1], x[i + 1],... , x[N])
y_in ← (y[1],... , y[i − 1], y[i + 1],... , y[N]
x_out ← x[i]
(x_in, y_in, x_out, y_out)
err ← err + (y[i] − y_out)^2
end for
err ← err/N
روشهای اعتبارسنجی فراگیر، تمام روشهای تقسیم نمونه اصلی را محاسبه نمیکنند. این روشها تقریبهایی از اعتبارسنجی متقابل را نشان میدهند.
این روش که بهعنوان اعتبارسنجی مونتکارلو شناخته میشود، دادهها را بهطور تصادفی به آموزش و اعتبارسنجی تقسیم میکند. برای هر کدام از این تفکیک، مدل متناسب با دادههای آموزشی است، و دقت پیشبینی با استفاده از دادههای اعتبارسنجی ارزیابی میشود. نتایج پس از آن تقسیم میشود. مزیت این روش این است که نسبت بخش آموزش / اعتبارسنجی به تعداد تکرارها بستگی ندارد. عیب این روش این است که برخی از مشاهدات ممکن است هرگز در اعتبارسنجی زیرنمونه انتخاب نشوند، در حالی که برخی دیگر ممکن است بیش از یک بار انتخاب شوند. به عبارت دیگر، اعتبار مجموعهها ممکن است همپوشانی داشته باشند. این روش همچنین تغییر مونتکارلو را نشان میدهد، به این معنی که اگر تحلیل با تقسیم تصادفی متفاوتی تکرار شود، نتایج تغییر خواهند کرد. همانطور که تعداد تقسیم تصادفی به بینهایت نزدیک میشود، نتیجه اعتبارسنجی نمونهگیری تصادفی تکرارشونده به سمت اعتبارسنجی متقابل از متمایل میشود. در یک نوع لایهای از این روش، نمونههای تصادفی بهگونهای تولید میشوند که مقدار پاسخ میانگین (یعنی متغیر وابسته در رگرسیون) در مجموعه آموزشی و آزمایش برابر است.
هدف از اعتبارسنجی، تخمین سطح مورد انتظار تناسب یک مدل به مجموعهداده است که مستقل از دادههایی است که برای آموزش مدل به کار رفتهاست. این روش میتواند برای تخمین هر نوع اندازهگیری کمی مناسب که برای دادهها و مدل مناسب است، استفاده شود. برای مثال، برای مشکلات طبقهبندی دوتایی(به انگلیسی: Binary classification)، هر مورد در مجموعه اعتبارسنجی بهدرستی یا نادرستی پیشبینی میشود. در این شرایط نرخ خطای طبقهبندی را میتوان برای خلاصه کردن تناسب مورد استفاده قرار داد، اگرچه اقدامات دیگری مانند ارزش پیشبینیکننده مثبت نیز میتواند مورد استفاده قرار گیرد. هنگامی که مقدار پیشبینیشده بهطور پیوسته توزیع میشود، خطای میانگین مربعات، خطای جذر میانگین مربعات یا میانه قدر مطلق انحراف میتواند برای خلاصه کردن خطاها به کار رود.
فرض کنید که ما یک معیار برای ترکیب F را انتخاب کرده و از اعتبارسنجی متقابل برای تولید برآوردی از یک مدل دادههای مستقل تنظیمشده از همان جمعیت بهعنوان دادههای آموزشی استفاده کنیم. اگر ما یک مجموعه آموزشی مستقل چندگانه را پس از توزیع یکسان تصور کنیم مقادیر حاصله برای تغییر خواهد کرد. خواص آماری از این تنوع حاصل میشود. برآوردکننده اعتبارسنجی (F) تقریباً بدون اریبی برای EF است. دلیل اینکه کمی دارای اریبی است این است که مجموعه آموزشی در اعتبارسنجی متقابل کمی کوچکتر از مجموعهداده واقعی است. در تقریباً تمام شرایط، تأثیر این اریبی در این حالت محافظهکارانه خواهد بود که تناسب برآورد شده کمی در جهت پیشنهاد تناسب ضعیف متمایل خواهد بود. در عمل، این اریبی بهندرت یک نگرانی محسوب میشود. واریانس میتواند بزرگ باشد. به همین دلیل، اگر دو روش آماری بر اساس نتایج اعتبارسنجی مقایسه شود، مهم است که توجه داشته باشید که روش با عملکرد برآورد بهتر، در واقع بهتر از دو روش دیگر نیست. برخی از پیشرفت در ایجاد فاصلههای اطمینان حول برآوردهای اعتبارسنجی متقابل انجام شدهاست، اما این مسئله یک مشکل دشوار در نظر گرفته میشود.
اکثر فرمهای اعتبارسنجی متقابل، تا زمانی که اجرای روش پیشبینی مورد مطالعه موجود باشد، آسان است. بهطور خاص، روش پیشبینی میتواند یک " جعبه سیاه " باشد - نیازی به دسترسی داخلی به اجرای آن نیست. اگر روش پیشبینی هزینهبر باشد، اعتبارسنجی متقابل میتواند بسیار کند باشد چون آموزش باید بهطور مکرر انجام شود. در برخی موارد از جمله کمترین مربعات و رگرسیون هسته ، اعتبارسنجی متقابل میتواند بهطور قابلتوجهی با استفاده از مقادیر خاص از قبل محاسبه شود که در آموزش یا با استفاده از قواعد روزآمدسازی سریع مانند فرمول شرمن-موریسون نیز مورد نیاز هستند. با این حال باید مراقب باشید که "کل خیره شدن" مجموعه اعتبارسنجی از روش آموزش حفظ شود، در غیر این صورت ممکن است منجر به اریبی شود.
اگر اعتبارسنجی و مجموعه آموزشی از همان جمعیت کشیده شوند و تنها در صورتی که تعصبات انسانی کنترل شوند، اعتبارسنجی تنها نتایج معنیدار به دست میدهد. در بسیاری از کاربردهای مدلسازی پیشگویانه، ساختار سیستم مورد مطالعه در طول زمان تکامل مییابد. هر دو اینها میتوانند تفاوتهای سیستماتیک بین آموزش و مجموعههای اعتبارسنجی را معرفی کنند. بهعنوان مثال، اگر مدلی برای پیشبینی ارزشهای سهام برای یک دوره پنجساله خاص آموزش داده شود، برای درمان دوره پنجساله بعدی بهعنوان یک رسم از همان جمعیت غیر واقعی است. بهعنوان مثال دیگر، فرض کنید یک مدل برای پیشبینی خطر فرد برای تشخیص بیماری خاص در سال آینده داده شدهاست. اگر مدل با استفاده از داده از یک مطالعه شامل تنها یک گروه خاص جمعیت آموزشدیده باشد (بهعنوان مثال جوانان یا مذکر)، اما بعد از آن برای جمعیت عمومی اعمال میشود، اعتبارسنجی متقابل از مجموعه آموزشی میتواند تا حد زیادی از عملکرد پیشبینیکننده واقعی متفاوت باشد. در بسیاری از کاربردها، مدلها نیز ممکن است بهطور نادرستی مشخص بوده و بهعنوان تابعی از تعصبات و/ یا انتخابهای دلخواه متفاوت باشند. هنگامی که این اتفاق رخ میدهد، ممکن است این توهم باشد که سیستم در نمونههای خارجی تغییر میکند، در حالی که دلیل آن این است که مدل یک پیشبینیکننده انتقادی را از دست دادهاست و / یا یک پیشگویی اشتباه است. شواهد جدید این است که اعتبارسنجی متقابل به خودی خود دارای اعتبار بیرونی نیست، در حالی که یک شکل از اعتبارسنجی تجربی شناختهشده بهعنوان نمونهگیری جایگزین که کنترل خطای انسانی را کنترل میکند، میتواند پیشبینیکننده بیشتری از اعتبار خارجی باشد. دلیل موفقیت نمونهگیری جابهجایی یک کنترل داخلی ساختهشده برای اریبی انسانی در ساخت مدل است.
در ادامه روشهای دیگری که اعتبارسنجی را مورد سوءاستفاده قرار میدهد بیان میکنیم:
از آنجا که ترتیب دادهها مهم است، اعتبارسنجی متقابل ممکن است برای مدلهای سریهای زمانی مشکلساز باشد. یک رویکرد مناسب میتواند استفاده از زنجیرهسازی جلوسو باشد.
اعتبار متقابل را میتوان برای مقایسه عملکرد رویههای مدلسازی پیشگویانه مختلف مورد استفاده قرار داد. برای مثال، فرض کنید که ما به نویسهخوان نوری علاقهمند هستیم و ما در حال بررسی استفاده از هر دو ماشین بردار پشتیبانی و الگوریتم نزدیکترین همسایگان k هستیم. با استفاده از اعتبارسنجی متقابل، میتوانیم این دو روش را بهصورت دقیق مقایسه کنیم. اگر ما روشهای مبتنی بر نرخ خطای نمونه آنها را مقایسه کنیم، به نظر میرسد روش KNN بهتر عمل کند. اعتبارسنجی متقابل نیز میتواند در انتخاب متغیر استفاده شود. فرض کنید که ما از سطوح بیان ۲۰ پروتئین برای پیشبینی اینکه آیا یک بیمار سرطانی به یک دارو واکنش نشان میدهد یا خیر استفاده میکنیم. یک هدف عملی تعیین این است که کدام زیرمجموعه از ۲۰ ویژگی باید برای تولید بهترین مدل پیشبینی استفاده شود. برای اکثر روشهای مدلسازی، اگر ما از زیرمجموعههای ویژگی با استفاده از نرخ خطا در نمونه مقایسه کنیم، بهترین عملکرد زمانی رخ خواهد داد که تمام ۲۰ ویژگی استفاده شود. با این حال تحت اعتبار متقابل، مدل با بهترین تناسب، بهطور کلی شامل یک زیرمجموعه از ویژگیهایی است که واقعاً مفید هستند.