مقدمه
در این نوشتار ما روش‌های انتخاب کرنل را به دو دسته: 1. آگاهانه 2. نا آگاهانه تقسیم می‌کنیم. منظور از انتخاب آگاهانه، طراحی یا انتخاب یک کرنل سازگار با ویژگی‌های استخراج شده برای داده است. یکی از روش‌های دسته ناآگاهانه شامل استفاده از روش‌های مجموعه ارزیاب برای انخاب کرنل مناسب یا تنظیم پارامترها ‌می‌باشد. در این روش مدل SVM را با استفاده از کرنل‌ها یا پارامترهای مختلف آموزش می‌دهند و هرکدام از پارامترها یا کرنل‌ها که دقت بهتری روی مجموعه داده ارزیاب داشته ‌باشد به عنوان پارامتر و کرنل بهینه انتخاب می‌شوند. روش‌های نوین شامل ترکیب وزن‌دار کرنل‌های مختلف و یادگیری مقدار بهینه این وزنه‌ها برای بالا بردن دقت مدل دسته بند است. این مدل‌ها بر پایه این اصل ابتدایی که مجموع و یا ضرب وزن‌دار کرنل‌های معتبر، معتبر می‌باشند پایه‌گذاری شده‌اند و در سال‌های اخیر تحت عنوان Multiple Kernel Learning و یا نام‌های مشابه مورد توجه ‌قرار گرفته‌اند. با توجه به تحقیقات انجام‌شده برای تنظیم پارامتر بهینه مثل ضریب تنظیم‌گر c در مدل Soft-SVM و یا طول پنجره گوسی در کرنل گوسی در تقریبا همه پژوهش‌ها با استفاده از روش‌های مجموعه ارزیاب (و یا روش‌های k-fold Cross Validation) انجام شده است.

 1) مفهوم هسته
ضرب داخلی ساده در یک فضای برداری می‌تواند نشان‌دهنده شباهت بین داده‌ها باشد. کرنلها توسعه‌یافته ضرب داخلی داده‌ها می‌باشند که در یک فضای تبدیل یافته محاسبه می‌شود. معادل با هر هسته معتبر یک فضای هیلبرت فرآورنده هسته (RKHS) موجود است:

1

بردارهای x و y تحت نگاشت(.)ϕ قرارگرفته‌اند و در فضای جدید ضرب داخلی محاسبه ‌شده است. کرنلها خواص غیرخطی‌سازی دارند، برای مثال فضای معادل با هسته گوسی دارای ویژگی‌های غیرخطی از فضای اولیه است. در مسئله‌ی با داده‌های چندگونه فرض می‌کنیم برای هر گونه یک هسته مجزا داریم، که نشان‌دهنده شباهت دو داده از منظر آن گونه است:

2

2) انتخاب آگاهانه کرنل با استفاده از جنس فضای ویژگی
همانطور که اشاره شده کرنل یک معیار شباهت بین داده‌هاست. در هر نوع داده‌ای مثل داده‌های از جنس محل پیوند مولکول‌ها می‌توان بر اساس ویژگی‌های دامنه مورد نظر یک کرنل مناسب تعریف کرد و از ماتریس کرنل داده‌های آموزش که با هر روش ممکن به دست آمده است یک مدل ماشین بردار پشتیبان را آموزش داد. برای مثال پژوهشگران در [1] ابتدا یک روش استخراج ویژگی برای حوزه تصاویر ارایه داده‌اند و سپس بر اساس ذات و مفهوم ویژگی‌های استخراج شده یک کرنل ارایه داده‌اند. آنها برای هر سطح در روش هرمی خود یک کرنل متمایز ارایه کرده‌اند که اطلاعات مشترک از ویژگی‌های استخراج شده از سطح پایین‌تر را به صورت تکراری حساب نکند:

3

و سپس کرنل نهایی را از ترکیب کرنل‌های هر سطح محاسبه می‌کنند:

4

روش مطرح شده در این مقاله که به همراه SVM در دسته‌بندی تصاویر کاربرد دارد، یکی از روش‌های مطرح در پردازش تصویر است. از کرنل به دست آمده برای آموزش مدل SVM استفاده می‌کنند.
ترکیب کرنل‌ها
از ترکیب کرنل‌ها به دو هدف استفاده می‌شود: 1. فرض کنید از یک داده تصویر دو گونه ویژگی مختلف یکی بر اساس هیستوگرام رنگ و یکی مثلا با روش SIFT استخراج شده، در این حالت بهتر است روی هرکدام از این ویژگی‌ها جدا گانه کرنل زد و نتایج را با هم ادغام کرد. 2. روی یک گونه ویژگی مثلا هیستوگرام رنگ انواع کرنل مثل گوسی و چندجمله ای بزنیم و نتایج را با هم ترکیب کنیم.
3) ترکیب وزن‌دار کرنل‌ها
ساده‌ترین راه ترکیب کرنلهای مختلف برای رسیدن به یک هسته واحد، جمع بدون وزن آن‌هاست:

5

لازم به ذکر است که جمع کرنلهای معتبر (یا همان مثبت نیمه-معین )، معتبر است. هسته بالا معادل با الحاق فضاهای معادل با کرنلها است:

6

بنابراین با این رویکرد ساده، تنها کاری که برای ادغام گونه‌ها انجام شده است ادغام زودهنگام گونه‌ها است. حال فرض کنید که کرنلها را به‌صورت وزن‌دار باهم ترکیب کنیم:

7

همان‌طور که در رابطه بالا مشاهده می‌شود روش ترکیب وزن‌دار کرنلها ( MKC) معادل با این است که برای هر گونه وزن خاصی فرابگیریم و درواقع مشکل مقیاس در هر گونه در فضای هسته رفع می‌شود. باید توجه داشت که جمع وزن‌دار کرنلها با هر وزنی نمی‌تواند هسته معتبر باشد. یک شرط کافی برای وزن‌ها این است که وزن‌ها مثبت باشند. در این صورت جمع وزن‌دار کرنلها، مثبت نیمه معین می ‌شود [2-3].

8

پژوهشگران در [2-3] وزن‌ها را در چهارچوب نظارتی با استفاده از فرم مبتنی بر هسته ماشین بردار پشتیبان با حاشیه نرم در کنار پارامترهای وزن ماشین بردار پشتیبان، آموزش داده‌اند. معمولاً رویکردهای ترکیب کرنلها مبتنی بر نظارت هستند و نمی‌توانند به صورت غیرنظارتی برای انتقال فضای ویژگی گونه‌ها به یک فضای جدید به کار روند. پژوهشگران در [2] چندین آزمایش را برای بررسی ترکیب کرنلها مدنظر قرار داده‌اند. برای مثال در یک آزمایش به دنبال ترکیب مناسب کرنلهای مختلف چندجمله‌ای، گوسی و خطی روی یک گونه، به‌منظور استفاده از هسته ترکیبی در ماشین بردار پشتیبان بوده‌اند. در چندین آزمایش نیز ترکیب داده‌های با منابع ناهمگون چندگونه را با استفاده از این ایده انجام داده‌اند و برای هر گونه کرنلهای مجزا اعمال کرده‌اند.
بر مبنای همین ایده، روش‌های غیرخطی برای ترکیب وزن‌دار کرنلها نیز وجود دارد [4]، اما همه آن‌ها را می‌توان از دسته روش‌های ادغام دیرهنگام گونه‌ها دانست. درواقع این روش‌ها نقشی در انتقال ویژگی گونه‌ها ندارند و فقط سعی در ترکیب مناسب پیش‌بینی‌های هر گونه دارند. روش‌های غیرخطی نیز برای ترکیب کرنلها وجود دارند. برای مثال پژوهشگران در [4] ترکیب چندجمله‌ای را ارائه داده‌اند.
4) روش‌های مجموعه ارزیاب
استفاده از یک مجموعه محک (ارزیاب یا Validation) برای انتخاب پارامترهای اولیه یک مساله بهینه‌سازی مثل ماشین بردار پشتیبان یک روش معمول در همه مسایل بهینه‌سازی می‌باشد [5-6]. در این پژوهش‌ها برای مثال 20 مقدار بین مقادیر 0.001 تا 10000 را برای پارامتر C در دسته‌بند ماشین‌بردار پشتیبان در نظر می‌گیرند. سپس این 20 مدل SVM را با استفاده از داده‌های آموزش، آموزش می‌دهند. از قبل مقداری داده مستقل از آموزش را به عنوان مموعه ارزیاب کنار گذاشته‌اند. دقت دسته‌بندی این 20 مدل را روی این مجموعه ارزیاب حساب می‌کنند و پارامتر بهینه را انتخاب می‌کنند. سپس اگر داده بیشتری در اختیار داشته باشند و یا با استفاده از داده‌های آموزش + داده‌های ارزیاب مدل را قوی تر اموزش می‌دهند و در صورت نیاز دقت داده‌های آزمون را روی این مدل گزارش می‌کنند.

[1] Lazebnik, Svetlana, Cordelia Schmid, and Jean Ponce. "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories." Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.
[2] Lanckriet, Gert RG, Nello Cristianini, Peter Bartlett, Laurent El Ghaoui, and Michael I. Jordan. 2004. "Learning the kernel matrix with semidefinite programming." The Journal of Machine Learning Research 5: 27-72.
[3] Sonnenburg, Sören, Gunnar Rätsch, Christin Schäfer, and Bernhard Schölkopf. 2006. "Large scale multiple kernel learning." The Journal of Machine Learning Research 7: 1531-1565.
[4] Cortes, Corinna, Mehryar Mohri, and Afshin Rostamizadeh. 2009. "Learning non-linear combinations of kernels." Advances in Neural Information Processing Systems 22 396-404.
[5] Wen, Zeyi, Rui Zhang, Kotagiri Ramamohanarao, Jianzhong Qi, and Kerry Taylor. "MASCOT: Fast and Highly Scalable SVM Cross-validation using GPUs and SSDs." In IEEE ICDM. 2014.
[6] Meyer, David, and FH Technikum Wien. "Support vector machines." The Interface to libsvm in package e1071 (2014).
[7] Niculescu-Mizil, Alexandru, Abhishek Kumar, and Koray Kavukcuoglu. "Two-stage multiple kernel learning method." U.S. Patent 8,838,508, issued September 16, 2014.
[8] Chen, Zhen-Yu, Zhi-Ping Fan, and Minghe Sun. "A hierarchical multiple kernel support vector machine for customer churn prediction using longitudinal behavioral data." European Journal of Operational Research 223, no. 2 (2012): 461-472.