ردهبندی بیزی
برای تأییدپذیری کامل این مقاله به منابع بیشتری نیاز است. (اکتبر ۲۰۱۷) |
مبنای رده بندی در الگوریتم بیزین (به انگلیسی: Bayes classifier) ، احتمالات است. در واقع ردهبندی بیزین چیزی جز احتمالات شرطی نیست. اما ویژگی بسیار مثبت الگوریتم بیز، این است که امکان اثبات بهینگی دارد. به عبارت دقیقتر اگر اعتبار اطلاعات ورودی به این الگوریتم، که برای ردهبندی مورد استفاده قرار میگیرند، ۱۰۰ % باشد، می توان اثبات کرد که بیز، در مقایسه با روشهای دیگر، بهترین رده بندی را ارائه میکند.[۱]
عوامل ردهبندی
[ویرایش]در نظریه بیز، دو عامل نقش تعیین کنندهای در رده بندی دارند:
- دانش اولیه در خصوص تعلق نمونهها به ردههای مختلف،
- احتمال قرارگیری یک نمونه در یک رده مشخص، به شرط مشاهده بعضی ویژگیهای آن نمونه(احتمال شرطی).
دانش اولیه
[ویرایش]در روش بیزین، دانش اولیه نقش مهمی در رده بندی دارد.
منظور از دانش اولیه چیست به عنوان مثال فرض کنید از ما سؤال شود ماشینی که در خیابان پارک شده، سواری است یا باری؟ اگر خودرو مذکور را دیده باشیم که طبیعتاً یک پاسخ قطعی به سؤال مذکور خواهیم داد. اما اگر آن خودرو را ندیده باشیم، یک پاسخ احتمال پذیر به سؤال خواهیم داد. ولی در ارائه پاسخ احتمالپذیرمان، به این نکته توجه خواهیم داشت که در منطقهای که قرار داریم، آیا سواریها بیشترند یا باری ها؟ به عنوان مثال اگر محل استقرار، در دانشگاه باشد، طبیعتاً انتظار داریم که در محوطه دانشگاه خودرو سواری پارک شده باشد و نه خودرو باری. به عبارتی، در صورتی که پاسخ به سؤال اولیه، خودرو سواری باشد، احتمال صحت پاسخ بیشتر است تا این که پاسخ، خودرو باری باشد. این احتمال پیشین مینامیم. بدیهی است که دامنه رخداد،(به انگلیسی: A priori knowledge:APK) را دانش اولیهاست.
لذا تعیین احتمال تعلق یک نمونه به یک رده، پیش از هر نوع مشاهدهای، میبایست با دقت صورت بگیرد تا ردهبندی بیز به یک ردهبندی بهینه نزدیک شود.
احتمال شرطی
[ویرایش]اما منظور از احتمال شرطی چیست؟ فرض کنید در مثال بالا، طول خودرو نیز اندازه گیری شده باشد. به عنوان مثال ذکر شود که طول خودرو ۴ متر است. حال سؤالی به این صورت مطرح خواهد شد: طول ماشینی ۴ متر است، آیا آن ماشین، سواری است یا باری؟ بدیهی است برای پاسخ به این سؤال، باید اطلاعاتی از پیش موجود باشد. مثلاً، فرض کنید ابتدا طول ۱۰۰۰ خودرو اندازه گیری شدهاست. از این بین، طول ۱۰۰ خودرو حدود ۴ متر بودهاست، و از بین این ۱۰۰ خودرو، ۸۰ دستگاه، سواری بودهاند. در این صورت اگر در پاسخ به سؤال فوق، ذکر شود که خودرو، سواری است، احتمال صحت پاسخ ۸۰ % خواهد بود، و در صورت ارائه پاسخی به این صورت که خودرو، باری است، احتمال صحت پاسخ، ۲۰ % خواهد بود. بنابراین، در این مثال و صرفاً بر مبنای احتمالات شرطی، می توان فضای تصمیم، و در واقع فضای رده بندی را به دو زیر فضای سواری و باری افراز کرد. در شکل ۲-الف، این افراز در حالتی که توزیع احتمال شرطی، گوسی باشد، نمایش داده شدهاست. در این شکل، فضای تصمیم به دو زیر فضای رده ۱ و رده ۲ تقسیم شدهاست. به عنوان نمونه اگر در مثال بالا، خودرو سواری را به عنوان رده ۱ و خودرو باری را نمایش دهیم، احتمال سواری x به عنوان رده ۲ در نظر بگیریم، و طول خودرو را با P(w2|x) را با x و احتمال باری بودن به شرط طول،P(w1|x) را با x بودن به شرط طول نمایش میدهند و شروط زیر نیز صادق خواهد بود:
P(w1|x)+ P(w2|x)=۱ (۳)
If P(w1|x)> P(w2|x) تصمیم بهینهاست w1
If P(w (4) 2|x)> P(w1|x) تصمیم بهینهاست w2
احتمال (،P(w1|x) در مواقعی تصمیم به تعلق یک نمونه در رده ۱ گرفته میشود که از نمونه مشاهده شده باشد. x تصمیم تعلق نمونه به رده ۱، در صورتی که ویژگی بزرگ تر باشد. برای روشن شدن مطلب، زیر فضای P(w2|x) احتمال شرطی(، از نمایش داده شدهاست. در شکل R و زیر فضای تصمیم رده ۲ با 2 R! تصمیم رده ۱ با -۲ ب، نیز این افراز در حالتی که توزیع احتمال شرطی، گوسی نباشد، نمایش داده شدهاست. بدیهی است نوع تصمیم گیری در حالتی که توزیع گوسی نیست، با حالت پیشین هیچ تفاوتی نخواهد کرد. در شکل ۳ نیز، مثالی از توالی فضاهای رده بندی ارائه شدهاست. در این شکل و طی حرکت از چپ به راست ترتیب فضاهای تصمیم به این .)W1(و رده 1)W2(رده 2،)W1(رده 1،)W2(صورت خواهد بود: رده ۲ در رده بندی بیز، دانش اولیه و احتمال شرطی، توأمان در رده بندی نقش بازی میکنند و رابطه نهایی رده بندی، که در اینجا به دلیل محدودیت صفحات مقاله، از اثبات آن.[۲]، خودداری میشود، به صورت زیر خواهد بود.
If P(x| w1)×P(w1)> P(x| w2) ×P(wتصمیم بهینهاست 2 w1 (5)
If P(x| w2) ×P(w2)> P(x| w1) ×P(w1تصمیم بهینهاست (w2
طبیعتاً، در صورتی پاسخ رده بندی بهینه تر خواهد بود که هم دانش اولیه و هم احتمال شرطی، به واقعیت نزدیک تر باشند.
امکان گردآوری ویژگیهای متعدد
[ویرایش]از دیگر نکات مهم در رده بندی بیز، امکان گردآوری ویژگیهای متعدد از یک شیء یا پدیدهاست، به گونهای که کل این ویژگیها نیز بتوانند در رده بندی شرکت کنند.