به نام خدا

جایی برای یادگیری ماشین

این جا محلی است برای بحث در مسائل یادگیری ماشین.

جایی برای یادگیری ماشین

این جا محلی است برای بحث در مسائل یادگیری ماشین.

جایی برای یادگیری ماشین

این وبلاگ بر آن است تا محلی باشد برای بحث های نظری یا کاربردی مفید در یادگیری ماشین. جایی برای یاد دادن و یاد گرفتن؛ برای نشر ساده تر؛ برای نظر دادن و کاربردی کردن آن چه می دانیم!

۱ مطلب با کلمه‌ی کلیدی «over-fitting» ثبت شده است

با چند تا از بچه ها داریم کتاب بیشاپ رو میخونیم.
اگه سوال یا نکته جالی پیش اومد اینجا می نویسیم و در موردش بحث می کنیم.
این کتاب عنوانش «تشخیص الگو و یادگیری ماشین» (pattern recognition and machine leaning) . یه کتاب کلاسیک «یادگیری ماشین» هستش که تو خیلی از دانشگاه تدریس میشه. نویسندش کریستوفر بیشاپ (christopher bishop) محقق در آزمایشگاه تحقیقاتی مایکروسافت هستش.

در مورد فصل اول بیشاپ چند تا نکته و سوال به ذهنم رسیده. خودم یه جوابایی براشون دارم اما مطمئن نیستم. می تونیم راجع به شون بحث کنیم در کامنت ها:
۱- صفحه ۹ پاراگراف اول گفته که وقتی پیچیدگی مدل زیاد باشه مدل سعی میکنه خودش رو با نویز تطابق بده و اونها رو هم توجیه کنه و این باعث نوسانات و شکل غیریکنواخت  خم ما میشه. حالا سوال اینجاست که اگه داده ها نویزی نباشن و کاملا از (sin(2\pi x تولید شده باشن اون وقت با M زیاد آیا همین جوری نوسانی نخواهد شد؟ (یعنی میخوام بگم نوسانات زیاد به خاطر نویز نیست بلکه به خاطر پیچیدگی بالاست)
کسی حالش رو داره پیاده سازی کنه؟

۲- روند معرفی ایده ها رو در یک نگاه  ببینید. خیلی جالبه:
الف) اول یه مدل یادگیری برای رگرسیون به صورت کمینه کردن مجموع مربعات خطا.
ب) مشکل overfitting برای این مدل ساده
پ) حل مشکل overfiting به کمک منظم سازی (regularization)
ت)‌ معرفی مدل احتمالی که به یه خم چندجمله ای بالا یه نویز گاوسی اضافه شده. این معادل حالت الف میشه. یعنی رگرسیون با کمینه کردن خطا.
ث) اضافه کردن یک احتمال پیشین به ضرایب چند جمله ای که معادل حالت منظم سازی شده میشه.
ت) تا الآن در دو مدل فوق یک تخمین نقطه ای از ضرایب به دست می یومد و سپس از این تخمین برای پیش بینی نقطه ی جدید استفاده میشد. در روش بیزی کامل بعد از اینکه احتمال پسین ضرایب به دست اومد با استفاده از  قوانین جمع و ضرب احتمال مقدار خروجی برای ورودی جدید رو به صورت جمع وزندار مقدار خروجی با وزنی متناسب با احتمال رخداد ضرایب حساب میشه.

۳-روش بیزین یه روش سیستماتیک و منطبق بر داده هاست برای جلوگیری از overfitting و انتخاب مدل. در منظم سازی احتیاج به cross validation یا روش های مشابه داریم تا پارامتر منظم سازی مناسب رو انتخاب کنیم. ظاهرا در روش بیزی این کار به طور خودکار و به صورت کاملا وابسته به داده ها صورت میگیره. احتمالا در فصل سه در این مورد بیشتر صحبت میکنه. نه؟
کسی میدونه چرا روش بیزی انتخاب مدل و جلوگیری از overfitting رو با تکیه بر خود داده ها انجام میده؟

۴-  صفحه ۲۷ پاراگراف بزرگ وسط صفحه ادعا میکنه که : اریب بودن (bias)  تخمین واریانس در در  روش تمایل بیشینگی! (maximum likelihood) رابطه داره با over-fitting . نظر شما چیه ؟

۵- مشکل بعد بالا رو خیلی جالب مطرح کرده بود :) نه؟

۶- داستانش در مورد لاپلاس دیدین  چه طوری شروع کرده؟‌ نوشته: « خیلی تو کار تواضع و فروتنی این حرفا نبود. خودش رو بهترین ریاضیدان زمان در فرانسه میدونست. »  جا خوردم با این شروعش :)))

  • مهرداد فرج‌تبار