تعیین اینکه آیا یک مدل یادگیری ماشینی به درستی آموزش داده شده است، جنبه مهمی از فرآیند توسعه مدل است. در حالی که دقت یک معیار مهم (یا حتی یک معیار کلیدی) در ارزیابی عملکرد یک مدل است، اما تنها شاخص یک مدل به خوبی آموزش دیده نیست. دستیابی به دقت بالای 90 درصد یک آستانه جهانی برای همه وظایف یادگیری ماشینی نیست. سطح قابل قبول دقت بسته به مشکل خاصی که به آن پرداخته می شود می تواند متفاوت باشد.
دقت معیاری است که نشان میدهد مدل چند وقت یکبار پیشبینیهای درستی را از همه پیشبینیهای انجامشده انجام میدهد. به عنوان تعداد پیش بینی های صحیح تقسیم بر تعداد کل پیش بینی ها محاسبه می شود. با این حال، دقت ممکن است به تنهایی تصویر کاملی از عملکرد یک مدل ارائه نکند، به خصوص در مواردی که مجموعه داده نامتعادل است، به این معنی که تفاوت قابل توجهی در تعداد نمونههای هر کلاس وجود دارد.
علاوه بر دقت، سایر معیارهای ارزیابی مانند دقت، یادآوری و امتیاز F1 معمولاً برای ارزیابی عملکرد یک مدل یادگیری ماشین استفاده میشوند. دقت، نسبت پیشبینیهای مثبت واقعی را از بین تمام پیشبینیهای مثبت اندازهگیری میکند، در حالی که یادآوری، نسبت پیشبینیهای مثبت واقعی را از بین همه موارد مثبت واقعی محاسبه میکند. امتیاز F1 میانگین هارمونیک دقت و یادآوری است و تعادلی بین دو معیار ایجاد می کند.
هنگام تعیین اینکه آیا یک مدل به درستی آموزش داده شده است، ضروری است که الزامات خاص مسئله مورد نظر در نظر گرفته شود. به عنوان مثال، در یک کار تشخیص پزشکی، دستیابی به دقت بالا برای اطمینان از پیشبینیهای دقیق و جلوگیری از تشخیصهای اشتباه بسیار مهم است. از سوی دیگر، در سناریوی کشف تقلب، یادآوری بالا ممکن است برای ثبت هرچه بیشتر موارد کلاهبرداری، حتی به قیمت برخی از موارد مثبت نادرست، مهم تر باشد.
علاوه بر این، عملکرد یک مدل باید نه تنها بر روی داده های آموزشی، بلکه در یک مجموعه داده اعتبارسنجی جداگانه برای ارزیابی قابلیت های تعمیم آن ارزیابی شود. برازش بیش از حد، که در آن یک مدل در دادههای آموزشی خوب عمل میکند اما در دادههای دیده نشده ضعیف عمل میکند، میتوان از طریق معیارهای اعتبارسنجی تشخیص داد. تکنیک هایی مانند اعتبار سنجی متقابل می تواند به کاهش بیش از حد برازش کمک کند و ارزیابی قوی تری از عملکرد مدل ارائه دهد.
در حالی که دقت یک شاخص کلیدی برای عملکرد یک مدل است، در نظر گرفتن سایر معیارها مانند دقت، یادآوری و امتیاز F1 و همچنین الزامات خاص حوزه مشکل ضروری است. هیچ آستانه ثابتی برای دقت وجود ندارد که به طور جهانی اعمال شود، و ارزیابی یک مدل باید جامع باشد و معیارهای مختلف و تکنیک های اعتبارسنجی را در نظر بگیرد تا از اثربخشی آن در برنامه های کاربردی دنیای واقعی اطمینان حاصل شود.
سایر پرسش ها و پاسخ های اخیر در مورد EITC/AI/GCML Google Cloud Machine Learning:
- متن به گفتار (TTS) چیست و چگونه با هوش مصنوعی کار می کند؟
- محدودیت های کار با مجموعه داده های بزرگ در یادگیری ماشین چیست؟
- آیا یادگیری ماشینی می تواند کمک محاوره ای انجام دهد؟
- زمین بازی تنسورفلو چیست؟
- در واقع یک مجموعه داده بزرگتر به چه معناست؟
- چند نمونه از فراپارامترهای الگوریتم چیست؟
- یادگیری گروهی چیست؟
- اگر الگوریتم یادگیری ماشینی انتخاب شده مناسب نباشد چه میشود و چگونه میتوان از انتخاب درست آن مطمئن شد؟
- آیا یک مدل یادگیری ماشینی در طول آموزش نیاز به نظارت دارد؟
- پارامترهای کلیدی مورد استفاده در الگوریتم های مبتنی بر شبکه عصبی کدامند؟
سوالات و پاسخهای بیشتر را در EITC/AI/GCML Google Cloud Machine Learning مشاهده کنید