برای پر کردن فرهنگ لغتهای قطار و مجموعههای آزمایشی در زمینه استفاده از الگوریتم K نزدیکترین همسایه (KNN) خود در یادگیری ماشین با استفاده از پایتون، باید یک رویکرد سیستماتیک را دنبال کنیم. این فرآیند شامل تبدیل داده های ما به یک قالب مناسب است که می تواند توسط الگوریتم KNN استفاده شود.
ابتدا بیایید مفهوم اصلی دیکشنری ها در پایتون را درک کنیم. دیکشنری مجموعه ای نامرتب از جفت های کلید-مقدار است که هر کلید منحصر به فرد است. در زمینه یادگیری ماشینی، فرهنگ لغت معمولاً برای نمایش مجموعه داده ها استفاده می شود، جایی که کلیدها با ویژگی ها یا ویژگی ها مطابقت دارند و مقادیر نشان دهنده نقاط داده مربوطه هستند.
برای پر کردن دیکشنریهای قطار و مجموعههای آزمایشی، باید مراحل زیر را انجام دهیم:
1. آماده سازی داده ها: با جمع آوری و آماده سازی داده ها برای کار یادگیری ماشینی خود شروع کنید. این معمولاً شامل تمیز کردن داده ها، مدیریت مقادیر از دست رفته و تبدیل داده ها به یک قالب مناسب است. اطمینان حاصل کنید که دادهها به درستی برچسبگذاری یا دستهبندی شدهاند، زیرا این برای وظایف یادگیری تحت نظارت ضروری است.
2. تقسیم مجموعه داده: در مرحله بعد، باید مجموعه داده خود را به دو بخش تقسیم کنیم: مجموعه قطار و مجموعه آزمایش. مجموعه قطار برای آموزش الگوریتم KNN ما استفاده خواهد شد، در حالی که مجموعه آزمایشی برای ارزیابی عملکرد آن استفاده خواهد شد. این تقسیم به ما کمک می کند تا ارزیابی کنیم که الگوریتم ما چقدر به داده های دیده نشده تعمیم می یابد.
3. استخراج ویژگی: هنگامی که مجموعه داده تقسیم شد، باید ویژگی های مربوطه را از داده ها استخراج کنیم و آنها را به عنوان کلید در فرهنگ لغت خود اختصاص دهیم. بسته به ماهیت داده های ما، ویژگی ها می توانند عددی یا دسته بندی شوند. به عنوان مثال، اگر با مجموعه داده ای از تصاویر کار می کنیم، ممکن است ویژگی هایی مانند هیستوگرام های رنگی یا توصیفگرهای بافت را استخراج کنیم.
4. تعیین مقادیر: پس از استخراج ویژگی ها، باید مقادیر مربوطه را به هر کلید در دیکشنری های خود اختصاص دهیم. این مقادیر نشان دهنده نقاط داده یا نمونه های واقعی در مجموعه داده ما هستند. هر نمونه باید با مقادیر ویژگی مربوطه خود مرتبط باشد.
5. Train Set Dictionary: یک فرهنگ لغت برای نمایش مجموعه قطار ایجاد کنید. کلیدهای این فرهنگ لغت، ویژگیها و مقادیر، فهرستها یا آرایههایی خواهند بود که حاوی مقادیر ویژگیهای مربوطه برای هر نمونه در مجموعه قطار هستند. به عنوان مثال، اگر مجموعه داده ای با دو ویژگی (سن و درآمد) و سه نمونه داشته باشیم، دیکشنری مجموعه قطار ممکن است به شکل زیر باشد:
train_set = {'سن': [25، 30، 35]، 'درآمد': [50000، 60000، 70000]}
6. Test Set Dictionary: به طور مشابه، یک فرهنگ لغت برای نمایش مجموعه تست ایجاد کنید. کلیدهای این فرهنگ لغت همان ویژگیهای مجموعه قطار خواهد بود و مقادیر، فهرستها یا آرایههایی هستند که حاوی مقادیر ویژگیهای مربوطه برای هر نمونه در مجموعه آزمایشی هستند. به عنوان مثال، اگر مجموعه تستی با دو نمونه داشته باشیم، دیکشنری مجموعه تست ممکن است به شکل زیر باشد:
test_set = {'سن': [40, 45], 'درآمد': [80000, 90000]}
7. استفاده از دیکشنری ها: هنگامی که دیکشنری های قطار و مجموعه های آزمایشی پر شدند، می توانیم از آنها به عنوان ورودی الگوریتم KNN خودمان استفاده کنیم. این الگوریتم از مقادیر ویژگی مجموعه قطار برای پیشبینی یا طبقهبندی نمونههای مجموعه آزمایشی استفاده میکند.
با دنبال کردن این مراحل، میتوانیم بهطور مؤثر دیکشنریها را برای مجموعههای قطار و آزمایش در زمینه استفاده از الگوریتم KNN خودمان در یادگیری ماشین با استفاده از پایتون پر کنیم. این دیکشنری ها به عنوان پایه ای برای آموزش و ارزیابی عملکرد الگوریتم ما عمل می کنند.
برای پر کردن دیکشنریها برای مجموعههای قطار و آزمایش، باید مجموعه داده را آماده و تقسیم کنیم، ویژگیهای مربوطه را استخراج کنیم، مقادیر ویژگیها را به کلیدهای مربوطه در فرهنگهای لغت اختصاص دهیم و از این فرهنگها در الگوریتم KNN خودمان استفاده کنیم.
سایر پرسش ها و پاسخ های اخیر در مورد استفاده از الگوریتم K نزدیکترین همسایگان:
- چگونه دقت الگوریتم K نزدیکترین همسایه خود را محاسبه کنیم؟
- اهمیت آخرین عنصر در هر لیست که کلاس را در قطار و مجموعه های آزمایشی نشان می دهد چیست؟
- هدف از مخلوط کردن مجموعه داده قبل از تقسیم آن به مجموعه های آموزشی و آزمایشی چیست؟
- چرا قبل از اعمال الگوریتم K نزدیکترین همسایگان پاک کردن مجموعه داده مهم است؟