۲) سه مؤلفه یادگیری ماشین
اگر از مطالب نادرست و احمقانه دربارهی هوش مصنوعی بگذریم باید گفت که تنها هدف یادگیری ماشین، پیشبینی نتایج بر اساس دادههای ورودی است. تمام وظایف (tasks) یادگیری ماشین را میتوان به همین شکل (پیشبینی بر مبنای دادهها) بیان کرد و اگر مسالهای را نتوان به این صورت بیان نمود احتمالا آن مساله ارتباطی به یادگیری ماشین ندارد.
هر چه تنوع نمونهها (samples) بیشتر باشد، پیدا کردن الگوهای مرتبط و پیشبینی نتیجه آسانتر است. برای یادگیری ماشین به سه مولفه (component) نیاز داریم: دادهها (Data)، ویژگیها (Features) و الگوریتم (Algorithm)
۱-۲) دادهها (Data)
آیا میخواهید هرزنامهها (Spam) را از بین ایمیلها شناسایی کنید؟ پس باید تعدادی هرزنامه به عنوان نمونه (sample) جمعآوری کنید. آیا میخواهید قیمت سهام را پیشبینی کنید؟ پس باید تاریخچه قیمت سهام را پیدا کنید. آیا می خواهید سلیقه و پسند کاربر را کشف کنید؟ پس باید فعالیتهای وی را در فیسبوک جمعآوری و سپس تجزیه و تحلیل کنید (اوه! نه مارک زاکربرگ، جمعآوری اطلاعات کاربران را متوقف کن! بسه دیگه!) . هر چه دادهها ناهمگون و دارای تنوع بیشتری باشند نتیجه بهتری به دست خواهد بود. وقتی صحبت از نیاز به دادهها میشود به خاطر داشته باشید که گاهی حتی دهها هزار داده و نمونه، کمترین تعداد مورد نیاز در یک مسالهی یادگیری ماشین است.
دو روش اصلی برای آمادهسازی دادهها وجود دارد: روش دستی (manual) و روش خودکار(automatic) .
در روش دستی، دادهها خطای بسیار کمتری دارند اما جمعآوری آنها به زمان بیشتری نیاز دارد و همین امر باعث میشود این روش به صورت کلی پرهزینهتر باشد. روش خودکار نسبت به روش دستی ارزانتر است. شما هر دادهای را که پیدا میکنید جمع آوری میکنید به این امید که این دادهها برای حل مسالهی شما کافیاند.
برخی از شرکتهای عقل کل [کسی که تلاش میکند به شکل آزاردهندهای باهوشتر از دیگران به نظر برسد؛ مترجم] مانند گوگل به صورت رایگان از مشتریان خود برای برچسب زدن (label) و آمادهساز دادهها استفاده میکنند. حتما به خاطر دارید که ریکپچای شرکت گوگل ( ReCaptcha) شما را مجبور میکند تا “در تصاویر زیر علائم راهنمایی را انتخاب کنید”؟ [ریکپچا اطمینان حاصل میکند که کاربر استفادهکننده از کامپیوتر یک انسان است نه یک ربات؛ مترجم]. این دقیقا کاری هست که آنها میکنند و شما را به عنوان نیروی کار رایگان به خدمت میگیرند! چقدر عالی! به جای کارمندان این شرکتها منِ کاربر شروع میکنم به یاد دادن تعداد بیشتر و بیشتری از علایم راهنمایی به ریکپچا. اوف …!
جمع آوری مجموعهای با کیفیت از دادهها کار بسیار دشواری است. به یاد داشته باشید که به مجموعهی دادهها، دیتاست (dataset) گفته میشود. اهمیت دادهها به حدی است که شرکتها، شاید حاضر شوند الگوریتمهای خود را در اختیار عموم قرار دهند اما به ندرت حاضر به انتشار دیتاستهای خود میشوند.
مترجم: خانم سپیده مشایخی
گزیده:
درست مانند صد سال پیش که برق تقریباً همه چیز را متحول کرد، امروز هم واقعاً برایم دشوار است صنعتی را پیدا کنم که باور داشته باشم هوش مصنوعی آن را طی چند سال آینده متحول نخواهد کرد. اندرو اینگ