به گزارش گروه علم و فناوری ایسکانیوز، علاوه بر این، سازمانها تلاش کردند تا دانشمندان داده را برای ادامه روند مسابقه استخدام کنند. با این حال، هنگامی که دانشمندان داده کار خود را آغاز کردند تمام مردم انتظار داشتند تا این افراد برای هر مشکلی راه حل جادویی داشته باشند.
انتظار میرود که این افراد تحلیلگر مشاغل، مهندسین نرم افزار، ریاضیدانان، آمارشناس و غیره باشند که در قالب یک انسان بسته بندی شدهاند. از این افراد مهارتهای مختلفی مانند تجزیه و تحلیل کسب و کار، SQL، DevOps و برنامه نویسی انتظار میرفت.
مطمئناً این افراد همه کاره هستند؛ با این حال، این ویژگی برای اثبات مفاهیم یا پروژههای آزمایشی خوب بود اما برای تولید یک سیستم داده محور مشکل داشت.
علم داده شامل تجزیه و تحلیل آماری زیاد، مدل سازی ریاضی و غیره است. از این رو، افراد با پیشینه علمی و سوابق کمی بر این نقشها مسلط بودند زمانیکه صحبت از سیستمهای واقعی به میان میآمد آنها فاقد تجربه لازم بودند. این امر به ویژه با افزایش مقیاس و پیچیدگی دادهها (دادههای بزرگ) بدتر شد. از این رو دانشمند داده برای از بین بردن این شکاف با عنوان شغلی مهندس داده بهوجود آمد.
ظهور مهندسی داده
مهندسان داده به طور معمول وظیفه ایجاد و نگهداری داده (که دانشمند داده از آنها برای پردازش استفاده میکنند) را داشتند.
این نقش توسط توسعه دهندگان سنتی ETL (بعضاً توسعه دهندگان پایگاه داده) پدید آمده است. با این حال، با تغییر الگو، ابزارها و فناوریها مرزها را تغییر دادند.
دادهها زیاد شدند و همین منجر به ظهور معماری لامبدا شد. معماری لامبدا یک معماری پردازش داده است که با استفاده از روشهای پردازش دستهای و جریان، مقادیر انبوهی از دادهها را اداره میکند.
استخراج، تبدیل، بارگذاری (ETL) روشی کلی برای کپی کردن دادهها از یک یا چند منبع در یک سیستم مقصد است که دادهها را متفاوت از منبع (ها) یا در یک زمینه متفاوت از منبع (ها) نشان میدهد.
بنابراین، تیم علوم داده اکنون شامل تحلیلگرها، دانشمندان دادهها و مهندسین داده است. مهندسان داده دادهها را استخراج، پردازش و پاکسازی بخشی از چرخه عمر علوم داده را انجام میدهند. این امر باعث میشود که نفر بعدی روی درک کسب و کار، توسعه مدل و غیره متمرکز شود. با این وجود، استقرار مدل و تبدیل به محصول داده در دنیای واقعی همچنان یک چالش برای تیمهای علوم داده است. اینجا بود که افراد حرفهای به نام مهندسین یادگیری ماشین پدیدار شدند.
نیاز به مهندسان ML
دموکراتیک سازی هوش مصنوعی با ابزاری مانند یادگیری ماشین آژور (Azure Machine Learning) چرخه حیات علم داده را بسیار سادهتر کرده است. در اینجا مثالی از نمونه اولیه اینترنت اشیا و یادگیری ماشین در عمل با هم آورده شده است. در این مثالها میتوانید اولین نمونههای برش یافته از یک سیستم ML را در عمل مشاهده کنید. هر دانشمند و مهندس داده میتواند چنین سیستمهایی را بسازد. همچنین این سیستمها ایستا هستند، یعنی این مقالات در مورد آموزش مدل توضیحی نمیدهند.
از این رو، یک سؤال طبیعی این خواهد بود که چرا مدلها را مجدداً آموزش دهیم؟
پاسخ مفهوم «drift» است. برای درک مفهوم drift، باید ببینیم که چرا سیستم های ML اساساً با سیستم های نرم افزاری سنتی تفاوت دارند.
در یک سیستم نرم افزاری سنتی، ورودی و یک منطق برای محاسبه خروجی داریم. با این حال، در سیستمهای ML ، ما خروجی و ورودی داریم و سیستم یک الگوی یا رابطه بین آنها را مشخص میکند. برای مثال، بگذارید بگوییم سیستم معادلهای از خط مستقیم است.
y = mx + c در سیستمهای سنتی،m ، x و c برای محاسبه y داریم. در سیستم های یادگیری ماشین ما y و x داریم در حالی که ما m و c را تعیین میکنیم تا مقادیر y را در آینده استخراج کنیم. این اساس استدلال استقرایی را تشکیل میدهد.
به طور شهودی، سیستمهای ML به توزیع اساسی دادهها بستگی دارند. تغییر کوچکی در توزیع دادههای ورودی، سیستم را از مسیر خارج میکند؛ زیرا رابطه بین متغیرهای ورودی و خروجی تغییر میکند. به این مفهوم دریف در یادگیری ماشین گفته میشود.
ظهور مهندسان یادگیری ماشین
این مشکل یکی از مواردی است که مهندسان ML با ایجاد شیوههای DevOps (می توان آن را DataOps نامید) آن را حل کردهاند. با این حال ، DataOps اساساً با DevOps متفاوت است.
در سیستمهای نرم افزاری سنتی، DevOps از نسخههای کد و استقرار و نگهداری در سیستمهای تولیدی مراقبت میکند. در مورد نسخه و تعمیر و نگهداری، تمام کاری که باید انجام دهند، حفظ کد و نظارت بر سلامت و امنیت سیستم است. با این حال، در سیستمهای ML، یک بار اضافی برای نسخه سازی داده و مدلها برای ردیابی تاریخچه آموزش مدلها وجود دارد.
علاوه بر این، از دیدگاه امنیتی، هر کاربر هوشمند میتواند مدل ML را با فهمیدن الگویی که در آن سیستم پاسخ میدهد فریب دهد.
مجموعه ابزار و مهارت
از آنجا که مجموعه مهارتها متفاوت است، تفاوت در ابزار طبیعی است. مهندسی یادگیری ماشین بیشتر در مورد طرز تفکر است تا مهارت و یا ابزار،( اگرچه آنها هم ضروری هستند) طرز تفکری که عدم قطعیت دنیای واقعی را در دست بگیرد. این در مورد حفظ سیستمهای سنتی بزرگ نیست بلکه یک زیرساخت داده و مدل زیرساختها در کنار هم است. از این رو، مهندس یادگیری ماشین نقش ترکیبی از مهندس داده، دانشمند داده و یک مهندس نرم افزار است.
انتهای پیام/