چند وقت پیش مقالهای را خواندم که انواع دیتاست برای آموزش ماشین را بهخوبی توضیح داده بود. این مقاله بینش بسیاری خوبی در من ایجاد کرد که چگونه یک ماشین هوش مصنوعی آموزش میبیند و یاد میگیرد به همین دلیل تصمیم گرفتم تا راجع به آن بنویسم.
قطعاً میدانید که یکی از مهمترین و گلوگاهیترین ارکان برای پیشرفت هوش مصنوعی برخورداری از دیتاستها یا مجموعه دادگان متنوع و یا کیفیت است ولی افسوس که در کشور ما قواعدی برای حکمرانی داده وجود ندارد و همین خود به پاشنهآشیل کشور در عرصه توسعه هوش مصنوعی تبدیل شده است.
با این حال به لطف زندگی در عصر پلتفرمی میتوان با تکنیکهای مختلفی از جمله خزش در وب، پلتفرمها، شبکههای اجتماعی و… به مجموعهای از دادههای فارسی دست یافت که به توسعه هوش مصنوعی در کشور کمک کند.
آنچه که اهمیت دارد آن است که در گام نخست بدانیم انواع مجموعه دادگان کدامند و هر کدام چگونه میتوانند در خدمت توسعه هوش مصنوعی قرار گیرد. در یک نگاه کلی ما 5 نوع مجموعه دادگان را میتوانیم از یکدیگر تفکیک کنیم: 1) مجموعه دادگان پیشتمرین، 2) مجموعه دادگان تنظیم دقیق یا فاین تیون، 3) مجموعه دادگان ترجیحی، 4) مجموعه دادگان ارزیابی و 5) مجموعه دادگان NLP سنتی.
1- مجموعه دادگان پیشتمرین (Pre-training Dataset)
وقتی راجع به مجموعه دادگان پیشتمرین صحبت میکنیم معنای آن داشتن حجم عظیمی از داده است. مجموعه دادگان پیشتمرین شامل انواع متون عمومی و خاص حوزههایی مانند مالی، پزشکی و حقوقی است. این مجووعه دادگان برای آموزش ماشین و ساخت LLM یا مدلهای زبانی بزرگ کاربرد دارند. مدلهای پایهای و عمومی برای شکل گرفتن نیازمند چنین مجموعه دادگانی هستند. بهعنوان مثال وقتی از مدل GPT صحبت میکنیم معمولاً با چنین مجموعه دادگانی آموزش یافتهاند. مجموعه دادگان پیشتمرین با مقیاس بزرگ و کیفیت بالا، بنیان آموزش مدلهای زبانی بزرگ را شکل میدهند و تأثیر مستقیمی بر عملکرد و تواناییهای این مدلها دارند. مجموعه دادگان پیشتمرین به دو دسته اصلی تقسیم میشوند:
الف) دیتاستهای پیشتمرین عمومی: این دیتاستها شامل مجموعهای وسیع و متنوع از متون هستند که از منابع مختلفی گردآوری شدهاند و برای آموزش مدلهای پایهای و عمومی مناسب هستند. انواع متون موجود در این بخش شامل موارد زیر است:
- صفحات وب: دادههایی که از خزیدن در وبسایتهای مختلف بهدست میآیند و دارای مقیاس بزرگ، چندزبانی و تنوع موضوعی هستند.
- متون زبانی: شامل مجموعههای بزرگی از زبان نوشتاری و گفتاری مانند «American National Corpus» که منابعی غنی برای یادگیری زبان محسوب میشوند.
- کتابها: کتابها با محتوای طولانی و کیفیت بالای متن میتوانند مدلها را در یادگیری زبان انسانی و مفاهیم عمیقتر کمک کنند.
- مواد آکادمیک: شامل مقالهها و مطالب علمی که اطلاعات دقیق و تخصصی را به مدلها منتقل میکنند.
- کد: دیتاستهایی شامل کدهای برنامهنویسی که برای آموزش مدلهای زبانی درک و تولید کدهای برنامهنویسی را امکانپذیر میکنند.
- پیکره موازی: متونی در دو یا چند زبان که برای ترجمه ماشینی و کارهای چندزبانی کاربرد دارند.
- شبکههای اجتماعی: پستها و نظرات کاربران در شبکههای اجتماعی که به مدلها در یادگیری ارتباطات محاورهای و الگوهای رفتاری کمک میکنند.
- دانشنامهها: متونی از دانشنامهها و سایتهایی مانند ویکیپدیا که بهعنوان منابع دانش پایهای بهکار میروند.
ب) دیتاستهای پیشتمرین خاص حوزه: این دیتاستها برای حوزههای خاصی مانند مالی، پزشکی، حقوقی و غیره طراحی شدهاند و دادههای تخصصی مربوط به هر حوزه را شامل میشوند. این دیتاستها بعد از پیشتمرین عمومی مورد استفاده قرار میگیرند تا مدلها تواناییهای لازم برای انجام کارهای تخصصی را در حوزههای مشخص بهدست آورند. برخی از دیتاستهای حوزهمحور عبارتند از:
- حوزه مالی: شامل گزارشهای مالی، اخبار اقتصادی و اطلاعات بازار برای بهبود عملکرد مدلها در تحلیل و پردازش دادههای مالی.
- حوزه پزشکی: شامل مقالات، کتابهای پزشکی و اطلاعات تشخیصی که به مدلها کمک میکند دانش لازم برای وظایف مرتبط با پزشکی را کسب کنند.
- حوزه حقوقی: شامل قوانین و مقررات و پروندههای قضایی که برای کارهای مرتبط با حقوق و قانون مناسب است.
- حوزه حمل و نقل و حوزه ریاضی نیز از دیگر حوزههای خاص هستند که دیتاستهای تخصصی خود را دارند.
2- مجموعه دادگان تنظیم دقیق (Instruction Fine-tuning Datasets)
این دسته از مجموعه دادگان به منظور تقویت توانایی مدلهای زبانی بزرگ (LLMs) طراحی شدهاند. این دیتاستها شامل مجموعهای از جفتهای متن هستند که در آنها «ورودی» (instruction inputs) به مدل ارائه میشود و «خروجی» (answer outputs) پاسخی است که مدل ارائه میدهد. هدف اصلی این دیتاستها، پر کردن شکاف میان پیشبینی کلمه بعدی توسط مدل و توانایی پیروی از دستورات انسانی است که به افزایش کنترلپذیری و کارایی مدلها کمک میکند.
مجموعه دادگان تنظیم دقیق هم به صورت دستی و توسط انسان و هم به صورت اتوماتیک و توسط مدل قابلیت ایجاد شدن دارند. البته میتوان این مجموعه دادگان را به شیوه ترکیب روش دستی و اتوماتیک نیز ایجاد کرد.
برای درک بهتر مجموعه دادگان تنظیم دقیق بهتر است تصور کنید که این دیتاستها مثل مجموعهای از دستورات و پاسخهای از پیش تعریفشده هستند که به مدل کمک میکنند یاد بگیرد چگونه به دستورات و نیازهای کاربران پاسخ دهد.
بهعنوان مثال فرض کنید که دیتاست تنظیم دقیق با هدف بازنویسی یا اصلاح متن را آماده میکنید؛ آنگاه دیتاست ست شما مجموعهای از سه ستون و n سطر است. هر ستون به شکل زیر ساماندهی شده است:
- دستور: “این جمله را رسمیتر کن.”
- متن ورودی: “من دوست دارم فردا بیام سر کار.”
- پاسخ مورد انتظار: “مایلم فردا به محل کار بیایم.”
مجموعه دادگان با هدف خلاصهسازی متن، ترجمه، پرسش و پاسخ، بازنویسی یا اصلاح متن، تولید ایده را میتوان برای تنظیم دقیق یک مدل زبانی جمعآوری کرد.
فراموش نکنید که اگر اگر مدل فقط با متنهای عمومی و دیتاست پیشتمرین آموزش ببیند، ممکن است به طور دقیق نتواند بفهمد کاربر چه میخواهد. دیتاستهای تنظیم دقیق به مدل کمک میکنند تا منظور کاربران را بهتر درک کند و پاسخی مرتبط و دقیقتر بدهد.
مجموعه دادگان تنظیم دقیق به مدل کمک میکنند تا یاد بگیرد چگونه با انواع دستورها یا سوالات تعامل داشته باشد و به درستی پاسخ دهد. با استفاده از این دیتاستها، مدل میتواند به نیازهای کاربر بهتر پاسخ دهد و دقیقاً همان کاری را که از او خواسته شده، انجام دهد.
3- دیتاستهای ترجیحی (Preference Datasets)
نوعی دیتاست هستند که برای هماهنگی خروجیهای مدلهای زبانی بزرگ (LLMs) با ترجیحات و انتظارات انسانی طراحی شدهاند. این دیتاستها معمولاً در مرحله تطبیق مدلها (alignment) به کار میروند و به مدلها کمک میکنند تا خروجیهایی تولید کنند که از نظر کاربران مطلوبتر و ایمنتر باشد.
دیتاستهای ترجیحی به مدلها کمک میکنند که خروجیهای خود را از سه جهت با انتظارات انسانی همسو کنند:
- کاربردپذیری: مدل توانایی پیروی از دستورات را داشته باشد.
- صداقت: مدل از تولید اطلاعات ساختگی پرهیز کند.
- ایمنی: مدل از تولید محتوای غیرقانونی یا مضر خودداری کند.
ارزیابیهای موجود در دیتاستهای ترجیحی عمدتاً شامل چهار روش اصلی است:
- رأیگیری (Vote): انتخاب بهترین گزینه از میان دو پاسخ یا چند پاسخ به یک سؤال.
- مرتبسازی (Sort): مرتب کردن چند پاسخ به یک سؤال به ترتیب اولویت.
- امتیازدهی (Score): اختصاص امتیاز به پاسخها در یک محدوده مشخص برای نمایش شدت ترجیحات.
- سایر روشها: برخی دیتاستها از روشهای جایگزین برای نمایش ترجیحات بهره میبرند، مانند مقایسههای دقیقتر.
برای توضیح بهتر، بیایید یک مثال ساده را با هم مرور کنیم؛ بهعنوان مثال فرض کنید شما بهدنبال آن هستید که مدل پاسخ بهتری را از میان چندین پاسخ انتخاب و ارائه کند؛ در اینجا دیتاست تریجیحی کمک شایانی خواهد کرد. مثلا دیتاست زیر را نظر بگیرید:
- سوال: “بهترین مقصد برای سفر در فصل تابستان کجاست؟”
- پاسخ اول: “سفر به شمال ایران در تابستان میتواند بسیار دلپذیر باشد.”
- پاسخ دوم: “در تابستان، کویرها هم جذابیت خاص خودشان را دارند.”
در اینجا، کاربران ممکن است پاسخ اول را بیشتر بپسندند و آن را انتخاب کنند. دیتاست ترجیحی این نوع اطلاعات را ثبت میکند تا مدل یاد بگیرد در موقعیتهای مشابه، پاسخ دلپذیرتر را ارائه دهد.
دیتاستهای ترجیحی با محوریت انتخاب پاسخ بهتر، اولویتبندی پاسخها، امتیازدهی به کیفیت پاسخها، اصلاح سبک پاسخها و سایر موارد مشابه جمعآوری میشوند. در شکل زیر یک نمونه ساده از یک مجموعه دادگان ترجیحی دیده میشود.
4- دیتاستهای ارزیابی (Evaluation Datasets)
دیتاستهای ارزیابی برای ارزیابی عملکرد مدلهای زبانی بزرگ (LLMs) در انجام وظایف مختلف استفاده میشوند. این دیتاستها شامل مجموعهای از نمونههای داده هستند که به دقت جمعآوری و برچسبگذاری شدهاند و به متخصصان کمک میکنند تا با مقایسه عملکرد مدلهای مختلف، نقاط قوت و ضعف آنها را شناسایی و بهینهسازی کنند.
دیتاستهای ارزیابی در زمینههای مختلفی استفاده میشوند و میتوانند به دستههای متنوعی تقسیم شوند که شامل موارد زیر است:
- آزمونها و امتحانات (Exam): مانند AGIEval، که توانایی مدلها را در حل سوالات استاندارد آزمونهای انسانی بررسی میکند.
- حوزههای تخصصی (Subject-Specific): دیتاستهایی که برای ارزیابی مدلها در حوزههایی خاص مانند پزشکی، حقوق، مالی و مهندسی استفاده میشوند.
- درک زبان طبیعی (NLU): این دسته شامل کارهایی مانند طبقهبندی، تحلیل احساسات، و استنتاج متنی است.
- استدلال (Reasoning): ارزیابی مدلها در زمینههای مرتبط با استدلال قیاسی و استقرایی.
- دانش (Knowledge): ارزیابی میزان دانش عمومی مدلها و توانایی در پاسخدهی به سوالات دانشی.
- کد و برنامهنویسی (Code): ارزیابی مهارتهای مدل در تولید، تصحیح و بهینهسازی کدهای برنامهنویسی.
- ارزیابی ایمنی و تطابق با هنجارهای اجتماعی (Safety and Social Norms): بررسی عملکرد مدلها در تولید پاسخهای ایمن و مطابق با هنجارهای اجتماعی.
برای ارزیابی خروجی مدلها، سه روش اصلی وجود دارد:
- ارزیابی کد (Code Evaluation): شامل محاسبه معیارهای ارزیابی با استفاده از کدهای خاص و مقایسه آنها با پاسخهای مرجع.
- ارزیابی انسانی (Human Evaluation): ارزیابی خروجی مدلها توسط ارزیابان انسانی که از روشهایی مانند امتیازدهی کیفی و مقایسه مستقیم استفاده میکنند.
- ارزیابی خودکار توسط مدلها (Model Evaluation): در این روش، خود مدلها بهعنوان ارزیاب عمل کرده و کیفیت پاسخها را ارزیابی میکنند. این روش به کاهش هزینههای ارزیابی کمک میکند، اما ممکن است کاملاً مطابق با قضاوت انسانی نباشد.
فراموش نکنیم که دیتاستهای ارزیابی مجموعهای از دادهها هستند که برای سنجش و ارزیابی عملکرد مدلها در انجام وظایف خاص طراحی شدهاند. این دیتاستها مانند یک آزمون یا امتحان برای مدلها هستند که ببینیم چقدر خوب عمل میکنند.
مثلا فرض کنید ما میخواهیم یک مدل را به لحاظ طبقهبندی احساسات ارزیابی کنیم. آنگاه ما یک مجموعه دادگان خواهیم داشت که به شکل زیر تقسیم شده است.
- متن: “این فیلم فوقالعاده بود! بازیگران عالی عمل کردند.”
- پاسخ مورد انتظار: “احساس مثبت.”
در اینجا، خروجی مدل به شیوه شیوههای گفته شده نسبت به ارزیابی خروجی مدل اقدام کرده و نشان میدهد که چقدر در تحلیل احساسات خوب عمل میکند.
5- دیتاستهای پردازش زبان طبیعی سنتی (Traditional NLP Datasets)
مجموعه دادگان پردازش زبان طبیعی سنتی شامل مجموعهای از دادهها هستند که برای آموزش و ارزیابی مدلهای پردازش زبان طبیعی (NLP) قبل از ظهور مدلهای زبانی بزرگ (LLMs) به کار میرفتند. این دادهمجموعهها بهویژه برای وظایف متنوع NLP مانند طبقهبندی متن، استخراج اطلاعات، خلاصهسازی متن و دیگر کاربردهای زبانی طراحی شدهاند. این دادهمجموعهها به مدلها کمک میکنند تا وظایف خاصی را در پردازش زبان با دقت و کارایی بیشتری انجام دهند.