سعید قنبری|مدیریت رسانه

0 %
سعید قنبری
دکتری مدیریت رسانه
پژوهشگر تاب‌آوری برند و رسانه
  • محل سکونت:
    تهران
  • شهر:
    تهران
  • سن:
    33
زبان‌ها
عربی
انگلیسی
کردی
مهارت‌ها
پژوهش کیفی
خبرنویسی
تدریس
سئو
تحلیل کسب‌وکار
کدنویسی وب
ابزارها
  • فتوشاپ
  • آفیس
  • وردپرس
  • MaxQDA
  • SPSS

۵ نوع دیتاست برای آموزش ماشین‌های هوش مصنوعی

1403-08-20

چند وقت پیش مقاله‌ای را خواندم که انواع دیتاست برای آموزش ماشین را به‌خوبی توضیح داده بود. این مقاله بینش بسیاری خوبی در من ایجاد کرد که چگونه یک ماشین هوش مصنوعی آموزش می‌بیند و یاد می‌گیرد به همین دلیل تصمیم گرفتم تا راجع به آن بنویسم.

قطعاً می‌دانید که یکی از مهمترین و گلوگاهی‌ترین ارکان برای پیشرفت هوش مصنوعی برخورداری از دیتاست‌ها یا مجموعه دادگان متنوع و یا کیفیت است ولی افسوس که در کشور ما قواعدی برای حکمرانی داده وجود ندارد و همین خود به پاشنه‌آشیل کشور در عرصه توسعه هوش مصنوعی تبدیل شده است.

با این حال به لطف زندگی در عصر پلتفرمی می‌توان با تکنیک‌های مختلفی از جمله خزش در وب، پلتفرم‌ها، شبکه‌های اجتماعی و… به مجموعه‌ای از داده‌های فارسی دست یافت که به توسعه هوش مصنوعی در کشور کمک کند.

آنچه که اهمیت دارد آن است که در گام نخست بدانیم انواع مجموعه‌ دادگان کدامند و هر کدام چگونه می‌توانند در خدمت توسعه هوش مصنوعی قرار گیرد. در یک نگاه کلی ما 5 نوع مجموعه‌ دادگان را می‌توانیم از یکدیگر تفکیک کنیم: 1) مجموعه‌ دادگان پیش‌تمرین، 2) مجموعه‌ دادگان تنظیم دقیق یا فاین تیون، 3) مجموعه‌ دادگان ترجیحی، 4) مجموعه‌ دادگان ارزیابی و 5) مجموعه‌ دادگان NLP سنتی.

1- مجموعه‌ دادگان پیش‌تمرین (Pre-training Dataset) 

وقتی راجع به مجموعه دادگان پیش‌تمرین صحبت می‌کنیم معنای آن داشتن حجم عظیمی از داده است. مجموعه دادگان پیش‌تمرین شامل انواع متون عمومی و خاص حوزه‌هایی مانند مالی، پزشکی و حقوقی است. این مجووعه دادگان برای آموزش ماشین و ساخت LLM یا مدل‌های زبانی بزرگ کاربرد دارند. مدل‌های پایه‌ای و عمومی برای شکل گرفتن نیازمند چنین مجموعه دادگانی هستند. به‌عنوان مثال وقتی از مدل GPT ‌صحبت می‌کنیم معمولاً با چنین مجموعه دادگانی آموزش یافته‌اند. مجموعه دادگان پیش‌تمرین با مقیاس بزرگ و کیفیت بالا، بنیان آموزش مدل‌های زبانی بزرگ را شکل می‌دهند و تأثیر مستقیمی بر عملکرد و توانایی‌های این مدل‌ها دارند​. مجموعه دادگان پیش‌تمرین به دو دسته اصلی تقسیم می‌شوند:

الف) دیتاست‌های پیش‌تمرین عمومی: این دیتاست‌ها شامل مجموعه‌ای وسیع و متنوع از متون هستند که از منابع مختلفی گردآوری شده‌اند و برای آموزش مدل‌های پایه‌ای و عمومی مناسب هستند. انواع متون موجود در این بخش شامل موارد زیر است:

  • صفحات وب: داده‌هایی که از خزیدن در وب‌سایت‌های مختلف به‌دست می‌آیند و دارای مقیاس بزرگ، چندزبانی و تنوع موضوعی هستند.
  • متون زبانی: شامل مجموعه‌های بزرگی از زبان نوشتاری و گفتاری مانند «American National Corpus» که منابعی غنی برای یادگیری زبان محسوب می‌شوند.
  • کتاب‌ها: کتاب‌ها با محتوای طولانی و کیفیت بالای متن می‌توانند مدل‌ها را در یادگیری زبان انسانی و مفاهیم عمیق‌تر کمک کنند.
  • مواد آکادمیک: شامل مقاله‌ها و مطالب علمی که اطلاعات دقیق و تخصصی را به مدل‌ها منتقل می‌کنند.
  • کد: دیتاست‌هایی شامل کدهای برنامه‌نویسی که برای آموزش مدل‌های زبانی درک و تولید کدهای برنامه‌نویسی را امکان‌پذیر می‌کنند.
  • پیکره موازی: متونی در دو یا چند زبان که برای ترجمه ماشینی و کارهای چندزبانی کاربرد دارند.
  • شبکه‌های اجتماعی: پست‌ها و نظرات کاربران در شبکه‌های اجتماعی که به مدل‌ها در یادگیری ارتباطات محاوره‌ای و الگوهای رفتاری کمک می‌کنند.
  • دانشنامه‌ها: متونی از دانشنامه‌ها و سایت‌هایی مانند ویکی‌پدیا که به‌عنوان منابع دانش پایه‌ای به‌کار می‌روند.

ب) دیتاست‌های پیش‌تمرین خاص حوزه: این دیتاست‌ها برای حوزه‌های خاصی مانند مالی، پزشکی، حقوقی و غیره طراحی شده‌اند و داده‌های تخصصی مربوط به هر حوزه را شامل می‌شوند. این دیتاست‌ها بعد از پیش‌تمرین عمومی مورد استفاده قرار می‌گیرند تا مدل‌ها توانایی‌های لازم برای انجام کارهای تخصصی را در حوزه‌های مشخص به‌دست آورند. برخی از دیتاست‌های حوزه‌محور عبارتند از:

  • حوزه مالی: شامل گزارش‌های مالی، اخبار اقتصادی و اطلاعات بازار برای بهبود عملکرد مدل‌ها در تحلیل و پردازش داده‌های مالی.
  • حوزه پزشکی: شامل مقالات، کتاب‌های پزشکی و اطلاعات تشخیصی که به مدل‌ها کمک می‌کند دانش لازم برای وظایف مرتبط با پزشکی را کسب کنند.
  • حوزه حقوقی: شامل قوانین و مقررات و پرونده‌های قضایی که برای کارهای مرتبط با حقوق و قانون مناسب است.
  • حوزه حمل و نقل و حوزه ریاضی نیز از دیگر حوزه‌های خاص هستند که دیتاست‌های تخصصی خود را دارند.

2- مجموعه‌ دادگان تنظیم دقیق (Instruction Fine-tuning Datasets)

این دسته از مجموعه دادگان به منظور تقویت توانایی مدل‌های زبانی بزرگ (LLMs) طراحی شده‌اند. این دیتاست‌ها شامل مجموعه‌ای از جفت‌های متن هستند که در آن‌ها «ورودی» (instruction inputs) به مدل ارائه می‌شود و «خروجی» (answer outputs) پاسخی است که مدل ارائه می‌دهد. هدف اصلی این دیتاست‌ها، پر کردن شکاف میان پیش‌بینی کلمه بعدی توسط مدل و توانایی پیروی از دستورات انسانی است که به افزایش کنترل‌پذیری و کارایی مدل‌ها کمک می‌کند.

مجموعه دادگان تنظیم دقیق هم به ‌صورت دستی و توسط انسان و هم به صورت اتوماتیک و توسط مدل قابلیت ایجاد شدن دارند. البته می‌توان این مجموعه دادگان را به شیوه ترکیب روش دستی و اتوماتیک نیز ایجاد کرد.

برای درک بهتر مجموعه دادگان تنظیم دقیق بهتر است تصور کنید که این دیتاست‌ها مثل مجموعه‌ای از دستورات و پاسخ‌های از پیش تعریف‌شده هستند که به مدل کمک می‌کنند یاد بگیرد چگونه به دستورات و نیازهای کاربران پاسخ دهد.

به‌عنوان مثال فرض کنید که دیتاست تنظیم دقیق با هدف بازنویسی یا اصلاح متن را آماده می‌کنید؛ آنگاه دیتاست ست شما مجموعه‌ای از سه ستون و n سطر است. هر ستون به شکل زیر ساماندهی شده است:

  • دستور: “این جمله را رسمی‌تر کن.”
  • متن ورودی: “من دوست دارم فردا بیام سر کار.”
  • پاسخ مورد انتظار: “مایلم فردا به محل کار بیایم.”

مجموعه دادگان با هدف خلاصه‌سازی متن، ترجمه، پرسش و پاسخ، بازنویسی یا اصلاح متن، تولید ایده را می‌توان برای تنظیم دقیق یک مدل زبانی جمع‌آوری کرد.

فراموش نکنید که اگر اگر مدل فقط با متن‌های عمومی و دیتاست پیش‌تمرین آموزش ببیند، ممکن است به طور دقیق نتواند بفهمد کاربر چه می‌خواهد. دیتاست‌های تنظیم دقیق به مدل کمک می‌کنند تا منظور کاربران را بهتر درک کند و پاسخی مرتبط و دقیق‌تر بدهد.

مجموعه دادگان تنظیم دقیق به مدل کمک می‌کنند تا یاد بگیرد چگونه با انواع دستورها یا سوالات تعامل داشته باشد و به درستی پاسخ دهد. با استفاده از این دیتاست‌ها، مدل می‌تواند به نیازهای کاربر بهتر پاسخ دهد و دقیقاً همان کاری را که از او خواسته شده، انجام دهد.

3- دیتاست‌های ترجیحی (Preference Datasets)

نوعی دیتاست هستند که برای هماهنگی خروجی‌های مدل‌های زبانی بزرگ (LLMs) با ترجیحات و انتظارات انسانی طراحی شده‌اند. این دیتاست‌ها معمولاً در مرحله تطبیق مدل‌ها (alignment) به کار می‌روند و به مدل‌ها کمک می‌کنند تا خروجی‌هایی تولید کنند که از نظر کاربران مطلوب‌تر و ایمن‌تر باشد.

دیتاست‌های ترجیحی به مدل‌ها کمک می‌کنند که خروجی‌های خود را از سه جهت با انتظارات انسانی همسو کنند:

  1. کاربردپذیری: مدل توانایی پیروی از دستورات را داشته باشد.
  2. صداقت: مدل از تولید اطلاعات ساختگی پرهیز کند.
  3. ایمنی: مدل از تولید محتوای غیرقانونی یا مضر خودداری کند.

ارزیابی‌های موجود در دیتاست‌های ترجیحی عمدتاً شامل چهار روش اصلی است:

  1. رأی‌گیری (Vote): انتخاب بهترین گزینه از میان دو پاسخ یا چند پاسخ به یک سؤال.
  2. مرتب‌سازی (Sort): مرتب کردن چند پاسخ به یک سؤال به ترتیب اولویت.
  3. امتیازدهی (Score): اختصاص امتیاز به پاسخ‌ها در یک محدوده مشخص برای نمایش شدت ترجیحات.
  4. سایر روش‌ها: برخی دیتاست‌ها از روش‌های جایگزین برای نمایش ترجیحات بهره می‌برند، مانند مقایسه‌های دقیق‌تر.

برای توضیح بهتر، بیایید یک مثال ساده را با هم مرور کنیم؛ به‌عنوان مثال فرض کنید شما به‌دنبال آن هستید که مدل پاسخ بهتری را از میان چندین پاسخ انتخاب و ارائه کند؛ در اینجا دیتاست تریجیحی کمک شایانی خواهد کرد. مثلا دیتاست زیر را نظر بگیرید:

  • سوال: “بهترین مقصد برای سفر در فصل تابستان کجاست؟”
  • پاسخ اول: “سفر به شمال ایران در تابستان می‌تواند بسیار دلپذیر باشد.”
  • پاسخ دوم: “در تابستان، کویرها هم جذابیت خاص خودشان را دارند.”

در اینجا، کاربران ممکن است پاسخ اول را بیشتر بپسندند و آن را انتخاب کنند. دیتاست ترجیحی این نوع اطلاعات را ثبت می‌کند تا مدل یاد بگیرد در موقعیت‌های مشابه، پاسخ دلپذیرتر را ارائه دهد.

دیتاست‌های ترجیحی با محوریت انتخاب پاسخ بهتر، اولویت‌بندی پاسخ‌ها، امتیازدهی به کیفیت پاسخ‌ها، اصلاح سبک پاسخ‌ها و سایر موارد مشابه جمع‌آوری می‌شوند. در شکل زیر یک نمونه ساده از یک مجموعه دادگان ترجیحی دیده می‌شود.

4- دیتاست‌های ارزیابی (Evaluation Datasets)

دیتاست‌های ارزیابی برای ارزیابی عملکرد مدل‌های زبانی بزرگ (LLMs) در انجام وظایف مختلف استفاده می‌شوند. این دیتاست‌ها شامل مجموعه‌ای از نمونه‌های داده هستند که به دقت جمع‌آوری و برچسب‌گذاری شده‌اند و به متخصصان کمک می‌کنند تا با مقایسه عملکرد مدل‌های مختلف، نقاط قوت و ضعف آن‌ها را شناسایی و بهینه‌سازی کنند.

دیتاست‌های ارزیابی در زمینه‌های مختلفی استفاده می‌شوند و می‌توانند به دسته‌های متنوعی تقسیم شوند که شامل موارد زیر است:

  • آزمون‌ها و امتحانات (Exam): مانند AGIEval، که توانایی مدل‌ها را در حل سوالات استاندارد آزمون‌های انسانی بررسی می‌کند.
  • حوزه‌های تخصصی (Subject-Specific): دیتاست‌هایی که برای ارزیابی مدل‌ها در حوزه‌هایی خاص مانند پزشکی، حقوق، مالی و مهندسی استفاده می‌شوند.
  • درک زبان طبیعی (NLU): این دسته شامل کارهایی مانند طبقه‌بندی، تحلیل احساسات، و استنتاج متنی است.
  • استدلال (Reasoning): ارزیابی مدل‌ها در زمینه‌های مرتبط با استدلال قیاسی و استقرایی.
  • دانش (Knowledge): ارزیابی میزان دانش عمومی مدل‌ها و توانایی در پاسخ‌دهی به سوالات دانشی.
  • کد و برنامه‌نویسی (Code): ارزیابی مهارت‌های مدل در تولید، تصحیح و بهینه‌سازی کدهای برنامه‌نویسی.
  • ارزیابی ایمنی و تطابق با هنجارهای اجتماعی (Safety and Social Norms): بررسی عملکرد مدل‌ها در تولید پاسخ‌های ایمن و مطابق با هنجارهای اجتماعی.

برای ارزیابی خروجی مدل‌ها، سه روش اصلی وجود دارد:

  1. ارزیابی کد (Code Evaluation): شامل محاسبه معیارهای ارزیابی با استفاده از کدهای خاص و مقایسه آن‌ها با پاسخ‌های مرجع.
  2. ارزیابی انسانی (Human Evaluation): ارزیابی خروجی مدل‌ها توسط ارزیابان انسانی که از روش‌هایی مانند امتیازدهی کیفی و مقایسه مستقیم استفاده می‌کنند.
  3. ارزیابی خودکار توسط مدل‌ها (Model Evaluation): در این روش، خود مدل‌ها به‌عنوان ارزیاب عمل کرده و کیفیت پاسخ‌ها را ارزیابی می‌کنند. این روش به کاهش هزینه‌های ارزیابی کمک می‌کند، اما ممکن است کاملاً مطابق با قضاوت انسانی نباشد​.

فراموش نکنیم که دیتاست‌های ارزیابی مجموعه‌ای از داده‌ها هستند که برای سنجش و ارزیابی عملکرد مدل‌ها در انجام وظایف خاص طراحی شده‌اند. این دیتاست‌ها مانند یک آزمون یا امتحان برای مدل‌ها هستند که ببینیم چقدر خوب عمل می‌کنند.

مثلا فرض کنید ما می‌خواهیم یک مدل را به لحاظ طبقه‌بندی احساسات ارزیابی کنیم. آنگاه ما یک مجموعه دادگان خواهیم داشت که به شکل زیر تقسیم شده است.

  • متن: “این فیلم فوق‌العاده بود! بازیگران عالی عمل کردند.”
  • پاسخ مورد انتظار: “احساس مثبت.”

در اینجا، خروجی مدل به شیوه شیوه‌های گفته شده نسبت به ارزیابی خروجی مدل اقدام کرده و نشان می‌دهد که چقدر در تحلیل احساسات خوب عمل می‌کند.

5- دیتاست‌های پردازش زبان طبیعی سنتی (Traditional NLP Datasets)

مجموعه دادگان پردازش زبان طبیعی سنتی شامل مجموعه‌ای از داده‌ها هستند که برای آموزش و ارزیابی مدل‌های پردازش زبان طبیعی (NLP) قبل از ظهور مدل‌های زبانی بزرگ (LLMs) به کار می‌رفتند. این داده‌مجموعه‌ها به‌ویژه برای وظایف متنوع NLP مانند طبقه‌بندی متن، استخراج اطلاعات، خلاصه‌سازی متن و دیگر کاربردهای زبانی طراحی شده‌اند. این داده‌مجموعه‌ها به مدل‌ها کمک می‌کنند تا وظایف خاصی را در پردازش زبان با دقت و کارایی بیشتری انجام دهند.

ارسال شده در یادداشت علمیبرچسب ها:
یک دیدگاه بنویسید