واژه‌نامه هوش مصنوعی و یادگیری ماشین

اصطلاحات هوش مصنوعی

آنچه در این مقاله می خوانید ...

در دنیای امروز، هوش مصنوعی و یادگیری ماشین به عنوان دو حوزه پیشرو در فناوری اطلاعات و علوم کامپیوتر شناخته می‌شوند. این فناوری‌ها نه تنها در صنعت و تجارت، بلکه در زندگی روزمره ما نیز تأثیرات عمیقی دارند. با توجه به رشد سریع این حوزه‌ها، آشنایی با اصطلاحات و واژه‌های کلیدی آن‌ها برای پژوهشگران، دانشجویان و علاقه‌مندان به این زمینه‌ها ضروری است. در این مقاله، به ارائه یک واژه‌نامه جامع و کاربردی شامل 176 مورد از مهم‌ترین و پرکاربردترین اصطلاحات هوش مصنوعی و یادگیری ماشین می‌پردازیم. هدف ما این است که با توضیحات مختصر و مفید، درک بهتری از این مفاهیم پیچیده فراهم کنیم و به تسهیل یادگیری و پژوهش در این حوزه‌های نوظهور کمک نماییم.

الف

آر-مربع (R-squared)

یک معیار آماری که نشان‌دهنده خوبی برازش یک مدل رگرسیون است. این معیار نشان‌دهنده نسبت واریانس متغیر وابسته است که توسط متغیرهای مستقل در مدل توضیح داده می‌شود.

آزمایش A/B

روشی برای مقایسه دو نسخه از یک مدل، الگوریتم یا سیستم با قرار دادن آنها در معرض گروه‌های مختلف کاربران و اندازه‌گیری تفاوت در نتایج. برای تصمیم‌گیری مبتنی بر داده در مورد اینکه کدام نسخه بهتر عمل می‌کند استفاده می‌شود.

اتوماسیون فرآیند رباتیک (RPA)

استفاده از ربات‌های نرم‌افزاری (ربات‌ها) برای خودکارسازی وظایف تکراری و مبتنی بر قانون که معمولاً توسط انسان انجام می‌شود. این روش اغلب برای خودکارسازی فرآیندهای تجاری، مانند ورود داده‌ها، پردازش فاکتور و وظایف خدمات مشتری استفاده می‌شود.

ادغام (Pooling)

عملیاتی که در شبکه‌های عصبی کانولوشن (CNN) برای کاهش نمونه‌برداری نقشه‌های ویژگی با کاهش ابعاد مکانی آنها استفاده می‌شود. به مقاوم‌تر شدن مدل در برابر تغییرات در موقعیت و اندازه ویژگی‌ها کمک می‌کند.

استخراج قانون وابستگی (Association Rule Mining)

کشف روابط پنهان در مجموعه داده‌های بزرگ. این تکنیک الگوهای مکرر و همبستگی بین موارد را پیدا می‌کند.

استخراج ویژگی (Feature Extraction)

فرآیند استخراج خودکار ویژگی‌های مرتبط از داده‌های خام، اغلب با استفاده از تکنیک‌هایی مانند تحلیل مؤلفه‌های اصلی (PCA) یا رمزگذارهای خودکار.

استنتاج علّی (Causal Inference)

فراتر از همبستگی است و سعی می‌کند روابط واقعی علت و معلولی را از داده‌ها تعیین کند. برای درک تأثیر واقعی تصمیمات یا مداخلات بسیار مهم است و اثبات قطعی آن می‌تواند بسیار چالش برانگیز باشد.

اعتبارسنجی متقابل (Cross-Validation)

تکنیکی که برای ارزیابی عملکرد یک مدل یادگیری ماشین با تقسیم داده‌ها به چندین fold (زیر مجموعه) استفاده می‌شود. مدل بر روی زیرمجموعه‌ای از fold ها آموزش داده می‌شود و بر روی fold باقی مانده ارزیابی می‌شود. این فرآیند چندین بار تکرار می‌شود و هر fold یک بار به عنوان مجموعه ارزیابی عمل می‌کند.

افزایش داده (Data Augmentation)

مجموعه‌ای از تکنیک‌هایی که برای افزایش اندازه و تنوع یک مجموعه داده آموزشی با ایجاد کپی‌های اصلاح شده از داده‌های موجود یا داده‌های مصنوعی استفاده می‌شود. به بهبود استحکام مدل و جلوگیری از بیش برازش، به ویژه زمانی که داده‌ها محدود هستند، کمک می‌کند.

اقدام (Action) (در یادگیری تقویتی)

یک حرکت یا تصمیم خاص که توسط عامل در محیط خود گرفته می‌شود. آن را مانند حرکت شطرنج در نظر بگیرید –  وضعیت بازی را تغییر می‌دهد و به طور بالقوه منجر به پاداش یا جریمه می‌شود.

الگوریتم (Algorithm)

قلب هر راه حل هوش مصنوعی/یادگیری ماشین. این یک دستورالعمل گام به گام یا مجموعه‌ای از قوانین است که داده‌های ورودی را گرفته و آنها را به خروجی دلخواه تبدیل می‌کند. آن را مانند یک دستور پخت و پز در نظر بگیرید، اما برای داده ها.

الگوریتم ژنتیک (Genetic Algorithm)

یک الگوریتم بهینه‌سازی با الهام از فرآیند انتخاب طبیعی. این شامل ایجاد جمعیتی از راه حل‌های کاندید و اعمال تکراری عملیاتی مانند جهش و تقاطع برای تکامل به سمت راه حل‌های بهتر است.

امتیاز F1 (F1-Score)

معیاری که دقت و فراخوانی را ترکیب می‌کند و معیاری متعادل از عملکرد یک مدل طبقه‌بندی، به ویژه در موارد کلاس‌های نامتعادل ارائه می‌دهد.

انتخاب مدل (Model Selection)

فرآیند انتخاب بهترین مدل یادگیری ماشین برای یک کار خاص از مجموعه‌ای از مدل‌های کاندید. این شامل ارزیابی و مقایسه مدل‌ها بر اساس معیارهایی مانند دقت، دقت، فراخوانی و امتیاز F1 است.

انتخاب ویژگی (Feature Selection)

فرآیند انتخاب زیرمجموعه‌ای از مرتبط‌ترین ویژگی‌ها از یک مجموعه بزرگتر برای بهبود عملکرد مدل، کاهش بیش برازش و سرعت بخشیدن به آموزش.

انصاف (Fairness)

یک ملاحظه اخلاقی حیاتی در هوش مصنوعی، حصول اطمینان از اینکه سیستم‌های هوش مصنوعی بر اساس ویژگی‌های حساس مانند نژاد، جنسیت یا مذهب، علیه افراد یا گروه‌ها تبعیض قائل نمی‌شوند.

ب

برچسب‌گذاری نقش کلمات (POS Tagging)

یک کار NLP که شامل اختصاص دادن برچسب‌های دستوری (مثلاً اسم، فعل، صفت) به کلمات در یک جمله است. برای وظایفی مانند بررسی گرامر، ترجمه ماشینی و استخراج اطلاعات مفید است.

بگینگ (Bootstrap Aggregating)

یک تکنیک یادگیری گروهی که در آن مدل‌های متعدد بر روی زیرمجموعه‌های مختلف داده‌های آموزشی (ایجاد شده از طریق بوت استرپینگ) آموزش داده می‌شوند و پیش‌بینی‌های آنها ترکیب می‌شود. واریانس را کاهش می‌دهد و به جلوگیری از بیش برازش کمک می‌کند.

بهینه‌ساز (Optimizer)

الگوریتمی که برای تنظیم پارامترهای یک مدل یادگیری ماشین در طول آموزش برای به حداقل رساندن تابع ضرر استفاده می‌شود. مثال‌: نزول گرادیان، نزول گرادیان تصادفی (SGD)، Adam.

بهینه‌سازی بیزی (Bayesian Optimization)

یک رویکرد پیچیده برای یافتن مجموعه بهینه از فراپارامترها برای یک مدل یادگیری ماشین. از یک مدل احتمالی برای هدایت جستجو برای بهترین پیکربندی استفاده می‌کند و فرآیند را کارآمدتر می‌کند.

بیز ساده (Naive Bayes)

یک الگوریتم طبقه‌بندی احتمالی مبتنی بر قضیه بیز. این فرض “ساده لوحانه” را ایجاد می‌کند که ویژگی‌ها مستقل از یکدیگر هستند، که محاسبات را ساده می‌کند اما ممکن است در همه موارد صادق نباشد.

بیش برازش (Overfitting)

زمانی اتفاق می‌افتد که یک مدل یادگیری ماشین داده‌های آموزشی را خیلی خوب یاد می‌گیرد و به جای الگوهای اساسی، نویز و نوسانات تصادفی را ثبت می‌کند. یک مدل بیش برازش روی داده‌های آموزشی خوب عمل می‌کند اما روی داده‌های نادیده ضعیف عمل می‌کند.

بینایی کامپیوتر (Computer Vision)

رایانه‌ها را قادر می‌سازد تا اطلاعات بصری را از جهان، مانند تصاویر و ویدیوها، “ببینند” و تفسیر کنند. این شامل وظایفی مانند طبقه‌بندی تصویر، تشخیص شی، تقسیم‌بندی تصویر و موارد دیگر است.

پ

پاداش (Reward) (در یادگیری تقویتی)

یک سیگنال عددی که عامل پس از انجام یک عمل از محیط دریافت می‌کند. این سیگنال نشان‌دهنده مطلوبیت حالت حاصل است. هدف عامل یادگیری سیاستی است که پاداش تجمعی آن را در طول زمان به حداکثر برساند.

پاکسازی داده (Data Cleaning)

فرآیند حیاتی شناسایی و تصحیح یا حذف خطاها، ناسازگاری‌ها و نادرستی‌ها در یک مجموعه داده. پاکسازی داده‌ها، کیفیت داده‌ها را تضمین می‌کند، که برای تجزیه و تحلیل و مدل‌سازی قابل اعتماد ضروری است.

پانداس (Pandas)

یک کتابخانه محبوب پایتون برای دستکاری و تجزیه و تحلیل داده‌ها. این کتابخانه ساختارهای داده‌ای مانند DataFrames را برای ذخیره و دستکاری کارآمد داده‌های ساختاریافته ارائه می‌دهد.

پایتورچ (PyTorch)

یک کتابخانه یادگیری ماشین منبع باز که توسط آزمایشگاه تحقیقات هوش مصنوعی فیس‌بوک (FAIR) توسعه یافته است. این کتابخانه به دلیل انعطاف‌پذیری، گراف‌های محاسباتی پویا و استفاده گسترده در تحقیقات و تولید شناخته شده است.

پایتون (Python)

یک زبان برنامه‌نویسی سطح بالا و تفسیر شده که به دلیل کتابخانه‌های گسترده، خوانایی و جامعه فعال، به طور گسترده در علوم داده، یادگیری ماشین و هوش مصنوعی استفاده می‌شود.

پردازش زبان طبیعی (NLP)

شاخه‌ای از هوش مصنوعی که به تعامل بین رایانه‌ها و زبان انسان می‌پردازد. این شامل وظایفی مانند طبقه‌بندی متن، ترجمه ماشینی، تحلیل احساسات و پاسخگویی به سؤال است.

پس انتشار (Backpropagation)

الگوریتم اساسی برای آموزش شبکه‌های عصبی مصنوعی. این کار با محاسبه گرادیان تابع ضرر با توجه به وزن‌های شبکه و سپس تنظیم وزن‌ها برای به حداقل رساندن خطا کار می‌کند.

پیش پردازش داده (Data Preprocessing)

مرحله ضروری تبدیل داده‌های خام به قالبی مناسب برای آموزش مدل‌های یادگیری ماشین. این شامل وظایفی مانند پاکسازی داده‌ها، مقیاس‌گذاری ویژگی‌ها، مدیریت مقادیر از دست رفته و موارد دیگر است.

ت

تابع ارزش (Value Function) (در یادگیری تقویتی)

تابعی که پاداش تجمعی مورد انتظار را که یک عامل می‌تواند از یک حالت معین شروع کند و از یک سیاست خاص پیروی کند، تخمین می‌زند. این عامل را به سمت حالت‌ها و اقداماتی که احتمالاً منجر به پاداش‌های بالاتر می‌شوند، هدایت می‌کند.

تابع ضرر (Loss Function)

همچنین به عنوان تابع هزینه شناخته می‌شود، خطا را بین پیش‌بینی‌های انجام شده توسط یک مدل یادگیری ماشین و مقادیر هدف واقعی اندازه‌گیری می‌کند. هدف آموزش به حداقل رساندن تابع ضرر است.

تابع فعال‌سازی (Activation Function)

“موتور” درون هر نورون یک شبکه عصبی. مجموع وزنی ورودی‌ها را گرفته و یک تابع ریاضی (مانند sigmoid، ReLU) را روی آن اعمال می‌کند و غیرخطی بودن را معرفی می‌کند که برای یادگیری الگوهای پیچیده ضروری است.

تابع هزینه (Cost Function)

تابعی که خطا را بین خروجی پیش‌بینی شده یک مدل یادگیری ماشین و مقادیر هدف واقعی کمی می‌کند. هدف آموزش یافتن پارامترهای مدل است که تابع هزینه را به حداقل می‌رساند.

تنسور (Tensor)

یک آرایه چند بعدی که ساختار داده اساسی مورد استفاده در چارچوب‌های یادگیری عمیق مانند TensorFlow و PyTorch است. تانسورها می‌توانند اسکالرها، بردارها، ماتریس‌ها و آرایه‌های با ابعاد بالاتر را نشان دهند.

تبلیو (Tableau)

یک نرم‌افزار محبوب تجسم داده‌ها که به کاربران اجازه می‌دهد تا به منابع داده مختلف متصل شوند، داشبوردهای تعاملی ایجاد کنند و بینش‌ها را به اشتراک بگذارند.

تجزیه و تحلیل سری‌های زمانی (Time Series Analysis)

مجموعه‌ای از تکنیک‌ها برای تجزیه و تحلیل داده‌های جمع‌آوری‌شده در طول زمان برای درک الگوها، روندها و فصلی بودن. برای پیش‌بینی، تشخیص ناهنجاری و سایر کاربردهای مربوط به داده‌های وابسته به زمان استفاده می‌شود.

تحلیل احساسات (Sentiment Analysis)

یک کار NLP که شامل تعیین لحن احساسی یا احساس بیان شده در متن است. این روش برای تجزیه و تحلیل نظرات مشتریان، پست‌های رسانه‌های اجتماعی و سایر داده‌های متنی برای درک افکار عمومی استفاده می‌شود.

تحلیل مؤلفه‌های اصلی (PCA)

یک تکنیک کاهش ابعاد که مجموعه‌ای از متغیرهای همبسته را به مجموعه‌ای کوچکتر از متغیرهای غیرهمبسته به نام مؤلفه‌های اصلی تبدیل می‌کند. مؤلفه‌های اصلی حداکثر واریانس را در داده‌ها ثبت می‌کنند.

ترانسفورمر (Transformer)

یک معماری شبکه عصبی که وظایف پردازش زبان طبیعی را متحول کرده است. ترانسفورمرها از مکانیسم‌های توجه برای پردازش داده‌های متوالی استفاده می‌کنند و به آنها اجازه می‌دهند تا وابستگی‌های دوربرد را به طور مؤثر بیاموزند.

ترجمه ماشینی (Machine Translation)

ترجمه خودکار متن یا گفتار از یک زبان به زبان دیگر با استفاده از رایانه. با استفاده از تکنیک‌های یادگیری عمیق پیشرفت قابل توجهی حاصل شده است، اما چالش‌هایی در دستیابی به روانی و دقت در سطح انسان باقی مانده است.

تشخیص شی (Object Detection)

یک کار بینایی کامپیوتر که شامل شناسایی و محلی‌سازی اشیاء مورد علاقه در یک تصویر یا ویدیو است. با ارائه جعبه‌های محدود کننده در اطراف اشیاء شناسایی شده، فراتر از طبقه‌بندی تصویر است.

تشخیص گفتار (Speech Recognition)

فرآیند تبدیل زبان گفتاری به متن با استفاده از رایانه. این یک فناوری کلیدی در پشت دستیارهای مجازی، نرم‌افزار دیکته و ابزارهای دسترسی است.

تشخیص ناهنجاری (Anomaly Detection)

یافتن “مورد عجیب و غریب”. این تکنیک نقاط داده‌ای را شناسایی می‌کند که به طور قابل توجهی از الگوی عادی در یک مجموعه داده منحرف می‌شوند. برای تشخیص تقلب، امنیت شبکه یا شناسایی تجهیزات معیوب مفید است.

تقسیم‌بندی تصویر (Image Segmentation)

تقسیم یک تصویر به مناطق یا بخش‌های معنادار بر اساس اشیاء یا مناطقی که در آنها وجود دارد. دقیق‌تر از طبقه‌بندی تصویر، درک سطح پیکسلی از محتوای تصویر را ارائه می‌دهد.

تقویت (Boosting)

یک روش یادگیری گروهی که چندین یادگیرنده ضعیف (مدل‌هایی که کمی بهتر از حدس زدن تصادفی عمل می‌کنند) را برای ایجاد یک یادگیرنده قوی ترکیب می‌کند. این کار با آموزش متوالی مدل‌ها کار می‌کند که هر کدام بر اصلاح خطاهای مدل ق�لی تمرکز دارند.

تکرار (Iteration)

یک به‌روزرسانی واحد از پارامترهای مدل در طول فرآیند آموزش. در هر تکرار، مدل پیش‌بینی‌هایی را روی دسته‌ای از داده‌ها انجام می‌دهد، خطا را محاسبه می‌کند و پارامترهای خود را برای کاهش خطا به‌روزرسانی می‌کند.

تکینگی (Singularity)

نقطه‌ای فرضی در آینده که هوش مصنوعی از هوش انسانی پیشی می‌گیرد و منجر به پیشرفت‌های سریع فناوری می‌شود که می‌تواند تمدن را به طور اساسی تغییر دهد.

تنزل مدل (Model Degradation)

پدیده‌ای که در آن عملکرد یک مدل یادگیری ماشین مستقر به مرور زمان به دلیل عواملی مانند رانش داده، تغییرات در توزیع داده‌های اساسی یا رانش مفهوم کاهش می‌یابد.

تنسورفلو (TensorFlow)

یک کتابخانه منبع باز برای محاسبات عددی و یادگیری ماشین در مقیاس بزرگ که توسط گوگل توسعه یافته است. این کتابخانه چارچوبی را برای تعریف، آموزش و استقرار مدل‌های یادگیری ماشین ارائه می‌دهد.

تنظیم دقیق (Fine-tuning)

فرآیند گرفتن یک مدل از پیش آموزش دیده (مدلی که قبلاً روی یک مجموعه داده بزرگ آموزش داده شده است) و تطبیق آن با یک کار یا مجموعه داده جدید اما مشابه با آموزش بیشتر آن بر روی داده‌های جدید.

تنظیم فراپارامتر (Hyperparameter Tuning)

فرآیند یافتن مقادیر بهینه برای فراپارامترها برای دستیابی به بهترین عملکرد ممکن از یک مدل یادگیری ماشین. اغلب شامل تکنیک‌هایی مانند جستجوی شبکه‌ای، جستجوی تصادفی یا بهینه‌سازی بیزی است.

تولید زبان طبیعی (NLG)

زیرشاخه‌ای از NLP که بر توانمندسازی رایانه‌ها برای تولید متن انسان مانند تمرکز دارد. این شامل وظایفی مانند ترجمه ماشینی، خلاصه‌سازی متن، تولید دیالوگ و موارد دیگر است.

ج

جابجایی شغلی (Job Displacement)

نگرانی در مورد پتانسیل هوش مصنوعی و اتوماسیون برای جابجایی کارگران انسانی از مشاغل خود، به ویژه در وظایفی که می‌توانند خودکار شوند. بر نیاز به آموزش مجدد نیروی کار و سازگاری با بازارهای کار در حال تغییر تأکید می‌کند.

جاسازی کلمه (Word Embedding)

تکنیکی که برای نمایش کلمات به عنوان بردارهای متراکم از اعداد واقعی استفاده می‌شود. جاسازی کلمات، روابط معنایی بین کلمات را ثبت می‌کند و به کلماتی با معانی مشابه اجازه می‌دهد تا نمایش‌های برداری مشابهی داشته باشند.

جستجوی تصادفی (Random Search)

یک روش تنظیم فراپارامتر که در آن مقادیر فراپارامتر به طور تصادفی از یک فضای جستجوی تعریف شده نمونه‌برداری می‌شوند. این روش ساده‌تر و اغلب کارآمدتر از جستجوی شبکه‌ای است، به ویژه برای فضاهای فراپارامتر با ابعاد بالا.

جستجوی شبکه‌ای (Grid Search)

یک روش تنظیم فراپارامتر که شامل تعریف شبکه‌ای از مقادیر ممکن فراپارامتر و ارزیابی جامع عملکرد مدل برای هر ترکیب از مقادیر است. از نظر محاسباتی پرهزینه است اما یافتن بهترین ترکیب در فضای جستجو را تضمین می‌کند.

جنگل تصادفی (Random Forest)

یک روش یادگیری گروهی که چندین درخت تصمیم را برای پیش‌بینی ترکیب می‌کند. این روش بیش برازش را کاهش می‌دهد و اغلب در مقایسه با درخت‌های تصمیم منفرد به دقت بالاتری دست می‌یابد.

ح

حافظه کوتاه‌مدت بلند (LSTM)

نوعی شبکه عصبی بازگشتی (RNN) که برای غلبه بر مشکل محو شدن گرادیان که می‌تواند در RNN های استاندارد رخ دهد، طراحی شده است. LSTM ها دارای سلول‌های حافظه داخلی هستند که به آنها اجازه می‌دهد وابستگی‌های دوربرد را در داده‌های متوالی بیاموزند و آنها را برای وظایفی مانند مدل‌سازی زبان و تشخیص گفتار مناسب می‌کند.

حالت (State)

در یادگیری تقویتی، شرح کاملی از محیط در یک زمان خاص. این اطلاعات لازم را برای تصمیم‌گیری در اختیار عامل قرار می‌دهد.

حریم خصوصی (Privacy)

یک ملاحظه اخلاقی حیاتی در هوش مصنوعی، حصول اطمینان از اینکه جمع‌آوری، ذخیره‌سازی و استفاده از داده‌های شخصی در سیستم‌های هوش مصنوعی به حق حریم خصوصی و حفاظت از داده‌های افراد احترام می‌گذارد.

حکمرانی الگوریتمی (Algorithmic Governance)

استفاده از الگوریتم‌ها در تصمیم‌گیری‌هایی که تأثیر بسزایی در جامعه دارند، مانند حوزه‌هایی مانند عدالت کیفری، مراقبت‌های بهداشتی یا رفاه اجتماعی. نگرانی‌های اخلاقی در مورد انصاف، سوگیری و شفافیت را افزایش می‌دهد.

خ

خوشه بندی (Clustering)

یک تکنیک یادگیری بدون نظارت که نقاط داده را بر اساس شباهت آنها در خوشه‌ها گروه‌بندی می‌کند. نقاط داده در یک خوشه بیشتر از نقاط داده در خوشه‌های دیگر به یکدیگر شباهت دارند.

خوشه‌ بندی سلسله مراتبی (Hierarchical Clustering)

نوعی خوشه ‌بندی که در آن خوشه‌ها در یک ساختار سلسله مراتبی درخت مانند سازماندهی می‌شوند و خوشه‌های مشابه در کنار هم گروه‌بندی می‌شوند. امکان تجسم روابط بین خوشه‌ها را در سطوح مختلف جزئیات فراهم می‌کند.

خوشه‌ بندی کا-میانگین (K-Means Clustering)

یک الگوریتم خوشه‌بندی محبوب که نقاط داده را به “k” خوشه تقسیم می‌کند، که در آن “k” یک پارامتر تعریف شده توسط کاربر است. هدف آن به حداقل رساندن واریانس درون خوشه‌ای و اختصاص نقاط به خوشه‌ای با نزدیک‌ترین مرکز (میانگین) است.

 

برای مطالعه مقاله «نقشه راه هوش مصنوعی» به لینک زیر مراجعه فرمایید.

هوش مصنوعی و بینایی ماشین

هوش مصنوعی و بینایی ماشین: نقشه راه، فرصت ها و چالش ها

 

د

داده‌کاوی (Data Mining)

فرآیند استخراج دانش و بینش از مقادیر زیادی از داده‌ها. اغلب شامل تکنیک‌هایی از یادگیری ماشین، آمار و مدیریت پایگاه داده است.

داده‌های آزمایشی (Test Data)

بخشی جداگانه از داده‌ها که در طول آموزش از مدل دریغ می‌شود و برای ارزیابی عملکرد نهایی مدل آموزش دیده بر روی داده‌های دیده نشده استفاده می‌شود.

داده‌های آموزشی (Training Data)

داده‌هایی که برای آموزش یک مدل یادگیری ماشین استفاده می‌شوند. این داده‌ها از ویژگی‌های ورودی و مقادیر هدف متناظر (در یادگیری نظارت شده) یا فقط ویژگی‌های ورودی (در یادگیری بدون نظارت) تشکیل شده‌اند.

درخت تصمیم (Decision Tree)

یک مدل محبوب یادگیری ماشین که با یادگیری یک ساختار درخت مانند از تصمیمات بر اساس ویژگی‌های ورودی، پیش‌بینی می‌کند. تفسیر آن آسان است اما در صورت هرس نشدن دقیق می‌تواند مستعد بیش برازش باشد.

درک زبان طبیعی (NLU)

زیرشاخه‌ای از NLP که بر توانمندسازی رایانه‌ها برای درک معنی و منظور پشت زبان انسان متمرکز است. این یک گام حیاتی برای وظایفی مانند توسعه چت بات و دستیارهای صوتی است.

درک صحنه (Scene Understanding)

یک کار بینایی کامپیوتر سطح بالا که شامل تفسیر محتوای یک تصویر یا ویدیو برای درک روابط بین اشیاء، اعمال آنها و زمینه کلی صحنه است.

دسته (Batch)

زیرمجموعه‌ای از داده‌های آموزشی که در یک تکرار واحد آموزش یک مدل یادگیری ماشین استفاده می‌شود. به جای به‌روزرسانی وزن‌ها پس از هر نقطه داده، به‌روزرسانی‌ها پس از پردازش یک دسته انجام می‌شود که می‌تواند کارآمدتر باشد.

دقت (Precision)

معیاری برای ارزیابی مدل‌های طبقه‌بندی، اندازه‌گیری نسبت نمونه‌های مثبت پیش‌بینی شده صحیح از بین تمام نمونه‌های پیش‌بینی شده به عنوان مثبت. بر دقت پیش‌بینی‌های مثبت تمرکز دارد.

دقت (Accuracy)

ساده‌ترین معیار برای سنجش عملکرد مدل که نشان می‌دهد مدل چند بار پیش‌بینی درستی داشته است. این معیار از تقسیم تعداد پیش‌بینی‌های درست بر تعداد کل پیش‌بینی‌ها به دست می‌آید. با این حال، در مجموعه داده‌های نامتوازن (که در آن یک کلاس غالب است) می‌تواند گمراه‌کننده باشد.

مفهوم دقت

دوره (Epoch)

یک گذر کامل از کل مجموعه داده آموزشی در طول آموزش یک مدل یادگیری ماشین. معمولاً برای آموزش مؤثر یک مدل به دوره‌های متعددی نیاز است.

ر

رانش داده (Data Drift)

پدیده‌ای که در آن ویژگی‌های آماری داده‌های ورودی مورد استفاده برای آموزش یک مدل یادگیری ماشین به مرور زمان تغییر می‌کند. این می‌تواند منجر به کاهش عملکرد مدل شود، زیرا مدل ممکن است دیگر با داده‌های فعلی مرتبط نباشد.

رباتیک (Robotics)

یک زمینه بین رشته‌ای که علوم کامپیوتر، مهندسی و سایر رشته‌ها را برای طراحی، ساخت، بهره‌برداری و استفاده از ربات‌ها ترکیب می‌کند. هوش مصنوعی نقش فزاینده‌ای در رباتیک ایفا می‌کند و ربات‌ها را قادر می‌سازد تا درک کنند، یاد بگیرند و تصمیم بگیرند.

ردیابی شی (Object Tracking)

دنبال کردن حرکت اشیاء در طول زمان در یک سکانس ویدیویی. در کاربردهایی مانند نظارت، رباتیک و خودروهای خودران استفاده می‌شود.

رگرسیون (Regression)

نوعی کار یادگیری نظارت شده که هدف آن پیش‌بینی یک متغیر خروجی پیوسته بر اساس یک یا چند ویژگی ورودی است. مثال‌: پیش‌بینی قیمت مسکن، قیمت سهام یا دما.

رگرسیون خطی (Linear Regression)

یک روش آماری اساسی که برای مدل‌سازی رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل با برازش یک معادله خطی با داده‌های مشاهده شده استفاده می‌شود.

رگرسیون لجستیک (Logistic Regression)

یک مدل آماری که برای وظایف طبقه‌بندی دودویی استفاده می‌شود. احتمال تعلق یک نقطه داده به یک کلاس خاص را با استفاده از تابع لجستیک مدل‌سازی می‌کند.

رمزگذار خودکار (Autoencoder)

نوعی شبکه عصبی که برای فشرده‌سازی داده‌ها به یک نمایش با ابعاد پایین‌تر (رمزگذاری) و سپس بازسازی داده‌های اصلی از این فرم فشرده (رمزگشایی) آموزش داده شده است. برای کاهش ابعاد، کاهش نویز و تشخیص ناهنجاری مفید است.

رمزگذاری یک‌طرفه (One-Hot Encoding)

روشی برای نمایش متغیرهای طبقه‌ای به عنوان بردارهای عددی مناسب برای الگوریتم‌های یادگیری ماشین. برای هر دسته یک بردار دودویی ایجاد می‌کند که در آن “1” نشان دهنده وجود آن دسته و “0” نشان دهنده عدم وجود است.

رها کردن (Dropout)

یک تکنیک منظم‌سازی که در شبکه‌های عصبی برای جلوگیری از بیش برازش استفاده می‌شود. به طور تصادفی درصد معینی از نورون‌ها را در طول هر تکرار آموزشی حذف می‌کند (نادیده می‌گیرد) و شبکه را مجبور می‌کند تا ویژگی‌های قوی‌تر و قابل تعمیم‌تری را بیاموزد.

ریشه میانگین مربعات خطا (RMSE)

یک معیار ارزیابی رایج برای مدل‌های رگرسیون. این معیار ریشه دوم میانگین مربعات خطا (MSE) است و معیاری از میانگین خطای پیش‌بینی را در همان واحدهای متغیر هدف ارائه می‌دهد.

ریشه‌یابی (Lemmatization)

یک تکنیک پیش پردازش متن که در پردازش زبان طبیعی برای کاهش کلمات به شکل پایه یا فرهنگ لغت آنها (lemma) استفاده می‌شود. به عنوان مثال، “running”، “runs” و “ran” همگی به “run” ریشه‌یابی می‌شوند.

ریشه‌یابی (Stemming)

یک تکنیک پیش پردازش متن که برای کاهش کلمات به شکل ریشه آنها با حذف پسوندها استفاده می‌شود. یک جایگزین ساده‌تر برای ریشه‌یابی، اما ممکن است همیشه کلمات معتبری تولید نکند.

ز

زبان R

یک زبان برنامه‌نویسی و محیط منبع باز و رایگان که به طور خاص برای محاسبات آماری و گرافیک طراحی شده است. این زبان به طور گسترده در بین آماردانان و داده‌کاوان برای تجزیه و تحلیل و تجسم داده‌ها استفاده می‌شود.

زیرنویس تصویر (Image Captioning)

وظیفه تولید خودکار توضیحات متنی برای تصاویر. تکنیک‌های بینایی کامپیوتر را برای درک محتوای تصویر با تکنیک‌های پردازش زبان طبیعی برای تولید توضیحات طبیعی ترکیب می‌کند.

س

سایکیت-لرن (Scikit-learn)

یک کتابخانه یادگیری ماشین منبع باز محبوب برای پایتون. این کتابخانه طیف گسترده‌ای از الگوریتم‌ها را برای طبقه‌بندی، رگرسیون، خوشه‌بندی، کاهش ابعاد، انتخاب مدل و موارد دیگر ارائه می‌دهد.

سرمایه‌داری نظارتی (Surveillance Capitalism)

اصطلاحی که برای توصیف یک مدل تجاری استفاده می‌شود که در آن شرکت‌ها مقادیر انبوهی از داده‌های کاربر را برای پیش‌بینی و تأثیرگذاری بر رفتار برای سود جمع‌آوری و تجزیه و تحلیل می‌کنند. این امر نگرانی‌هایی را در مورد حریم خصوصی، استقلال و پتانسیل دستکاری ایجاد می‌کند.

سوگیری (Bias)

یک خطای سیستماتیک در یک مدل یادگیری ماش�ن که منجر به پیش‌بینی‌های ناعادلانه یا نادرست برای گروه‌ها یا افراد خاص می‌شود. اغلب از سوگیری‌های موجود در داده‌های آموزشی یا نحوه طراحی مدل ناشی می‌شود.

سیاست (Policy)

در یادگیری تقویتی، یک استراتژی یا مجموعه‌ای از قوانین که یک عامل برای تعیین اقدامات خود در یک حالت معین دنبال می‌کند. هدف یادگیری تقویتی یافتن یک سیاست بهینه است که پاداش‌های عامل را در طول زمان به حداکثر می‌رساند.

ش

شبکه Q عمیق (DQN)

نوعی الگوریتم یادگیری تقویتی که یادگیری Q را با شبکه‌های عصبی عمیق ترکیب می‌کند. در بازی‌های Atari و سایر وظایف چالش برانگیز موفق بوده است.

شبکه عصبی بازگشتی (RNN)

نوعی شبکه عصبی که برای مدیریت داده‌های متوالی با داشتن اتصالاتی که به خود بازمی‌گردند، طراحی شده است و به آنها اجازه می‌دهد حافظه‌ای از ورودی‌های قبلی را حفظ کنند. برای وظایفی مانند پردازش زبان طبیعی، تشخیص گفتار و تجزیه و تحلیل سری‌های زمانی مناسب است.

شبکه عصبی کانولوشن (CNN)

نوع خاصی از شبکه عصبی که برای پردازش داده‌ها با ساختار شبکه‌ای مانند تصاویر طراحی شده است. آنها از لایه‌های کانولوشن برای استخراج ویژگی‌ها از ورودی و لایه‌های pooling برای کاهش ابعاد استفاده می‌کنند.

شبکه عصبی مصنوعی (ANN)

با الهام از مغز بیولوژیکی، ANN ها شبکه های پیچیده‌ای از گره‌های به هم پیوسته (نورون‌ها) هستند که در لایه‌ها سازماندهی شده‌اند. هر اتصال دارای وزنی است و شبکه با تنظیم این وزن‌ها برای تولید خروجی دلخواه یاد می‌گیرد.

شبکه متخاصم مولد (GAN)

کلاسی از مدل‌های یادگیری عمیق متشکل از دو شبکه عصبی

یک شبکه مولد که نمونه‌های داده جدید ایجاد می‌کند و یک شبکه متمایزکننده که سعی می‌کند بین داده‌های واقعی و تولید شده تمایز قائل شود. برای تولید تصاویر، ویدیوها و سایر محتوای واقعی استفاده می‌شود.

شفافیت (Transparency)

یک اصل اخلاقی مهم در هوش مصنوعی، که از قابلیت توضیح و تفسیر سیستم‌های هوش مصنوعی، به ویژه آنهایی که در فرآیندهای تصمیم‌گیری که بر زندگی مردم تأثیر می‌گذارند، استفاده می‌شوند، حمایت می‌کند.

شناسایی موجودیت نام‌گذاری شده (NER)

یک کار NLP که شامل شناسایی و طبقه‌بندی موجودیت‌های نام‌گذاری شده (مانند نام افراد، مکان‌ها، سازمان‌ها) در متن است. این یک گام حیاتی برای وظایفی مانند استخراج اطلاعات و پاسخگویی به سؤال است.

ط

طبقه‌بند (Classifier)

یک مدل یا الگوریتم یادگیری ماشین که به طور خاص برای وظایف طبقه‌بندی طراحی شده است. مثال‌ها

رگرسیون لجستیک، ماشین‌های بردار پشتیبان، درخت‌های تصمیم، جنگل‌های تصادفی.

طبقه‌بندی (Classification)

نوعی کار یادگیری نظارت شده که هدف آن اختصاص دادن نقاط داده به دسته‌ها یا کلاس‌های از پیش تعریف شده است. مثال‌ها

تشخیص هرزنامه (هرزنامه یا غیر هرزنامه)، تشخیص تصویر (گربه، سگ، پرنده).

طبقه‌بندی تصویر (Image Classification)

یک کار اساسی در بینایی کامپیوتر که شامل اختصاص دادن یک برچسب (دسته) به کل تصویر است. مثال‌ها

شناسایی اینکه آیا یک تصویر حاوی گربه، سگ یا ماشین است.

طبقه‌بندی متن (Text Classification)

اختصاص دادن دسته‌ها یا برچسب‌های از پیش تعریف شده به اسناد متنی. مثال‌: تشخیص هرزنامه، تحلیل احساسات، طبقه‌بندی موضوع.

ع

عادی‌سازی (Normalization)

یک تکنیک پیش پردازش داده که برای مقیاس‌بندی مجدد داده‌ها به یک محدوده مشترک استفاده می‌شود. تکنیک‌های عادی‌سازی رایج عبارتند از مقیاس‌گذاری min-max و استانداردسازی.

عامل (Agent)

در یادگیری تقویتی، “یادگیرنده” یا “تصمیم‌گیرنده”. محیط را مشاهده می‌کند، اقداماتی را انجام می‌دهد و یاد می‌گیرد که پاداش‌های خود را در طول زمان به حداکثر برساند. مثال‌: برنامه‌ای که بازی می‌کند، رباتی که در یک اتاق حرکت می‌کند.

عملیات یادگیری ماشین (MLOps)

مجموعه‌ای از شیوه‌ها برای خودکارسازی و ساده‌سازی چرخه عمر مدل‌های یادگیری ماشین، از توسعه و آموزش گرفته تا استقرار، نظارت و مدیریت.

ف

فرا یادگیری (Meta-Learning)

“یادگیری برای یادگیری”. این شامل آموزش مدل‌ها (فراآموزنده‌ها) در مورد انواع وظایف یادگیری است که آنها را قادر می‌سازد تا به سرعت با حداقل داده‌های آموزشی با وظایف جدید سازگار شوند.

فراپارامتر (Hyperparameter)

پارامترهایی که فرآیند یادگیری یک مدل یادگیری ماشین را کنترل می‌کنند اما از خود داده‌ها آموخته نمی‌شوند. مثال‌ها عبارتند از نرخ یادگیری، تعداد لایه‌های پنهان در یک شبکه عصبی، یا “k” در k-نزدیک‌ترین همسایه‌ها.

فراخوانی (Recall)

معیاری برای ارزیابی مدل‌های طبقه‌بندی، اندازه‌گیری نسبت نمونه‌های مثبت پیش‌بینی شده صحیح از بین تمام نمونه‌های مثبت واقعی. این معیار بر توانایی مدل در شناسایی همه موارد مثبت تمرکز دارد.

ک

کا-نزدیک‌ترین همسایه‌ها (KNN)

یک الگوریتم یادگیری ماشین ساده و همه‌کاره که برای طبقه‌بندی و رگرسیون استفاده می‌شود. بر اساس “k” نزدیک‌ترین نقطه داده در داده‌های آموزشی، که “k” یک پارامتر تعریف شده توسط کاربر است، پیش‌بینی می‌کند.

کانولوشن (Convolution)

یک عملیات ریاضی که در CNN ها برای استخراج ویژگی‌ها از داده‌های ورودی استفاده می‌شود. این شامل  لغزاندن یک فیلتر کوچک (هسته) روی ورودی و انجام ضرب و جمع عنصر به عنصر است.

کاهش ابعاد (Dimensionality Reduction)

تکنیک‌هایی برای کاهش تعداد ویژگی‌ها (متغیرها) در یک مجموعه داده در حالی که تا حد امکان اطلاعات مربوطه را حفظ می‌کند. برای ساده‌سازی داده‌ها، سرعت بخشیدن به آموزش و بهبود عملکرد مدل مفید است.

کراس (Keras)

یک API سطح بالا و کاربرپسند برای ساخت و آموزش مدل‌های یادگیری عمیق. بر روی TensorFlow، Theano یا CNTK اجرا می‌شود و روشی شهودی‌تر و مدولارتر برای کار با این چارچوب‌ها ارائه می‌دهد.

کم برازش (Underfitting)

زمانی اتفاق می‌افتد که یک مدل یادگیری ماشین بیش از حد ساده است که نتواند الگوهای اساسی در داده‌ها را ثبت کند. یک مدل کم برازش هم در داده‌های آموزشی و هم در داده‌های آزمایشی عملکرد ضعیفی دارد.

گ

گراف دانش (Knowledge Graph)

یک روش نمایش دانش که اطلاعات مربوط به موجودیت‌ها (افراد، مکان‌ها، چیزها) و روابط بین آنها را در یک ساختار گراف ذخیره می‌کند. برای وظایفی مانند جستجوی معنایی و پاسخگویی به سؤال مفید است.

ل

لایه (Layer)

یک بلوک ساختمانی اساسی از شبکه‌های عصبی مصنوعی. هر لایه از چندین نورون به هم پیوسته تشکیل شده است که داده‌ها را پردازش و تبدیل می‌کنند. شبکه‌ها می‌توانند لایه‌های متعددی داشته باشند، با شبکه‌های عمیق‌تر که قادر به یادگیری بازنمایی‌های پیچیده‌تر هستند.

ماتریس درهم‌ریختگی (Confusion Matrix)

جدولی که برای تجسم عملکرد یک مدل طبقه‌بندی استفاده می‌شود. تعداد مثبت‌های واقعی، منفی‌های واقعی، مثبت‌های کاذب و منفی‌های کاذب را نشان می‌دهد و امکان تجزیه و تحلیل دقیق خطاهای مدل را فراهم می‌کند.

م

ماشین بردار پشتیبان (SVM)

یک الگوریتم یادگیری ماشین قدرتمند و همه‌کاره که هم برای طبقه‌بندی و هم برای رگرسیون استفاده می‌شود. این الگوریتم ابرصفحه بهینه‌ای را پیدا می‌کند که نقاط داده کلاس‌های مختلف را با حداکثر حاشیه از هم جدا می‌کند.

متن به گفتار (TTS)

تولید مصنوعی گفتار انسان مانند از متن. در کاربردهایی مانند دستیارهای مجازی، صفحه‌خوان‌ها و سیستم‌های ناوبری GPS استفاده می‌شود.

مجموعه اعتبارسنجی (Validation Set)

زیرمجموعه‌ای از داده‌های آموزشی که برای ارزیابی عملکرد مدل در طول آموزش استفاده می‌شود. این به نظارت بر پیشرفت یادگیری مدل و جلوگیری از بیش برازش کمک می‌کند.

مجموعه آموزشی (Training Set)

زیرمجموعه‌ای از داده‌ها که به طور خاص برای آموزش مدل یادگیری ماشین استفاده می‌شود. مدل الگوها و روابط را از این داده‌ها یاد می‌گیرد.

مجموعه داده (Dataset)

مجموعه‌ای از نقاط داده که به صورت ساختاریافته سازماندهی شده‌اند. هر نقطه داده معمولاً از چندین ویژگی (متغیر) و در یادگیری نظارت شده، یک متغیر هدف (برچسب) تشکیل شده است.

محاسبات شناختی (Cognitive Computing)

هدف آن ایجاد سیستم‌های هوش مصنوعی است که می‌توانند توانایی‌های شناختی انسان مانند یادگیری، استدلال و حل مسئله را تقلید کنند. اغلب شامل تکنیک‌هایی از زیرشاخه‌های متعدد هوش مصنوعی، از جمله NLP، یادگیری ماشین و نمایش دانش است.

محاسبات لبه (Edge Computing)

یک الگوی محاسبات توزیع شده که در آن پردازش داده‌ها به جای یک ابر متمرکز یا مرکز داده، به منبع داده (“لبه” شبکه) نزدیک‌تر انجام می‌شود. تأخیر، استفاده از پهنای باند و نگرانی‌های مربوط به حریم خصوصی را کاهش می‌دهد.

محو شدن گرادیان‌ها (Vanishing Gradients)

مشکلی که می‌تواند در طول آموزش شبکه‌های عصبی عمیق، به ویژه شبکه‌های عصبی بازگشتی (RNN) رخ دهد. این اتفاق زمانی می‌افتد که گرادیان‌ها (مورد استفاده برای به‌روزرسانی وزن‌ها) با انتشار به عقب از طریق لایه‌های زیاد بسیار کوچک می‌شوند و مانع از توانایی شبکه در یادگیری وابستگی‌های دوربرد می‌شوند.

محیط (Environment)

در یادگیری تقویتی، سیستم یا دنیای خارجی که یک عامل با آن تعامل دارد. مشاهدات (حالت‌ها) را برای عامل فراهم می‌کند و اقدامات را از عامل دریافت می‌کند. محیط می‌تواند قطعی یا تصادفی باشد.

مدل (Model)

یک نمایش ریاضی از یک سیستم یا فرآیند که از داده‌ها توسط یک الگوریتم یادگیری ماشین آموخته شده است. مدل الگوها و روابط موجود در داده‌ها را می‌گیرد و می‌تواند برای پیش‌بینی در مورد داده‌های جدید و نادیده استفاده شود.

مدلBERT (Bidirectional Encoder Representations from Transformers)

یک مدل زبان قدرتمند که زمینه یک کلمه را به صورت دو طرفه (هم چپ و هم راست) در یک جمله در نظر می‌گیرد. این مدل به نتایج پیشرفته‌ای در وظایف مختلف NLP مانند پاسخگویی به سؤال و تحلیل احساسات دست یافته است.

مدلGPT (Generative Pre-trained Transformer)

نوعی مدل زبان بزرگ (LLM) که بر روی مجموعه داده عظیمی از متن و کد آموزش داده شده است. مدل‌های GPT می‌توانند متن با کیفیت انسانی تولید کنند، زبان‌ها را ترجمه کنند، انواع مختلف محتوای خلاقانه بنویسند و به سؤالات شما به روشی آموزنده پاسخ دهند.

مساحت زیر منحنی (AUC)

یک عدد واحد که خلاصه‌ای از عملکرد کلی یک مدل طبقه‌بندی دودویی ارائه می‌دهد. نشان دهنده مساحت زیر منحنی ROC (به زیر مراجعه کنید) است که مقادیر بالاتر نشان دهنده تمایز بهتر بین کلاس ها است.

مسلح‌سازی هوش مصنوعی (Weaponization of AI)

یک نگرانی اخلاقی عمده در مورد استفاده بالقوه از هوش مصنوعی برای توسعه سیستم‌های تسلیحاتی خودمختار یا سایر فناوری‌هایی که می‌توانند باعث آسیب شوند. این سؤالاتی را در مورد پاسخگویی، کنترل و پتانسیل عواقب ناخواسته ایجاد می‌کند.

معاوضه دقت-فراخوانی

معاوضه ذاتی بین دقت و فراخوانی. افزایش دقت اغلب به قیمت کاهش فراخوانی است و بالعکس. تعادل بهینه به کاربرد خاص بستگی دارد.

معاوضه سوگیری-واریانس

یک مفهوم اساسی در یادگیری ماشین. سوگیری به خطای ناشی از ساده‌سازی بیش از حد مدل اشاره دارد، در حالی که واریانس به خطای ناشی از حساسیت بیش از حد مدل به داده‌های آموزشی اشاره دارد. یافتن تعادل مناسب برای تعمیم خوب بسیار مهم است.

مقداردهی اولیه وزن (Weight Initialization)

فرآیند اختصاص مقادیر اولیه به وزن‌های یک شبکه عصبی قبل از شروع آموزش. مقداردهی اولیه مناسب وزن برای آموزش مؤثر بسیار مهم است و می‌تواند بر سرعت همگرایی شبکه و عملکرد نهایی تأثیر بگذارد.

مقیاس‌گذاری ویژگی (Feature Scaling)

یک تکنیک پیش پردازش داده که ویژگی‌ها را به یک مقیاس مشترک (مثلاً 0 تا 1 یا 1- تا 1) تبدیل می‌کند تا از تسلط ویژگی‌های با قدر مطلق بزرگتر بر فرآیند یادگیری جلوگیری شود.

مکانیسم توجه (Attention Mechanism)

به یک مدل (به ویژه در NLP) اجازه می‌دهد تا هنگام پیش‌بینی، روی مرتبط‌ترین بخش‌های دنباله ورودی تمرکز کند. مانند اینکه انسان برای درک به کلمات خاصی در یک جمله توجه می‌کند.

منحنی ROC (Receiver Operating Characteristic Curve)

یک نمودار گرافیکی که عملکرد یک مدل طبقه‌بندی دودویی را در آستانه‌های طبقه‌بندی مختلف نشان می‌دهد. این نمودار معاوضه بین نرخ مثبت واقعی (حساسیت) و نرخ مثبت کاذب (1-ویژگی) را نشان می‌دهد.

منطق فازی (Fuzzy Logic)

یک سیستم منطقی که به جای درست یا نادرست، درجه‌هایی از حقیقت را مجاز می‌داند. با مفاهیمی سروکار دارد که مبهم یا نادقیق هستند و آن را برای وظایفی مانند سیستم‌های کنترلی و تصمیم‌گیری در محیط‌های نامطمئن مناسب می‌کند.

منظم‌سازی (Regularization)

تکنیک‌هایی که برای جلوگیری از بیش برازش در مدل‌های یادگیری ماشین با اضافه کردن یک عبارت جریمه به تابع ضرر استفاده می‌شوند. این جریمه، مدل را از یادگیری توابع پیچیده‌ای که بیش از حد به داده‌های آموزشی برازش شده‌اند، منصرف می‌کند.

مهندسی ویژگی (Feature Engineering)

فرآیند خلاقانه تبدیل داده‌های خام به ویژگی‌های معنادار که الگوهای اساسی را بهتر نشان می‌دهند تا عملکرد مدل‌های یادگیری ماشین را بهبود بخشد.

موتور استنتاج (Inference Engine)

جزئی از یک سیستم خبره که قوانین و دانش ذخیره شده در پایگاه دانش را برای داده‌ها یا موقعیت‌های جدید برای استنتاج نتیجه‌گیری یا ارائه توصیه‌ها اعمال می‌کند.

میانگین مربعات خطا (MSE)

یک تابع ضرر رایج که برای وظایف رگرسیون استفاده می‌شود. میانگین مربعات اختلاف بین مقادیر پیش‌بینی شده و واقعی را محاسبه می‌کند.

ن

نرخ یادگیری (Learning Rate)

یک فراپارامتر حیاتی در الگوریتم‌های بهینه‌سازی مبتنی بر گرادیان که اندازه گام را در هر تکرار در حین حرکت به سمت حداقل تابع هزینه کنترل می‌کند. نرخ یادگیری خوب برای آموزش پایدار و کارآمد ضروری است.

نزول گرادیان (Gradient Descent)

یک الگوریتم بهینه‌سازی تکراری که برای یافتن حداقل ی� تابع (معمولاً تابع هزینه) با تنظیم مکرر پارامترها در جهت گرادیان منفی استفاده می‌شود.

نزول گرادیان تصادفی (SGD)

تغییری از نزول گرادیان که پارامترهای مدل را با استفاده از یک زیرمجموعه تصادفی انتخاب شده از داده‌های آموزشی (یک دسته) در هر تکرار به‌روزرسانی می‌کند. این روش اغلب سریع‌تر از نزول گرادیان سنتی است، به ویژه برای مجموعه داده‌های بزرگ.

نشان‌گذاری (Tokenization)

فرآیند تجزیه یک رشته متن به کلمات یا نشانه‌های منفرد. یک گام اساسی در وظایف پردازش زبان طبیعی.

نظارت بر مدل (Model Monitoring)

فرآیند حیاتی ردیابی و ارزیابی مداوم عملکرد مدل‌های یادگیری ماشین مستقر برای شناسایی مسائلی مانند تنزل مدل، سوگیری یا مشکلات انصاف.

نمایش دانش (Knowledge Representation)

حوزه‌ای کلیدی از تحقیقات هوش مصنوعی که بر توسعه روش‌هایی برای نمایش دانش به شکلی که رایانه‌ها بتوانند آن را درک کرده و در مورد آن استدلال کنند، متمرکز است. این شامل تعریف زبان‌های رسمی و ساختارهای داده برای رمزگذاری دانش است.

نوت بوک Jupyter

یک محیط محاسباتی تعاملی مبتنی بر وب که در بین دانشمندان داده و متخصصان یادگیری ماشین محبوب است. این امکان را برای ایجاد و به اشتراک گذاری اسنادی فراهم می‌کند که حاوی کد زنده، معادلات، تجسم‌ها و متن روایی هستند.

نورون (Neuron)

واحد پردازش اولیه یک شبکه عصبی مصنوعی. سیگنال‌های ورودی را دریافت می‌کند، مجموع وزنی ورودی‌ها را انجام می‌دهد، یک تابع فعال‌سازی را اعمال می‌کند و خروجی را به سایر نورون‌ها ارسال می‌کند.

نویسه‌خوان نوری (OCR)

فناوری که متن چاپی یا دست‌نویس را به متن قابل خواندن توسط ماشین تبدیل می‌کند. برای دیجیتالی کردن اسناد، خودکارسازی ورود داده‌ها و کمک به افراد کم بینا استفاده می‌شود.

ه

هوش جمعی (Swarm Intelligence)

یک رفتار جمعی که توسط سیستم‌های غیرمتمرکز و خودسازمانده، مانند کلنی‌های مورچه‌ها یا دسته‌های پرندگان، نشان داده می‌شود. این الگوریتم‌های بهینه‌سازی را الهام می‌بخشد که از این فرآیندهای طبیعی تقلید می‌کنند.

هوش مصنوعی عمومی (AGI)

“جام مقدس” فرضی هوش مصنوعی. هدف آن ایجاد ماشین‌هایی با هوش انسان مانند در همه زمینه‌ها، نه فقط وظایف خاص است. AGI به دلیل پیچیدگی شناخت انسان تا حد زیادی نظری باقی مانده است.

واحد بازگشتی دروازه‌ای (GRU)

نوعی شبکه عصبی بازگشتی (RNN) که شبیه LSTM است اما ساده‌تر و از نظر محاسباتی ارزان‌تر است. GRU ها اغلب در وظایف پردازش زبان طبیعی استفاده می‌شوند.

ویژگی (Feature)

یک ویژگی یا مشخصه قابل اندازه‌گیری فردی از یک نقطه داده. ویژگی‌ها متغیرهای ورودی هستند که مدل‌های یادگیری ماشین برای پیش‌بینی از آنها استفاده می‌کنند.

ی

یادگیری انتقالی (Transfer Learning)

یک تکنیک یادگیری ماشین که در آن یک مدل آموزش دیده بر روی یک کار به عنوان نقطه شروع برای مدلی در یک کار دوم و مرتبط استفاده می‌شود. این می‌تواند آموزش را سرعت بخشد و عملکرد را در کار هدف بهبود بخشد، به ویژه زمانی که داده‌ها محدود هستند.

یادگیری بدون نظارت (Unsupervised Learning)

نوعی یادگیری ماشین که در آن مدل بر روی داده‌های بدون برچسب آموزش داده می‌شود، به این معنی که هیچ مقدار هدفی ارائه نمی‌شود. هدف کشف الگوها، خوشه‌ها یا روابط در داده‌ها بدون راهنمایی صریح است.

یادگیری تقویتی (RL)

نوعی یادگیری ماشین که در آن یک عامل یاد می‌گیرد با یک محیط تعامل داشته باشد و اقداماتی را برای به حداکثر رساندن پاداش تجمعی خود در طول زمان انجام دهد. این نوع یادگیری شامل یادگیری آزمون و خطا است و در کاربردهایی مانند رباتیک، بازی و سیستم‌های کنترلی استفاده می‌شود.

یادگیری چند وظیفه‌ای (Multi-Task Learning)

آموزش یک مدل یادگیری ماشین واحد برای انجام همزمان چندین کار مرتبط. می‌تواند با استفاده از دانش مشترک در بین وظایف، کارایی و تعمیم را بهبود بخشد.

یادگیری صفر-نمونه (Zero-Shot Learning)

یک تنظیم یادگیری ماشین که در آن یک مدل برای تشخیص اشیاء یا مفاهیمی آموزش داده می‌شود که در طول آموزش هرگز ندیده است. این اغلب شامل یادگیری یک فضای جاسازی مشترک یا استفاده از اطلاعات کمکی در مورد کلاس‌های دیده نشده است.

یادگیری عمیق (DL)

زیرشاخه‌ای از یادگیری ماشین که از شبکه‌های عصبی مصنوعی با لایه‌های متعدد (شبکه‌های عصبی عمیق) برای یادگیری بازنمایی‌های سلسله مراتبی داده‌ها استفاده می‌کند. حوزه‌هایی مانند بینایی کامپیوتر و NLP را متحول کرده است.

یادگیری فعال (Active Learning)

نوع خاصی از یادگیری ماشین که در آن الگوریتم می‌تواند با کاربران یا منابع داده تعامل داشته باشد تا برچسب‌هایی را برای نقاط داده خاص دریافت کند. این زمانی مفید است که برچسب‌گذاری پرهزینه است و مدل برای یادگیری از آموزنده‌ترین نمونه‌ها به راهنمایی نیاز دارد.

یادگیری کیو (Q-Learning)

یک الگوریتم یادگیری تقویتی بدون مدل که یک تابع ارزش-عمل (تابع Q) را یاد می‌گیرد. تابع Q، پاداش مورد انتظار آینده را برای انجام یک عمل خاص در یک حالت معین تخمین می‌زند.

یادگیری گروهی (Ensemble Learning)

یک رویکرد قدرتمند که در آن چندین مدل یادگیری ماشین برای پیش‌بینی ترکیب می‌شوند. در مقایسه با استفاده از یک مدل واحد، اغلب منجر به پیش‌بینی‌های دقیق‌تر و قوی‌تر می‌شود.

یادگیری ماشین (ML)

نوعی هوش مصنوعی که سیستم‌ها را قادر می‌سازد بدون برنامه‌ریزی صریح از داده‌ها بیاموزند. الگوریتم‌های ML می‌توانند به طور خودکار الگوها را در داده‌ها شناسایی کرده و بر اساس آن الگوها پیش‌بینی یا تصمیم‌گیری کنند.

یادگیری ماشین کوانتومی (Quantum Machine Learning)

یک زمینه نوظهور که به بررسی استفاده از محاسبات کوانتومی برای ارتقای الگوریتم‌های یادگیری ماشین می‌پردازد. این زمینه پتانسیل حل مسائلی را دارد که برای رایانه‌های کلاسیک غیرقابل حل هستند.

یادگیری ماشینی خودکار (AutoML)

اتوماسیون فرآیند خسته‌کننده و اغلب پیچیده ساخت مدل‌های یادگیری ماشین. هدف آن در دسترس‌تر کردن ML برای افراد غیرمتخصص با خودکارسازی وظایفی مانند پیش پردازش داده‌ها، انتخاب مدل و تنظیم فراپارامتر است.

یادگیری مشارکتی (Federated Learning)

یک رویکرد یادگیری ماشین توزیع شده که در آن چندین دستگاه (مثلاً تلفن‌های هوشمند) به طور مشترک یک مدل مشترک را بدون به اشتراک گذاری مستقیم داده‌های خود آموزش می‌دهند. حریم خصوصی داده‌ها را حفظ می‌کند و زمانی مفید است که داده‌ها حساس هستند یا در بین دستگاه‌ها توزیع شده‌اند.

یادگیری نظارت شده (Supervised Learning)

نوعی یادگیری ماشین که در آن مدل بر روی یک مجموعه داده برچسب‌گذاری شده آموزش داده می‌شود، به این معنی که خروجی مطلوب برای هر ورودی ارائه می‌شود. هدف یادگیری نگاشتی از ورودی به خروجی است.

یادگیری نیمه نظارتی (Semi-Supervised Learning)

نوعی یادگیری ماشین که عناصر یادگیری نظارت شده و بدون نظارت را ترکیب می‌کند. این نوع یادگیری شامل آموزش یک مدل بر روی مجموعه‌ای از داده‌ها است که حاوی داده‌های برچسب‌گذاری شده و بدون برچسب است.

مرجع:

جهت مطالعه بیشتر به مقاله «هوش مصنوعی چیست؟» مراجعه فرمایید.

پیمایش به بالا