دسته بندی اسناد یک مفهوم در سیستم‌های اطلاعاتی است.در دسته بندی اسناد یک سند را به یک رده بر اساس محتوای آن اختصاص می دهیم.

انواع

سه نوع دسته بندی برای اطلاعات داریم:

  • دسته بندی نظارت شده : از یک منبع خارجی مثل بازخورد کاربر برای تصحیح استفاده می کنیم.
  • دسته بندی نظارت نشده : بدون هیچ منبع خارجی دسته بندی را انجام می دهیم.
  • دسته بندی شبه نظارت شده : ترکیبی از دو شیوه بالاست که تنها بخشی از اسناد توسط منبع خارجی دسته بندی می شوند.

شیوه‌ها

دسته بندی انواع زیادی دارند:

  • k امین نزدیک‌ترین همسایه (KNN)
  • فراوانی وزنی (tf-idf)
  • شبکه عصبی مصنوعی

کاربردها

کاربردهای بسیار متنوعی برای طبقه‌بندی موضوعی اسناد وجود دارد، مثلاً شناسایی هرزنامه‌ی الکترونیکی، موتورهای جستجو، تحلیل محتوای دیجیتال و ...


این مقاله با استفاده از مواد از مقاله ویکی پدیا دسته‌بندی اسناد است که تحت Creative Commons Attribution-Share-Alike License 3.0 منتشر می شود.