خوشه‌بندی(clustering) در داده‌کاوی به چه معناست؟

خوشه‌بندی(clustering) در داده‌کاوی

خوشه‌بندی و داده‌کاوی ارتباط نزدیکی با هم دارند.هر دو آن‌ها روی شناخت الگوهای اصلی مجموعه داده‌ها تمرکز می‌کنند.

اساساً علم آمار،تشخیص الگو و یادگیری ماشین برای کشف الگوهای مجموعه داده‌ها در تلاش هستند.خوشه‌بندی یکی از روش‌های داده‌کاویست.

روش خوشه‌بندی در داده‌کاوی

به صورت کلی، داده کاوی با کشف الگو به اتمام می‌رسد. در خوشه‌بندی، که یکی از روش‌های داده‌کاوی بدون نظارت(unsupervised) داده‌ها به چندین گروه تقسیم می‌شوند.به عبارت دیگر، خوشه‌بندی یک توزیع آماریست که داده‌ها را به چند زیرکلاس(subclasse) تقسیم می‌کند.هر زیرکلاس گروهی از اشیاء مشابه را در بر می‌گیرد.خوشه‌بندی یکی از الگوریتم‌های بدون نظارت(unsupervised) است.

برای روشن شدن موضوع، در نظر داشته باشید وقتی که یک عبارت را در نوار جستجو گوگل(Google) تایپ می‌کنیذ،بلافاصله نتایج جستجو را می‌بینید.بعد از آن، هر بار تبلیغاتی مرتبط با جستجوی قبل را مشاهده می‌کنید.زمان کوتاهی طول می‌کشد تا بات‌ها(bots) کار خود را انجام دهند.

به همین ترتیب، امکان دارد بسیاری از کاربران دیگر قبلاً،همین موضوع یا موارد مشابه را با عبارت‌های دیگر جستجو کرده باشند.بات‌ها بیلیون‌ها جستجو را در الگوریتم‌های خاصی قرار می‌دهند تا لیستی از  عبارت‌هایی که به کرات برای جستجو استفاده شده‌اند را بسازد. این همان مفهوم داده‌کاویست.

الگوریتم های بدون نظارت(unsupervised) از متغیرهای متعدد برای توصیف داده‌های ورودی استفاده می‌کنند.بر خلاف الگوریتمهای نظارت شده(supervised) که هیچ متغیر برای پیش‌بینی ندارد.

انواع متدها

داده‌ها انواع مختلفی مثل نظرسنجی، گزارش، جدول، تصویر و غیره دارند.متدهای متفاوتی برای خوشه‌بندی انواع داده‌های مختلف، به منظور داده‌کاوی بکار می‌رود و خروجی آن‌ها نقش تعیین کننده‌ای ایفا می‌کند.

  1. روش پارتیشن‌بندی(Partitioning method): یک مجموعه داده‌ای که n شی دارد را در نظر بگیرید.در این روش n  داده به k گروه تقسیم می‌شوند به طوری که هر گروه حداقل شامل یک شی باشد و هر شی فقط و فقط باید عضو یک گروه باشد. این روش در ابتدا کارایی بسیار بالایی داشت و به بکارگیری تکنیک چابجایی تکراری(iterative relocation) می‌توان خوشه‌بندی را دقیق‌تر انجام داد.
  2. روش سلسله مراتبی(Hierarchical method): در این روش، تجزیه ساسله مراتبی صورت می‌گیرد.رویکرد اصلی آن، با خوشه‌بندی هر شی در یک گروه آغاز می‌شود.اشیاء نزدیک به هم خوشه بندی می‌شوند تا زمانی که فقط یک شی با روی‌کرد پایین به بالا (bottom-up) باقی می‌ماند.

از طرف دیگر،کسی که فرایند داده‌کاوی را انجام می‌دهد می‌تواند یک رویکرد از بالا به پایین(top-down) مثل رویکرد متضاد(divisive approach) را بکار گیرد.در این روش ابتدا تمام اشیاء در یک گروه خوشه‌بندی می‌شود و سپس به خوشه‌های کوچک‌تر تقسیم می‌شود.

  1. روش مبتبی بر تراکم(Density-based method): همان‌طوری که از نام آن پیداست، در این روش، شعاع یک خوشه را تا زمانی که تراکم خوشه همسایه بیش از آستانه آن باشد، افزایش پیدا می‌کند.
  2. روش مبتنی بر مدل(Model-based method): در این روش از یک مدل فرضیه‌ای خاص استفاده می‌شود که تابع چگالی آن در هسته نگهداری می شود.سپس توزیع داده‌ها بر اساس شکل و سایز انجام می‌شود. با وجود داده‌های پرت و نویز،خوشه‌بندی بر اساس استاندارد آماری انجام می‌شود.

  3. روش مبتنی بر محدودیت(Constraint-based method):این روش انعکاسی از همکاری کاربر و محدودیت‌های اپلیکیشن محور است مثل انتظارات کاربر در خوشه‌بندی.                                                                                                                                                                                                                          

کاربردها

  1. تحقیقات بازار(Market research): تحقیقات بازار نیازمند بررسی عمیق جزیه و تحلیل‌هااست.خوشه‌بندی در زمینه شناخت الگوهای نهان، تجزیه و تحلیل و ایجاد استراژدی به صورت گسترده کاربرد دارد.

  2. الگوریتم اینترنت(Internet algorithm): وب جهانی(World Wide Web) آن را برای ادراک جستجوها به منظور ارائه نتایج صحیح، بکار می‌گیرد.
  3. شناخت الگوها(Pattern recognition): بسیاری از بانک‌ها از اپلیکیشن کشف داده‌های خارج از محدوده(outlier) به منظور شناسایی الگوهای کلاهبرداری کارت‌های اعتباری استفاده می‌کنند.
  4. پردازش تصویر(Image processing): فرض کنید دولت اطلاعات دقیق راجع به مالکیت زمین‌ها در یک منظقه جغرافیایی خاص را نباز دارد.خوشه بندی، به تقسیم‌بندی آن‌ها بر اساس نوع، ارزش، یا مکان جغرافیایی موجود در تصاویر، کمک می‌کند.

  5. داده‌کاوی(Data mining): داده‌کاوی به طبقه‌بندی حلقه‌های بازاریابی(marketing loops)، آنالیز داده‌های مشتری، رده‌بندی گیاهان و حیوانات، طبقه‌بندی ژن‌ها و کسب دانش در هر محدوده دیگر، کمک می‌کند.

 منبع: https://datafloq.com