خوشهبندی و دادهکاوی ارتباط نزدیکی با هم دارند.هر دو آنها روی شناخت الگوهای اصلی مجموعه دادهها تمرکز میکنند.
اساساً علم آمار،تشخیص الگو و یادگیری ماشین برای کشف الگوهای مجموعه دادهها در تلاش هستند.خوشهبندی یکی از روشهای دادهکاویست.
روش خوشهبندی در دادهکاوی
به صورت کلی، داده کاوی با کشف الگو به اتمام میرسد. در خوشهبندی، که یکی از روشهای دادهکاوی بدون نظارت(unsupervised) دادهها به چندین گروه تقسیم میشوند.به عبارت دیگر، خوشهبندی یک توزیع آماریست که دادهها را به چند زیرکلاس(subclasse) تقسیم میکند.هر زیرکلاس گروهی از اشیاء مشابه را در بر میگیرد.خوشهبندی یکی از الگوریتمهای بدون نظارت(unsupervised) است.
برای روشن شدن موضوع، در نظر داشته باشید وقتی که یک عبارت را در نوار جستجو گوگل(Google) تایپ میکنیذ،بلافاصله نتایج جستجو را میبینید.بعد از آن، هر بار تبلیغاتی مرتبط با جستجوی قبل را مشاهده میکنید.زمان کوتاهی طول میکشد تا باتها(bots) کار خود را انجام دهند.
به همین ترتیب، امکان دارد بسیاری از کاربران دیگر قبلاً،همین موضوع یا موارد مشابه را با عبارتهای دیگر جستجو کرده باشند.باتها بیلیونها جستجو را در الگوریتمهای خاصی قرار میدهند تا لیستی از عبارتهایی که به کرات برای جستجو استفاده شدهاند را بسازد. این همان مفهوم دادهکاویست.
الگوریتم های بدون نظارت(unsupervised) از متغیرهای متعدد برای توصیف دادههای ورودی استفاده میکنند.بر خلاف الگوریتمهای نظارت شده(supervised) که هیچ متغیر برای پیشبینی ندارد.
انواع متدها
دادهها انواع مختلفی مثل نظرسنجی، گزارش، جدول، تصویر و غیره دارند.متدهای متفاوتی برای خوشهبندی انواع دادههای مختلف، به منظور دادهکاوی بکار میرود و خروجی آنها نقش تعیین کنندهای ایفا میکند.
- روش پارتیشنبندی(Partitioning method): یک مجموعه دادهای که n شی دارد را در نظر بگیرید.در این روش n داده به k گروه تقسیم میشوند به طوری که هر گروه حداقل شامل یک شی باشد و هر شی فقط و فقط باید عضو یک گروه باشد. این روش در ابتدا کارایی بسیار بالایی داشت و به بکارگیری تکنیک چابجایی تکراری(iterative relocation) میتوان خوشهبندی را دقیقتر انجام داد.
- روش سلسله مراتبی(Hierarchical method): در این روش، تجزیه ساسله مراتبی صورت میگیرد.رویکرد اصلی آن، با خوشهبندی هر شی در یک گروه آغاز میشود.اشیاء نزدیک به هم خوشه بندی میشوند تا زمانی که فقط یک شی با رویکرد پایین به بالا (bottom-up) باقی میماند.
از طرف دیگر،کسی که فرایند دادهکاوی را انجام میدهد میتواند یک رویکرد از بالا به پایین(top-down) مثل رویکرد متضاد(divisive approach) را بکار گیرد.در این روش ابتدا تمام اشیاء در یک گروه خوشهبندی میشود و سپس به خوشههای کوچکتر تقسیم میشود.
- روش مبتبی بر تراکم(Density-based method): همانطوری که از نام آن پیداست، در این روش، شعاع یک خوشه را تا زمانی که تراکم خوشه همسایه بیش از آستانه آن باشد، افزایش پیدا میکند.
-
روش مبتنی بر مدل(Model-based method): در این روش از یک مدل فرضیهای خاص استفاده میشود که تابع چگالی آن در هسته نگهداری می شود.سپس توزیع دادهها بر اساس شکل و سایز انجام میشود. با وجود دادههای پرت و نویز،خوشهبندی بر اساس استاندارد آماری انجام میشود.
-
روش مبتنی بر محدودیت(Constraint-based method):این روش انعکاسی از همکاری کاربر و محدودیتهای اپلیکیشن محور است مثل انتظارات کاربر در خوشهبندی.
کاربردها
-
تحقیقات بازار(Market research): تحقیقات بازار نیازمند بررسی عمیق جزیه و تحلیلهااست.خوشهبندی در زمینه شناخت الگوهای نهان، تجزیه و تحلیل و ایجاد استراژدی به صورت گسترده کاربرد دارد.
- الگوریتم اینترنت(Internet algorithm): وب جهانی(World Wide Web) آن را برای ادراک جستجوها به منظور ارائه نتایج صحیح، بکار میگیرد.
- شناخت الگوها(Pattern recognition): بسیاری از بانکها از اپلیکیشن کشف دادههای خارج از محدوده(outlier) به منظور شناسایی الگوهای کلاهبرداری کارتهای اعتباری استفاده میکنند.
-
پردازش تصویر(Image processing): فرض کنید دولت اطلاعات دقیق راجع به مالکیت زمینها در یک منظقه جغرافیایی خاص را نباز دارد.خوشه بندی، به تقسیمبندی آنها بر اساس نوع، ارزش، یا مکان جغرافیایی موجود در تصاویر، کمک میکند.
- دادهکاوی(Data mining): دادهکاوی به طبقهبندی حلقههای بازاریابی(marketing loops)، آنالیز دادههای مشتری، ردهبندی گیاهان و حیوانات، طبقهبندی ژنها و کسب دانش در هر محدوده دیگر، کمک میکند.
منبع: https://datafloq.com