رشد قابلتوجه اطلاعات دیجیتال در عصر امروز، گنجینهای از داده های متنی را ایجاد کرده است که این دادههای بدون ساختار، پتانسیل بسیار زیادی برای کشف دانش دارند؛ از مقالات علمی و پستهای رسانههای اجتماعی تا آرشیوهای تاریخی و بررسیهای مشتریان. متن کاوی، یکی از زیرشاخههای روبهرشد داده کاوی است که ابزارهایی را برای استخراج سیستماتیک الگوهای معنادار و بینشهای پنهان از این چشمانداز متنی گسترده، در اختیار محققان قرار میدهد.
این مقاله به مبانی نظری و کاربردهای عملی متن کاوی میپردازد. این مقاله با بیان تعریف متن کاوی و بررسی اهداف کلیدی آن آغاز شده و مراحل اساسی درگیر در فرایند متن کاوی را مورد بررسی قرار میدهد. در ادامه ضمن معرفی الگوریتمهای متن کاوی و تکنیکهای آن، به بیان کاربردهای Text mining در صنایع مختلف میپردازد. با ما همراه باشید.
متن کاوی چیست؟
متن کاوی یا Text mining که با عنوان داده کاوی در متن نیز شناخته میشود، فرایند تبدیل یک متن بدون ساختار، به یک قالب ساختاریافته برای شناسایی الگوهای معنیدار و بینشهای جدید است. متن کاوی را میتوان برای تحلیل مجموعههای گستردهای از مطالب متنی و بهتصویرکشیدن مفاهیم کلیدی، روندها و روابط پنهان مورد استفاده قرار داد.
متن یکی از رایجترین انواع داده در پایگاه داده است و ازآنجاکه تقریباً 80 درصد از داده های جهان بدون ساختار هستند، متن کاوی یک روش بسیار ارزشمند در سازمانها است. ابزارهای متن کاوی و تکنیکهای پردازش زبان طبیعی (NLP)، مانند استخراج اطلاعات، به آنها اجازه میدهد تا اسناد بدون ساختار را به یک قالب ساختاریافته تبدیل کرده و بهاینترتیب، امکان تحلیل و تولید بینش با کیفیت بالا را فراهم کنند. این فناوری به نوبه خود، تصمیمگیری سازمانها را بهبود میبخشد و منجر به رسیدن به نتایج بهتری در کسب و کار میشود.
امروزه به دلیل توسعه پلتفرمهای کلان داده و الگوریتمهای یادگیری عمیق که میتوانند مجموعههای عظیمی از داده های بدون ساختار را تجزیهوتحلیل کنند، متن کاوی برای دانشمندان داده و سایر کاربران کاربردیتر شده است. Text Mining اغلب به عنوان تجزیهوتحلیل متن یا Text Analytics هم شناخته میشود؛ اگرچه برخی افراد بین این دو اصطلاح تمایز قائل میشوند. در دیدگاه این افراد، تجزیهوتحلیل متن به برنامهای اطلاق میشود که از تکنیکهای متن کاوی برای مرتبسازی میان مجموعههای داده استفاده میکند.
استخراج و تحلیل متن به سازمانها کمک میکند تا بینشهای تجاری بالقوه و ارزشمندی را در اسناد سازمان، ایمیلهای مشتریان، گزارشهای مرکز تماس، نظرسنجیها، پستهای رسانههای اجتماعی، سوابق پزشکی و سایر منابع دادههای مبتنی بر متن پیدا کنند. قابلیتهای متن کاوی به طور فزایندهای در چتباتهای هوش مصنوعی و سیستمهای مجازی گنجانده شده است که سازمانها برای ارائه پاسخهای خودکار به مشتریان به عنوان بخشی از عملیات بازاریابی، فروش و خدمات مشتری خود آنها را به کار میگیرند.
مراحل متن کاوی
متن کاوی از لحاظ ماهیت، مشابه داده کاوی است، اما با تمرکز بر متن بهجای اشکال ساختاریافتهتر داده ها. بااینحال، یکی از اولین گامها در فرایند متن کاوی، سازماندهی و ساختار دادههای متنی به نحوی است که بتوان آنها را در معرض تحلیل کیفی و کمی قرار داد. انجام این کار معمولاً شامل استفاده از فناوری پردازش زبان طبیعی (NLP) است که از اصول زبانشناسی محاسباتی برای تجزیه و تفسیر مجموعهدادهها استفاده میکند.
اولین کار شامل دستهبندی، خوشهبندی و برچسبگذاری متن است؛ خلاصهکردن مجموعه داده ها، ایجاد طبقهبندی و استخراج اطلاعات در مورد موضوعاتی مانند فراوانی کلمات و روابط میان موجودیتهای داده. سپس مدلهای تحلیلی برای ایجاد یافتههایی اجرا میشوند که میتوانند به هدایت استراتژیهای تجاری و اقدامات عملیاتی کمک کنند.
متن کاوی شامل استفاده از فناوری پردازش زبان طبیعی (NLP) است که از اصول زبانشناسی محاسباتی برای تجزیه و تفسیر مجموعهدادهها استفاده میکند
تکنیکهای متن کاوی
فرایند متن کاوی شامل انجام چندین فعالیت است که سازمانها را قادر میسازد اطلاعات را از داده های متنی بدون ساختار استخراج کنند. پیش از اعمال تکنیکهای مختلف متن کاوی، باید از پیشپردازش متن شروع کرد؛ تمیزکردن و تبدیل داده های متنی به یک قالب قابلاستفاده. این عمل یکی از جنبههای اصلی پردازش زبان طبیعی (NLP) است و معمولاً شامل استفاده از تکنیکهایی مانند شناسایی زبان، نشانهگذاری، برچسبگذاری گفتار، قطعهسازی و تجزیه نحوی برای قالببندی دادهها در راستای تحلیل مناسب است.
هنگامی که پیشپردازش متن کامل شد، میتوان الگوریتمهای متن کاوی را برای استخراج بینش از داده ها اعمال کرد. برخی از تکنیکهای متداول متن کاوی عبارتاند از:
بازیابی اطلاعات (Information retrieval)
بازیابی اطلاعات (IR) اطلاعات یا اسناد مربوطه را بر اساس مجموعهای از پرسوجوها یا عبارات از پیش تعریف شده، برمیگرداند. سیستمهای IR از الگوریتمهای مشخصی برای ردیابی رفتارهای کاربر و شناسایی داده های مربوطه استفاده میکنند. بازیابی اطلاعات معمولاً در سیستمهای فهرست کتابخانهها و موتورهای جستجوی محبوب مانند گوگل استفاده میشود. برخی از تکنیکهای زیرمجموعه IR عبارتاند از:
- Tokenization: این فرایند شامل شکستن یک متن طولانی به جملات و کلماتی به نام “tokens” است. بنابراین، tokenization برای خوشهبندی متن و تطبیق اسناد مورد استفاده قرار میگیرد.
- Stemming: این به فرایند جداسازی پیشوندها و پسوندها از کلمات، برای استخراج شکل و معنای ریشه یک کلمه اشاره دارد. این تکنیک، با کاهش اندازه فایلهای ذخیره شده، سرعت بازیابی اطلاعات را بهبود میبخشد.
پردازش زبان طبیعی (NLP)
پردازش زبان طبیعی، از روشهای به دست آماده در رشتههای مختلف مانند علوم رایانه، هوش مصنوعی، زبانشناسی و علوم داده استفاده میکند تا رایانهها را قادر سازد که زبان انسان را به دو شکل نوشتاری و کلامی درک کنند. با تجزیهوتحلیل ساختار جمله و دستور زبان، NLP به رایانهها اجازه میدهد تا بتوانند بخوانند!
برخی از تکنیکهای زیرمجموعه NLP عبارتاند از:
- خلاصهسازی (Summarizatio): این تکنیک، خلاصهای از قطعات طولانی یک متن را برای ایجاد خلاصهای مختصر و منسجم از نکات اصلی سند ارائه میدهد.
- برچسبگذاری قسمتی از گفتار (PoS): این تکنیک به هر نشانه در یک سند، بر اساس گفتار آن، یک برچسب اختصاص میدهد؛ مانند اسمها، افعال، صفتها و غیره. این تکنیک است که تجزیهوتحلیل معنایی یک متن بدون ساختار را امکانپذیر میکند.
- دستهبندی متن (Text Categorization): این تکنیک که به طبقهبندی متن نیز معروف است، وظیفه تجزیهوتحلیل اسناد متنی و طبقهبندی آنها را بر اساس موضوعات یا دستهبندیهای از پیش تعریف شده، بر عهده دارد. این کار بهویژه هنگام دستهبندی مترادفها و اختصارات مفید است.
- تحلیل احساسات (Sentiment Analysis): این روش، احساسات مثبت یا منفی را از منابع داده داخلی یا خارجی شناسایی کرده و امکان بررسی تغییرات نگرش مشتری در طول زمان را فراهم میکند. تحلیل احساسات معمولاً برای ارائه اطلاعات در مورد درک افراد از برندها، محصولات و خدمات استفاده میشود و بینشهای حاصل از آن میتواند کسبوکارها را به سمت ارتباط بهتر با مشتریان و بهبود فرایندها و تجربیات کاربر سوق دهد.
NLP با تجزیهوتحلیل ساختار جمله و دستور زبان، به رایانهها اجازه میدهد تا زبان انسان را متوجه شوند!
استخراج اطلاعات (Information extraction)
استخراج اطلاعات (IE) هنگام جستجوی اسناد مختلف، قطعات مربوطه از داده های موجود را نشان میدهد. همچنین این تکنیک بر استخراج اطلاعات ساختاریافته از متن و ذخیره موجودیتها، ویژگیها و اطلاعات روابط در یک پایگاه داده نیز تمرکز دارد. رایجترین تکنیکهای استخراج اطلاعات عبارتاند از:
- انتخاب ویژگی (Feature /Attribute Selection): فرایند انتخاب ویژگیهای مهم (ابعاد) است تا بیشترین سهم را در خروجی یک مدل تحلیل پیشبینیکننده داشته باشد.
- استخراج ویژگی (Feature Extraction): فرایند انتخاب زیرمجموعهای از ویژگیهای بالا، برای بهبود دقت یک طبقهبندی است. این موضوع بهویژه برای کاهش ابعاد، از اهمیت زیادی برخوردار است.
- شناسایی موجودیت (Named-Entity Recognition): تکنیکNER که به عنوان شناسایی موجودیت یا استخراج موجودیت شناخته میشود، باهدف یافتن و طبقهبندی موجودیتهای خاص در متن، مانند نامها یا مکانها کار میکند؛ برای مثال، NER “کالیفرنیا” را به عنوان یک مکان و “مری” را به عنوان نام یک زن شناسایی میکند.
داده کاوی
داده کاوی فرایند شناسایی الگوها و استخراج بینش مفید از مجموعه داده های بزرگ است. این روش، داده های ساختاریافته و بدون ساختار را برای شناسایی اطلاعات جدید ارزیابی میکند و معمولاً برای تجزیهوتحلیل رفتارهای مصرفکننده در بازاریابی و فروش استفاده میشود. متن کاوی اساساً یک زیر شاخه از داده کاوی است، زیرا روی ساختاردهی به داده های بدون ساختار و تحلیل آنها برای ایجاد بینشهای جدید متمرکز است. تکنیکهای ذکر شده در بالا اشکال مختلف داده کاوی هستند، اما در حوزه تحلیل داده های متنی قرار میگیرند.
الگوریتمهای متن کاوی
الگوریتمهای مختلفی برای متن کاوی استفاده میشود که برخی از شناختهشدهترین الگوریتمهای مورد استفاده در برنامههای مختلف در ادامه معرفی شدهاند:
- بیز ساده (Naive Bayes): بر اساس قضیه بیز، بیز ساده یک الگوریتم احتمالی است که در متن کاوی؛ اغلب در برنامههای Text mining مانند فیلترکردن اسپمها، تجزیهوتحلیل احساسات و طبقهبندی اسناد استفاده میشود.
- K-means clustering : K-means clustering یکی از سادهترین الگوریتمهای خوشهبندی است که تعدادی از مراکز را برای برچسبگذاری داده ها تعیین میکند. کاربردهای این الگوریتم در متن کاوی شامل خوشهبندی اسناد و خوشهبندی متون در رسانههای اجتماعی است.
- Support Vector Machines (SVM): یک الگوریتم قدرتمند و دقیق که بزرگترین صفحهای را پیدا میکند که میتواند گروههای مشابهی از دادهها را از یکدیگر جدا کند. SVM اغلب برای طبقهبندی اسناد، تشخیص اسپم و تجزیهوتحلیل احساسات استفاده میشود.
- K امین نزدیکترین همسایه (KNN): یک الگوریتم ساده دیگر که از معیارهای مبتنی بر شباهت، برای دستهبندی داده ها استفاده میکند. کاربردهای متعددی از ANN در متن کاوی وجود دارد؛ از جمله جستجوی مفهومی و سایر وظایف طبقهبندی اسناد.
- درخت تصمیم: این الگوریتم از یک ساختار داده درخت مانند با گرههای ریشه و برگ برای طبقهبندی داده ها استفاده میکند که گرههای برگ نشاندهنده یک کلاس در داده ها هستند. درخت تصمیم در برنامههای متن کاوی مانند تجزیهوتحلیل بازخورد مشتری، طبقهبندی احساسات و شناسایی موضوعات استفاده میشود.
- جنگل تصادفی (Random forest): یک الگوریتم مجموعهای که از چندین درخت تصمیم برای طبقهبندی داده های با ابعاد بالا استفاده میکند. بنابراین جنگل تصادفی برای اکثر وظایف متن کاوی، از یک درخت تصمیمگیری دقیقتر است.
- تخصیص دیریکله پنهان (LDA): این الگوریتم احتمالی در درجه اول برای مدلسازی موضوع استفاده میشود و میتواند به طور خودکار، موضوعات را از داده های متنی تعیین کند.
- شبکههای عصبی (NN): انواع مختلفی از شبکههای عصبی برای متن کاوی استفاده میشود، از جمله NNهای پیشرفته مانند شبکههای عصبی کانولوشن (CNN) و شبکههای عصبی تکراری (RNN) که در متن کاوی استفاده میشوند. کاربردهای این الگوریتم شامل ترجمه زبان، تحقیقات پزشکی و تجزیهوتحلیل احساسات است.
الگوریتم شبکههای عصبی در مواردی مانند ترجمه زبان، تحقیقات پزشکی و تجزیهوتحلیل احساسات کاربرد دارد
کاربردهای متن کاوی
نرمافزارهای تحلیل متن بر نحوه کار بسیاری از صنایع تأثیر گذاشته است و به آنها اجازه میدهد تا تجربیات کاربر خود را بهبود بخشیده و تصمیمات تجاری سریعتر و بهتری اتخاذ کنند. برخی از کاربردهای متن کاوی در صنایع عبارتاند از:
کاربرد متن کاوی در خدمات مشتریان
راههای مختلفی وجود دارد که از طریق آنها میتوان بازخورد مشتری را از کاربران دریافت کرد. این روشها هنگامی که در سیستمهای بازخورد با ابزارهای تحلیل متن ترکیب میشوند، مانند چتباتها، نظرسنجی مشتریان، NPS (نمرات خالص تبلیغکننده)، بررسیهای آنلاین، تیکتهای پشتیبانی و نمایههای رسانههای اجتماعی، سازمانها را قادر میسازند تا تجربه مشتری خود را با سرعت بهبود بخشند. متن کاوی و تجزیهوتحلیل احساسات میتواند مکانیزمی را برای کسبوکارها فراهم کند تا نکات دردسرساز برای مشتریان را اولویتبندی کنند، به مسائل اضطراری در سریعترین زمان ممکن پاسخ داده و رضایت مشتری را افزایش دهند.
کاربرد متن کاوی در مدیریت ریسک
Text Mining در مدیریت ریسک نیز کاربرد دارد؛ جایی که میتواند با نظارت بر تغییرات احساسات کاربران و استخراج اطلاعات از گزارشهای تحلیلی و وایت پیپرها، بینشی در مورد روندهای صنعت و بازارهای مالی ارائه دهد. این موضوع بهویژه برای مؤسسات بانکی ارزشمند است؛ زیرا این داده ها هنگام سرمایهگذاری تجاری در بخشهای مختلف، اطمینان بیشتری را ایجاد میکنند.
کاربرد متن کاوی در نگهداری و تعمیرات
متن کاوی تصویری غنی و کامل از عملکرد محصولات و ماشینآلات ارائه میدهد. با گذشت زمان، Text Mining با آشکارکردن الگوهایی که به مشکلات و روشهای نگهداری پیشگیرانه و واکنشی مرتبط است، فرایند تصمیمگیری را خودکار میکند. تجزیهوتحلیل متن همچنین به متخصصان نگهداری و تعمیرات کمک میکند تا سریعتر علت اصلی بروز چالشها و خرابیها را کشف کنند.
کاربرد متن کاوی در مراقبتهای بهداشتی
تکنیکهای متن کاوی به طور فزایندهای برای محققان زیستپزشکی، بهویژه برای خوشهبندی اطلاعات، ارزشمند بودهاند. درحالیکه بررسی دستی تحقیقات پزشکی میتواند بسیار پرهزینه و وقتگیر باشد، متن کاوی یک روش خودکار برای استخراج اطلاعات ارزشمند از متون پزشکی را ارائه میدهد.
کاربرد متن کاوی در فیلترکردن اسپمها
ایمیلهای اسپم اغلب به عنوان نقطهای برای ورود هکرها و آلودهکردن سیستمهای کامپیوتری با بدافزار عمل میکنند. متن کاوی میتواند روشی برای فیلترکردن و حذف این ایمیلها از صندوقهای ورودی، بهبود تجربه کلی کاربر و بهحداقلرساندن خطر حملات سایبری برای کاربران نهایی را ارائه دهد.
از دیگر کاربردهای متداول متن کاوی میتوان به موارد زیر اشاره کرد:
- بررسی داوطلبان شغلی بر اساس محتوای رزومه آنها،
- مسدودکردن ایمیلهای اسپم،
- طبقهبندی محتوای وبسایت،
- بررسی ادعاهای بیمه که ممکن است تقلبی باشد،
- تحلیل علائم پزشکی برای کمک به تشخیص بیماری،
- بررسی اسناد سازمان به عنوان بخشی از فرایندهای کشف الکترونیکی.
مزایای متن کاوی
همانطور که در قسمت قبل اشاره شد، متن کاوی دارای کاربردهای متعددی برای کسبوکارهای مختلف است که در نهایت به تصمیمگیری بهتر سازمانها، به آنها کمک میکند. از مهمترین مزایای Text Mining برای کسبوکارها میتوان به موارد زیر اشاره کرد:
- تحلیل کارآمد حجم زیادی از دادهها: متن کاوی تبدیل سریع حجم زیادی از دادههای بدون ساختار را ممکن میسازد؛ قدرتی که از طریق پردازش دستی امکانپذیر نبود،
- بهبود فرایند تصمیمگیری: بینشهای بهدستآمده از منابع داده مختلف، سازمانها را قادر میسازد تا روندها و الگوهای فعلی را درک کنند و بهاینترتیب، تصمیمات تجاری درستی بگیرند،
- کاربردهای متنوع: متن کاوی در صنایع مختلف، کاربردهای متنوعی دارد؛ این موضوع در تحقیق و توسعه نوآورانه در تمامی این زمینهها، نقش محوری ایفا میکند.
- کارایی در هزینهها: متن کاوی، مدیریت حجم زیادی از داده های متنی را از طریق اتوماسیون منطقی میکند و وابستگی به تحلیلهای دستی را کاهش میدهد. این امر کسبوکارها را قادر میسازد تا هزینههای نیروی کار خود را کاهش دهند و کارکنان خود را استراتژیکتر به کار گیرند.
- افزایش بهرهوری در تحقیقات: متن کاوی بررسی ادبیات و توسعه فرضیهها را تسریع میکند و بهاینترتیب، زمان و هزینههای مرتبط با فعالیتهای تحقیق و توسعه را کاهش میدهد.
متن کاوی دارای کاربردهای متعددی برای کسبوکارهای مختلف است که در نهایت به تصمیمگیری بهتر سازمانها، به آنها کمک میکند
چالشها و مشکلات متن کاوی
متن کاوی میتواند فرایندی چالشبرانگیز باشد؛ زیرا داده ها اغلب مبهم، ناسازگار و متناقض هستند. تلاش برای تجزیهوتحلیل این داده ها، با وجود ابهامات ناشی از تفاوت در نگارش و معناشناسی و همچنین استفاده از زبان عامیانه، طعنهها، گویشهای منطقهای و زبان فنی خاص برای صنایع مختلف، پیچیدهتر نیز میشود. در نتیجه، الگوریتمهای متن کاوی باید برای شناسایی چنین ابهامات و ناهماهنگیهایی در هنگام دستهبندی، برچسبگذاری و خلاصهکردن مجموعهای از داده های متنی آموزش ببینند.
علاوه بر این، مدلهای یادگیری عمیق مورد استفاده در بسیاری از برنامههای متن کاوی، به حجم زیادی از دادههای آموزشی و قدرت پردازشی نیاز دارند که میتواند اجرای آنها را پرهزینه کند. سوگیری ذاتی در مجموعهدادهها، موضوع دیگری است که اگر دانشمندان داده در طول فرایند توسعه مدل، آنها را تشخیص ندهند، میتواند ابزارهای یادگیری عمیق را به سمت ایجاد نتایج ناقص سوق دهد.
از مهمترین چالشهای Text Mining میتوان به موارد زیر اشاره کرد:
- مشکلات مربوط به کیفیت داده: متن کاوی و به دنبال آن تحلیل داده و تشخیص الگو، بهشدت به کیفیت داده بستگی دارد. کیفیت داده ها بسته به ساختار و پیشپردازش آنها میتواند متفاوت باشد که ممکن است منجر به نتایج نادرست شود.
- پیچیدگی دادهها و فرایند استخراج زبانهای طبیعی: پیچیدگی داده ها میتواند فرایند متن کاوی را دشوار کند. بهعنوانمثال، برخی از متنها ممکن است حاوی نویز یا اطلاعات نامربوط مانند اسپم یا محتوای نامرتبط از پستهای رسانههای اجتماعی، خطاهای دستوری در دادهها و غیره باشند که چنین خطاهایی پردازش توسط الگوریتمهای متن کاوی را دشوار میکنند.
- هزینههای محاسبه: متن کاوی اغلب از مقدار زیادی داده استفاده میکند. بنابراین ذخیره، مدیریت و پردازش کارآمد این داده ها به فضای ذخیرهسازی و قدرت محاسباتی زیادی نیاز دارد که میتواند پرهزینه باشد.
- مسائل حفاظت از داده: متن کاوی دادههایی را پردازش میکند که ممکن است حاوی دیتای شخصی و حساس باشد؛ مانند داده های رسانههای اجتماعی، سوابق بیمار و داده های مشتری. چنین دیتایی باید مطابق با مقررات حفاظت از داده ها و با رضایت صریح کاربر پردازش شوند.
- محدودیت داده ها: داده های بدون ساختار مورد استفاده در متن کاوی، بهسختی با انواع دیگر داده ها مانند داده های ساختاریافته و نیمهساختاریافته ترکیب میشوند. علاوه بر این، الگوریتمهای متن کاوی ممکن است به طور کامل ارتباطات انسانی و موارد احساسی را درک نکنند؛ این محدودیتها میتواند منجر به نتایجی بادقت کمتر شود.
همانطور که حوزه متن کاوی به پیشرفت خود ادامه میدهد، قابلیتها و کاربردهای آن نیز افزایش مییابد. با پیشرفتهای ایجاد شده در پردازش زبان طبیعی و یادگیری ماشینی، میتوان انتظار داشت که در آینده، بینشهای عمیقتر و ظریفتری از دادههای متنی به دست آید.
متن کاوی این نوید را میدهد که شکاف میان درک انسان و حجم روزافزون اطلاعات متنی را پر کند. این موضوع به محققان و تحلیلگران در زمینههای مختلف، قدرت میدهد تا تصمیمات آگاهانه بگیرند، مشکلات پیچیده را حل کنند و در نهایت روایت واقعی پنهان در دریای وسیع کلمات را نشان دهند.
منابع
- ibm.com
- techtarget.com
- alexanderthamm.com