طبقه بندی متن یک تکنیک یادگیری ماشینی است که مجموعه ای از دسته بندی های از پیش تعریف شده را به متن باز اختصاص می دهد. طبقه‌بندی‌کننده‌های متن را می‌توان برای سازمان‌دهی، ساختار، و دسته‌بندی تقریباً هر نوع متنی – از اسناد، مطالعات پزشکی و فایل‌ها، و در سراسر وب استفاده کرد.


به عنوان مثال، مقالات جدید را می توان بر اساس موضوعات سازماندهی کرد. بلیط های پشتیبانی را می توان بر اساس فوریت سازماندهی کرد. مکالمات چت را می توان بر اساس زبان سازماندهی کرد. نام تجاری را می توان بر اساس احساسات سازماندهی کرد. و غیره


طبقه بندی متن یکی از وظایف اساسی در پردازش زبان طبیعی با کاربردهای گسترده ای مانند تجزیه و تحلیل احساسات، برچسب گذاری موضوع، تشخیص هرزنامه و تشخیص هدف است.


در اینجا مثالی از نحوه کار آن آمده است:


'رابط کاربری کاملاً ساده و آسان برای استفاده است.'


یک طبقه‌بندی‌کننده متن می‌تواند این عبارت را به‌عنوان ورودی بگیرد، محتوای آن را تجزیه و تحلیل کند و سپس به‌طور خودکار برچسب‌های مرتبط مانند UI و Easy To Use را اختصاص دهد.




چرا طبقه بندی متن مهم است؟
تخمین زده می شود که حدود 80 درصد از کل اطلاعات بدون ساختار هستند و متن یکی از رایج ترین انواع داده های بدون ساختار است. به دلیل ماهیت نامرتب متن، تجزیه و تحلیل، درک، سازماندهی و مرتب‌سازی از طریق داده‌های متنی سخت و زمان‌بر است، بنابراین اکثر شرکت‌ها در استفاده کامل از آن شکست می‌خورند.


اینجاست که طبقه‌بندی متن با یادگیری ماشینی وارد می‌شود. با استفاده از طبقه‌بندی‌کننده‌های متن، شرکت‌ها می‌توانند به‌طور خودکار انواع متن مرتبط، از ایمیل‌ها، اسناد قانونی، رسانه‌های اجتماعی، ربات‌های چت، نظرسنجی‌ها و موارد دیگر را به روشی سریع و مقرون‌به‌صرفه ساختار دهند. این به شرکت ها خدمات سفارش تولید محتوا اجازه می دهد تا در زمان تجزیه و تحلیل داده های متنی صرفه جویی کنند، فرآیندهای تجاری را خودکار کنند و تصمیمات تجاری مبتنی بر داده اتخاذ کنند.


چرا از طبقه بندی متن یادگیری ماشینی استفاده کنیم؟ برخی از مهمترین دلایل:


مقیاس پذیری
تجزیه و تحلیل و سازماندهی دستی کند و بسیار کمتر دقیق است. یادگیری ماشینی می تواند به طور خودکار میلیون ها نظرسنجی، نظر، ایمیل، و غیره را با کسری از هزینه، اغلب تنها در چند دقیقه تجزیه و تحلیل کند. ابزارهای طبقه بندی متن برای هر نیاز تجاری، بزرگ یا کوچک، مقیاس پذیر هستند.


تحلیل زمان واقعی
موقعیت‌های حیاتی وجود دارد که شرکت‌ها باید هر چه سریع‌تر آن‌ها را شناسایی کرده و اقدامات فوری انجام دهند (به عنوان مثال، بحران‌های روابط عمومی در رسانه‌های اجتماعی). طبقه‌بندی متن یادگیری ماشینی می‌تواند به طور مداوم و در زمان واقعی از نام تجاری شما پیروی کند، بنابراین اطلاعات مهم را شناسایی کرده و می‌توانید فوراً اقدام کنید.


معیارهای منسجم
حاشیه نویسان انسانی هنگام طبقه بندی داده های متنی به دلیل حواس پرتی، خستگی و کسالت اشتباه می کنند و ذهنیت انسان معیارهای متناقضی را ایجاد می کند. از سوی دیگر، یادگیری ماشینی، لنز و معیارهای یکسانی را برای همه داده ها و نتایج اعمال می کند. هنگامی که یک مدل طبقه بندی متن به درستی آموزش داده می شود، با دقتی بی نظیر عمل می کند.


طبقه بندی متن چگونه کار می کند؟


شما می توانید طبقه بندی متن را به دو صورت انجام دهید: دستی یا خودکار.


طبقه بندی متن دستی شامل یک حاشیه نویس انسانی است که محتوای متن را تفسیر کرده و آن را بر اساس آن دسته بندی می کند. این روش می تواند نتایج خوبی ارائه دهد اما زمان بر و گران است.


طبقه‌بندی خودکار متن از یادگیری ماشینی، پردازش زبان طبیعی (NLP) و سایر تکنیک‌های هدایت‌شده با هوش مصنوعی برای طبقه‌بندی خودکار متن به شیوه‌ای سریع‌تر، مقرون‌به‌صرفه‌تر و دقیق‌تر استفاده می‌کند.


در این راهنما، ما بر روی طبقه بندی خودکار متن تمرکز می کنیم.


روش های زیادی برای طبقه بندی خودکار متن وجود دارد، اما همه آنها تحت سه نوع سیستم قرار می گیرند:


سیستم های مبتنی بر قانون
سیستم های مبتنی بر یادگیری ماشینی
سیستم های هیبریدی
سیستم های مبتنی بر قانون
رویکردهای مبتنی بر قاعده با استفاده از مجموعه ای از قواعد زبانی دست ساز، متن را به گروه های سازمان یافته طبقه بندی می کنند. این قوانین به سیستم دستور می دهد تا از عناصر مرتبط معنایی یک متن برای شناسایی دسته بندی های مرتبط بر اساس محتوای آن استفاده کند. هر قانون شامل یک مقدم یا الگو و یک مقوله پیش بینی شده است.


بگویید که می خواهید مقالات خبری را به دو گروه ورزشی و سیاسی طبقه بندی کنید. ابتدا باید دو لیست از کلماتی را که مشخصه هر گروه هستند (مثلاً کلمات مرتبط با ورزش هایی مانند فوتبال، بسکتبال، لبرون جیمز و غیره و کلمات مرتبط با سیاست مانند دونالد ترامپ، هیلاری کلینتون، پوتین) تعریف کنید. ، و غیره.).


در مرحله بعد، وقتی می‌خواهید یک متن ورودی جدید را طبقه‌بندی کنید، باید تعداد کلمات مرتبط با ورزش را که در متن ظاهر می‌شوند بشمارید و همین کار را برای کلمات مرتبط با سیاست انجام دهید. اگر تعداد کلمات مربوط به ورزش بیشتر از تعداد کلمات مربوط به سیاست باشد، متن به عنوان ورزش طبقه بندی می شود و بالعکس.


به عنوان مثال، این سیستم مبتنی بر قانون تیتر 'اولین بازی لبرون جیمز با لیکرز چه زمانی است؟' به عنوان Sports زیرا یک اصطلاح مرتبط با ورزش (لبرون جیمز) را در نظر می گرفت و هیچ اصطلاح مرتبط با سیاست را در نظر نمی گرفت.