طبقه بندی متن یک تکنیک یادگیری ماشینی است که مجموعه ای از دسته بندی های از پیش تعریف شده را به متن باز اختصاص می دهد. طبقهبندیکنندههای متن را میتوان برای سازماندهی، ساختار، و دستهبندی تقریباً هر نوع متنی – از اسناد، مطالعات پزشکی و فایلها، و در سراسر وب استفاده کرد.
به عنوان مثال، مقالات جدید را می توان بر اساس موضوعات سازماندهی کرد. بلیط های پشتیبانی را می توان بر اساس فوریت سازماندهی کرد. مکالمات چت را می توان بر اساس زبان سازماندهی کرد. نام تجاری را می توان بر اساس احساسات سازماندهی کرد. و غیره
طبقه بندی متن یکی از وظایف اساسی در پردازش زبان طبیعی با کاربردهای گسترده ای مانند تجزیه و تحلیل احساسات، برچسب گذاری موضوع، تشخیص هرزنامه و تشخیص هدف است.
در اینجا مثالی از نحوه کار آن آمده است:
'رابط کاربری کاملاً ساده و آسان برای استفاده است.'
یک طبقهبندیکننده متن میتواند این عبارت را بهعنوان ورودی بگیرد، محتوای آن را تجزیه و تحلیل کند و سپس بهطور خودکار برچسبهای مرتبط مانند UI و Easy To Use را اختصاص دهد.
چرا طبقه بندی متن مهم است؟
تخمین زده می شود که حدود 80 درصد از کل اطلاعات بدون ساختار هستند و متن یکی از رایج ترین انواع داده های بدون ساختار است. به دلیل ماهیت نامرتب متن، تجزیه و تحلیل، درک، سازماندهی و مرتبسازی از طریق دادههای متنی سخت و زمانبر است، بنابراین اکثر شرکتها در استفاده کامل از آن شکست میخورند.
اینجاست که طبقهبندی متن با یادگیری ماشینی وارد میشود. با استفاده از طبقهبندیکنندههای متن، شرکتها میتوانند بهطور خودکار انواع متن مرتبط، از ایمیلها، اسناد قانونی، رسانههای اجتماعی، رباتهای چت، نظرسنجیها و موارد دیگر را به روشی سریع و مقرونبهصرفه ساختار دهند. این به شرکت ها خدمات سفارش تولید محتوا اجازه می دهد تا در زمان تجزیه و تحلیل داده های متنی صرفه جویی کنند، فرآیندهای تجاری را خودکار کنند و تصمیمات تجاری مبتنی بر داده اتخاذ کنند.
چرا از طبقه بندی متن یادگیری ماشینی استفاده کنیم؟ برخی از مهمترین دلایل:
مقیاس پذیری
تجزیه و تحلیل و سازماندهی دستی کند و بسیار کمتر دقیق است. یادگیری ماشینی می تواند به طور خودکار میلیون ها نظرسنجی، نظر، ایمیل، و غیره را با کسری از هزینه، اغلب تنها در چند دقیقه تجزیه و تحلیل کند. ابزارهای طبقه بندی متن برای هر نیاز تجاری، بزرگ یا کوچک، مقیاس پذیر هستند.
تحلیل زمان واقعی
موقعیتهای حیاتی وجود دارد که شرکتها باید هر چه سریعتر آنها را شناسایی کرده و اقدامات فوری انجام دهند (به عنوان مثال، بحرانهای روابط عمومی در رسانههای اجتماعی). طبقهبندی متن یادگیری ماشینی میتواند به طور مداوم و در زمان واقعی از نام تجاری شما پیروی کند، بنابراین اطلاعات مهم را شناسایی کرده و میتوانید فوراً اقدام کنید.
معیارهای منسجم
حاشیه نویسان انسانی هنگام طبقه بندی داده های متنی به دلیل حواس پرتی، خستگی و کسالت اشتباه می کنند و ذهنیت انسان معیارهای متناقضی را ایجاد می کند. از سوی دیگر، یادگیری ماشینی، لنز و معیارهای یکسانی را برای همه داده ها و نتایج اعمال می کند. هنگامی که یک مدل طبقه بندی متن به درستی آموزش داده می شود، با دقتی بی نظیر عمل می کند.
طبقه بندی متن چگونه کار می کند؟
شما می توانید طبقه بندی متن را به دو صورت انجام دهید: دستی یا خودکار.
طبقه بندی متن دستی شامل یک حاشیه نویس انسانی است که محتوای متن را تفسیر کرده و آن را بر اساس آن دسته بندی می کند. این روش می تواند نتایج خوبی ارائه دهد اما زمان بر و گران است.
طبقهبندی خودکار متن از یادگیری ماشینی، پردازش زبان طبیعی (NLP) و سایر تکنیکهای هدایتشده با هوش مصنوعی برای طبقهبندی خودکار متن به شیوهای سریعتر، مقرونبهصرفهتر و دقیقتر استفاده میکند.
در این راهنما، ما بر روی طبقه بندی خودکار متن تمرکز می کنیم.
روش های زیادی برای طبقه بندی خودکار متن وجود دارد، اما همه آنها تحت سه نوع سیستم قرار می گیرند:
سیستم های مبتنی بر قانون
سیستم های مبتنی بر یادگیری ماشینی
سیستم های هیبریدی
سیستم های مبتنی بر قانون
رویکردهای مبتنی بر قاعده با استفاده از مجموعه ای از قواعد زبانی دست ساز، متن را به گروه های سازمان یافته طبقه بندی می کنند. این قوانین به سیستم دستور می دهد تا از عناصر مرتبط معنایی یک متن برای شناسایی دسته بندی های مرتبط بر اساس محتوای آن استفاده کند. هر قانون شامل یک مقدم یا الگو و یک مقوله پیش بینی شده است.
بگویید که می خواهید مقالات خبری را به دو گروه ورزشی و سیاسی طبقه بندی کنید. ابتدا باید دو لیست از کلماتی را که مشخصه هر گروه هستند (مثلاً کلمات مرتبط با ورزش هایی مانند فوتبال، بسکتبال، لبرون جیمز و غیره و کلمات مرتبط با سیاست مانند دونالد ترامپ، هیلاری کلینتون، پوتین) تعریف کنید. ، و غیره.).
در مرحله بعد، وقتی میخواهید یک متن ورودی جدید را طبقهبندی کنید، باید تعداد کلمات مرتبط با ورزش را که در متن ظاهر میشوند بشمارید و همین کار را برای کلمات مرتبط با سیاست انجام دهید. اگر تعداد کلمات مربوط به ورزش بیشتر از تعداد کلمات مربوط به سیاست باشد، متن به عنوان ورزش طبقه بندی می شود و بالعکس.
به عنوان مثال، این سیستم مبتنی بر قانون تیتر 'اولین بازی لبرون جیمز با لیکرز چه زمانی است؟' به عنوان Sports زیرا یک اصطلاح مرتبط با ورزش (لبرون جیمز) را در نظر می گرفت و هیچ اصطلاح مرتبط با سیاست را در نظر نمی گرفت.