پنجشنبه، آذر ۲۷، ۱۳۹۳

TF-IDF


امروز به مطلبی در مورد پیدا کردن کلمه‌های با اهمیت در یک پیکره برخورد کردم که خیلی ساده دلیل استفاده از TF-IDF را توضیح داده بود. اینکه TF   می‌تونه کمک کنه که واژه‌های مهم در سطح یک document را پیدا کنیم و IDF هم به ما نشون میده که از بین همه این کلمه‌های پرتکرار کدامیک مهمتر هستند. 


جمعه، آذر ۲۱، ۱۳۹۳

زبان عربی قدیم - بدون نقطه و اِعراب

امروز در ویکیپدیا به مطلبی در مورد زبان عربی برخورد کردم که برای من عجیب بود. مطلب در مورد نگارشهای مختلف زبان عربی بود. ظاهرا در زمانیها قدیم در زبان عربی نه نقطه‌ای وجود داشته و نه اعرابی. نمونه نوشته شده زیر در زمانهای مختلف را می‌توانید در عکس زیر ببینید:

نگارشهای مختلف بسم‌الله ارحمن الرحیم 

اولین خط مربوط به خط عربی کوفی است که در قرن ۹ استفاده می‌شده است. حذف اعراب از زبان عربی به تنهائی پردازش متن را مشکل می‌کند برای اینکه مدل کامگیوتری ما  باید بتواند در جمله را تجزیه و تحلیل کرده و بر اساس نقش هر کلمه اعراب آنرا حدس بزند. حال اگر نقطه را هم حذف کنیم، پیچیدگی زبان عربی بیشتر خواهد شد.


مثلا دیگه فرقی بین ب و ن در زبان عربی نخواهد بود. آیا بنظر شما با توجه به اینکه زبان فارسی از سیستم مشابه زبان عربی برای نوشتن استفاده می‌کند، چنین تغییری در زبان فارسی هم اتفاق افتاده است؟

لینکهای مرتبط