امروز به مطلبی در مورد پیدا کردن کلمههای با اهمیت در یک پیکره برخورد کردم که خیلی ساده دلیل استفاده از TF-IDF را توضیح داده بود. اینکه TF میتونه کمک کنه که واژههای مهم در سطح یک document را پیدا کنیم و IDF هم به ما نشون میده که از بین همه این کلمههای پرتکرار کدامیک مهمتر هستند.
پنجشنبه، آذر ۲۷، ۱۳۹۳
جمعه، آذر ۲۱، ۱۳۹۳
زبان عربی قدیم - بدون نقطه و اِعراب
امروز در ویکیپدیا به مطلبی در مورد زبان عربی برخورد کردم که برای من عجیب بود. مطلب در مورد نگارشهای مختلف زبان عربی بود. ظاهرا در زمانیها قدیم در زبان عربی نه نقطهای وجود داشته و نه اعرابی. نمونه نوشته شده زیر در زمانهای مختلف را میتوانید در عکس زیر ببینید:
نگارشهای مختلف بسمالله ارحمن الرحیم |
اولین خط مربوط به خط عربی کوفی است که در قرن ۹ استفاده میشده است. حذف اعراب از زبان عربی به تنهائی پردازش متن را مشکل میکند برای اینکه مدل کامگیوتری ما باید بتواند در جمله را تجزیه و تحلیل کرده و بر اساس نقش هر کلمه اعراب آنرا حدس بزند. حال اگر نقطه را هم حذف کنیم، پیچیدگی زبان عربی بیشتر خواهد شد.
مثلا دیگه فرقی بین ب و ن در زبان عربی نخواهد بود. آیا بنظر شما با توجه به اینکه زبان فارسی از سیستم مشابه زبان عربی برای نوشتن استفاده میکند، چنین تغییری در زبان فارسی هم اتفاق افتاده است؟
لینکهای مرتبط
اشتراک در:
پستها (Atom)