در ادامه مباحث مربوط به پردازش پیکره فارسی، به یکی دیگه از مواردی که در پیکرههای خبری فارسی بهوفور دیدهام میپردازیم. و خواهیم دید که چطور میشه با یک مدل ساده چنین مشکلی را در پیکره حل کرد.
در متون فارسی گاهی به کلماتی برخورد میکنیم که تکرار پشتسر آنها کاملا درست است، مثل کلمات زیر:
قاه قاه
شرحه شرحه
بیگلی بیگلی
واق واق
کورمال کورمال
هق هق
زق زق
خس خس
سلانه سلانه
اَ اَ
کَل کَل
یواش یواش
بع بع
دوان دوان
پچ پچ
پرسان پرسان
نچ نچ
فوج فوج
تلق تلق
کرور کرور
پاورچین پاورچین
واه واه
اما آیا همه کلماتی که دوبار پشتسرهم نوشته شدهاند، درستن؟ مثلا آیا میشه کلمات زیر را بصورت تکراری نوشت؟
صورت صورت
نظر نظر
باشد باشد
انجام انجام
اگر اگر
پس پس
نمی نمی
آنها آنها
شد شد
بنظر میاد که ترکیب کلمات بالا صحیح نیست. اما چطور میشه این کلمات را در متن پیدا کرده و تصحیح کرد. یک راه ساده اینه که تعداد تکرار ترکیب دوتائی (bigram) را در نظر بگیریم. اما این کافی نیست چرا که کلمات درستی که در ابتدای متن اشاره شد معمولا از تکرار بالائی برخوردار نیستند و نمیشه براحتی اونها را از سری دوم کلمات فقط بر اساس آمار تکرار اونها تشخص داد.
اما راه دوم استفاده از آمار تکرار نسبی است. به این معنی که آمار تکرار دوتائی (bigram) را بر تعداد تکرار کلمه تقسیم کنیم. در اینصورت میتوانید کلماتی که بصورت تنهائی تکرار بالائی دارند (مانند -شد- ) را از کلماتی که تکرار کمتری دارند ( مانند -بع- ) جدا کرد.
هیچ نظری موجود نیست:
ارسال یک نظر