شنبه، تیر ۲۱، ۱۳۹۳

پاورچین پاورچین - سلانه سلانه - بع بع - صورت صورت

بسی رنج بردم بدین سال سی
عجم زنده کردم بدین پارسی

در ادامه مباحث مربوط به پردازش پیکره فارسی، به یکی دیگه از مواردی که در پیکره‌های خبری فارسی به‌وفور دیده‌ام می‌پردازیم. و خواهیم دید که چطور میشه با یک مدل ساده چنین مشکلی را در پیکره حل کرد.

در متون فارسی گاهی به کلماتی برخورد می‌کنیم که تکرار پشت‌سر آنها کاملا درست است، مثل کلمات زیر:

قاه قاه
شرحه شرحه
بیگلی بیگلی
واق واق
کورمال کورمال
هق هق
زق زق
خس خس
سلانه سلانه
اَ اَ
کَل کَل
یواش یواش
بع بع
دوان دوان
پچ پچ
پرسان پرسان
نچ نچ
فوج فوج
تلق تلق
کرور کرور
پاورچین پاورچین
واه واه

اما آیا همه کلماتی که دوبار پشت‌سر‌هم نوشته شده‌اند، درستن؟ مثلا آیا میشه کلمات زیر را بصورت تکراری نوشت؟

صورت صورت
نظر نظر
باشد باشد
انجام انجام
اگر اگر
پس پس
نمی نمی
آنها آنها
شد شد

بنظر میاد که ترکیب کلمات بالا صحیح نیست. اما چطور میشه این کلمات را در متن پیدا کرده و تصحیح کرد. یک راه ساده اینه که تعداد تکرار ترکیب دوتائی (bigram) را در نظر بگیریم. اما این کافی نیست چرا که کلمات درستی که در ابتدای متن اشاره شد معمولا از تکرار بالائی برخوردار نیستند و نمیشه براحتی اونها را از سری دوم کلمات فقط بر اساس آمار تکرار اونها تشخص داد. 

اما راه دوم استفاده از آمار تکرار نسبی است. به این معنی که آمار تکرار دوتائی (bigram) را بر تعداد تکرار کلمه تقسیم کنیم. در اینصورت می‌توانید کلماتی که بصورت تنهائی تکرار بالائی دارند (مانند -شد- ) را از کلماتی که تکرار کمتری دارند ( مانند -بع- ) جدا کرد.  هیچ نظری موجود نیست: