اینروزها یکی از کارهای من اینه که بر روی نرمال سازی پیکرههای فارسی کار کنم. بزرگترین مشکلی که دیدهام در مورد استفاده از نیمفاصله یا فاصله مجازی بوده. نمیدانم چرا یک سایتهای خبری یک قانون مشخص در اینمورد ندارن که مثلا اینکه یک سایت اصلا از نیمفاصله استفاده نکنه. وقتی قانون مشخصی نداریم، اینطوری میشه که در یک سایت تمام حالتهای مختلف استفاده و عدم استفاده نیمفاصله برای یک کلمه خاص وجود داره.
در بیشتر موارد این اسامی جمع یا صرف فعل هست که این مشکل را داره.
می توانم ---> میتوانم
کتاب ها ----> کتابها یا کتابها
اما گاهی پیچیدگی بیشتر هست. مثلا در مورد اسم شهرهایی که ترکیبی هستند مثل خمینیشهر.
جملات زیر را در نظر بگیرید:
در میدان امام خمینی شهر لواسان
در میدان امام خمینی شهر اصفهان
در شهرستان خمینیشهر اصفهان
در میدان امام خمینی شهر خمینیشهر اصفهان
در تمام موارد بالا، تنها نویسنده مطلب هست که میتونه با درست نوشتن کمک کنه که ابهام از بین بره. جالبه که ذهن انسان میتونه این ابهام را براحتی حل کنه اما در حال حاضر الگورتیمی برای حل اون توسط کامپیوتر نداریم (یا حداقل من خبر ندارم و پیدا نکردم).
حالا در نظر بگیرید که در یک سایت خبری موارد زیر را دیدهام:
- به نمایندگی ایران خودرو در خمینی شهر تحویل داد
- در آن مثال شهرستان خمینی شهر زده شد
- علیرضا باقری از خمینیشهر
- تحت پوشش کمیته امداد امام خمینی شهر تهران
- سر رسید مفاخر خمینیشهر را تهیه کرده بود
- مردم خمینیشهر مردم شعر شناسی هستند
- پس از انقلاب به خمینی شهر تغییر یافت
هر دو حالت استفاده از نیمفاصله و بدون نیم فاصله در سایت وجود داره. حالا اگه بخواهید هر نوع پردازش متنی برروی محتوای این سایت انجام بدین، به مشکل برخورد میکنین. حتی یک جستجوی ساده برای اسم شهر خمینیشهر میتونه تعداد زیادی از نتایج را نشان نده. البته روشهایی هست که بتونه نتایج را بهتر کنه اما سوال من اینه که آیا بهتر نیست که سایتهای خبری در مورد استفاده یا عدم استفاده از نیمفاصله رویه ثابتی داشته باشند؟
هیچ نظری موجود نیست:
ارسال یک نظر