جمعه، تیر ۱۳، ۱۳۹۳

نیم‌فاصله یا فاصله مجازی در زبان فارسی


فارسی شکر است

اینروزها یکی از کارهای من اینه که بر روی نرمال سازی پیکره‌های فارسی کار کنم. بزرگترین مشکلی که دیده‌ام در مورد استفاده از نیم‌فاصله یا فاصله مجازی بوده. نمی‌دانم چرا یک سایتهای خبری یک قانون مشخص در این‌مورد ندارن که مثلا اینکه یک سایت اصلا از نیم‌فاصله استفاده نکنه. وقتی قانون مشخصی نداریم، اینطوری میشه که در یک سایت تمام حالتهای مختلف استفاده و عدم استفاده نیم‌فاصله برای یک کلمه خاص وجود داره.

در بیشتر موارد این اسامی جمع یا صرف فعل هست که این مشکل را داره. 

می توانم ---> می‌توانم

کتاب ها ----> کتاب‌ها   یا کتابها

اما گاهی پیچیدگی بیشتر هست. مثلا در مورد اسم شهرهایی که ترکیبی هستند مثل خمینی‌شهر.

جملات زیر را در نظر بگیرید:

در میدان امام خمینی شهر لواسان
در میدان امام خمینی شهر اصفهان
در شهرستان خمینی‌شهر اصفهان
در میدان امام خمینی شهر خمینی‌شهر اصفهان

در تمام موارد بالا، تنها نویسنده مطلب هست که می‌تونه با درست نوشتن کمک کنه که ابهام از بین بره. جالبه که ذهن انسان می‌تونه این ابهام را براحتی حل کنه اما در حال حاضر الگورتیمی برای حل اون توسط کامپیوتر نداریم (یا حداقل من خبر ندارم و پیدا نکردم).


حالا در نظر بگیرید که در یک سایت خبری موارد زیر را دیده‌ام:

- به نمایندگی ایران خودرو در خمینی شهر تحویل داد
- در آن مثال شهرستان خمینی شهر زده شد
- علیرضا باقری از خمینی‌شهر
- تحت پوشش کمیته امداد امام خمینی شهر تهران
- سر رسید مفاخر خمینی‌شهر را تهیه کرده بود
- مردم خمینی‌شهر مردم شعر شناسی هستند
- پس از انقلاب به خمینی شهر تغییر یافت

هر دو حالت استفاده از نیم‌فاصله و بدون نیم فاصله در سایت وجود داره. حالا اگه بخواهید هر نوع پردازش متنی برروی محتوای این سایت انجام بدین، به مشکل برخورد می‌کنین. حتی یک جستجوی ساده برای اسم شهر خمینی‌شهر می‌تونه تعداد زیادی از نتایج را نشان نده. البته روشهایی هست که بتونه نتایج را بهتر کنه اما سوال من اینه که آیا بهتر نیست که سایتهای خبری در مورد استفاده یا عدم استفاده از نیم‌فاصله رویه ثابتی داشته باشند؟

هیچ نظری موجود نیست: