سه‌شنبه، تیر ۳۱، ۱۳۹۳

لاتین نویسی زبان فارسی


   لاتین نویسی زبان فارسی یکی از پروژه‌هائی است که می‌تواند مورد توجه محققان در زمینه پردازش زبان طبیعی قرار بگیرد. پروژه‌های مشابه با نام نویسه‌گردانی (transliteration) در زبانهای مختلف تعریف شده که بیشتر برای تبدیل متن (در یک زبان) از یک خط به خط لاتین بوده است. بعنوان مثال می‌توان برای زبان ترکی آذربایجان متون را به سه خط عربی، سیریلیک و لاتین دید. در ادامه متن، تعدادی از ابزارهای تبدیل بین خط فارسی و لاتین معرفی شده و استاندارهای قابل استفاده برای اینکار نیز معرفی شده‌اند.

   در زبان فارسی هم ابزارهای مختلفی برای نویسه‌گردانی از لاتین به فارسی ارائه شده است که بیشتر کاربرد تبدیل خط پینگلیش به فارسی را دارد. بعنوان مثال می‌توان به برنامه‌های بهنویس، نویسه‌گردان گوگل و ترانویس اشاره کرد. چنین برنامه‌هائی برای تعدادی از کاربران فارسی‌زبان که عادت دارند به پینگلیش بنویسند خیلی مفید بوده است.
اما کمتر برنامه‌ای تا الان برای تبدیل خط فارسی به لاتین ارائه شده است. شاید یکی از دلایل ارائه نشدن چنین ابزاری، نبود بازار مناسب برای آن باشد. در حال حاضر و با وجود فارسی‌زبانهائی که قادر به خواندن متون فارسی به خط فارسی نیستند، بازار مناسب ایجاد شده است. اما مشکلات دیگری هم برای ارائه چنین برنامه‌هائی وجود دارد. با توجه به اینکه صداهادر خط فارسی نوشته نمی‌شوند، نمی‌توان بسادگی با جایگزینی حروف فارسی با لاتین تبدیل را انجام داد. ابهامات زیادی هست که نیاز به استفاده از الگوریتمهای پیچیده‌تری نسبت به مبدل لاتین به فارسی هست. ابهاماتی مانند کلمه -حسن- یا -در- که بسته به معنی آن در جمله، می‌تواند تلفظ‌های متفاوتی داشته باشد. 
در حال حاضر پروژه‌ای زیر نظر دبیرخانه شورای عالی اطلاع رسانی در این‌زمینه در حال انجام است که یکی از خروجی‌های آن نویسه‌گردانی فارسی به لاتین هست. در این پروژه که با نام ویراستیار ارائه شده، ادعا شده که برنامه بصورت رایگان و کد باز (هرچند در سایت ویراستیار خبری از ارائه کد برنامه نیست) خواهد بود.  در حال حاضر برنامه ویراستیار علاوه بر نسخه اجرائی قابل استفاده در برنامه آفیس ویندوز، بصورت آنلاین هم در آدرس ویراست لایو ارائه شده است.

   اما شاید اولین قدم برای تبدیل خط فارسی به لاتین، تعریف خط لاتین باشد بطوریکه بتواند با کمترین مشکل برای پردازش زبان طبیعی قابل استفاده باشد. در حال حاضر ۳ مدل مختلف برای تعریف خط لاتین فارسی تعریف شده که در زیر به آنها اشاره شده است:


از بین ۳ مدل ارائه شده، فقط پروژه الفبای دوم هست که می‌خواهد خط فارسی و خط لاتین را در کنار هم استفاده کند تا بتواند بخشی از مشکلات آموزش زبان فارسی را حل کند و دوتای اول قصد دارند جایگزین خط فارسی بشوند ( که بنظر من منطقی نیست ).

لینکهای مرتبط




هیچ نظری موجود نیست: