لاتین نویسی زبان فارسی یکی از پروژههائی است که میتواند مورد توجه محققان در زمینه پردازش زبان طبیعی قرار بگیرد. پروژههای مشابه با نام نویسهگردانی (transliteration) در زبانهای مختلف تعریف شده که بیشتر برای تبدیل متن (در یک زبان) از یک خط به خط لاتین بوده است. بعنوان مثال میتوان برای زبان ترکی آذربایجان متون را به سه خط عربی، سیریلیک و لاتین دید. در ادامه متن، تعدادی از ابزارهای تبدیل بین خط فارسی و لاتین معرفی شده و استاندارهای قابل استفاده برای اینکار نیز معرفی شدهاند.
در زبان فارسی هم ابزارهای مختلفی برای نویسهگردانی از لاتین به فارسی ارائه شده است که بیشتر کاربرد تبدیل خط پینگلیش به فارسی را دارد. بعنوان مثال میتوان به برنامههای بهنویس، نویسهگردان گوگل و ترانویس اشاره کرد. چنین برنامههائی برای تعدادی از کاربران فارسیزبان که عادت دارند به پینگلیش بنویسند خیلی مفید بوده است.
اما کمتر برنامهای تا الان برای تبدیل خط فارسی به لاتین ارائه شده است. شاید یکی از دلایل ارائه نشدن چنین ابزاری، نبود بازار مناسب برای آن باشد. در حال حاضر و با وجود فارسیزبانهائی که قادر به خواندن متون فارسی به خط فارسی نیستند، بازار مناسب ایجاد شده است. اما مشکلات دیگری هم برای ارائه چنین برنامههائی وجود دارد. با توجه به اینکه صداهادر خط فارسی نوشته نمیشوند، نمیتوان بسادگی با جایگزینی حروف فارسی با لاتین تبدیل را انجام داد. ابهامات زیادی هست که نیاز به استفاده از الگوریتمهای پیچیدهتری نسبت به مبدل لاتین به فارسی هست. ابهاماتی مانند کلمه -حسن- یا -در- که بسته به معنی آن در جمله، میتواند تلفظهای متفاوتی داشته باشد.
در حال حاضر پروژهای زیر نظر دبیرخانه شورای عالی اطلاع رسانی در اینزمینه در حال انجام است که یکی از خروجیهای آن نویسهگردانی فارسی به لاتین هست. در این پروژه که با نام ویراستیار ارائه شده، ادعا شده که برنامه بصورت رایگان و کد باز (هرچند در سایت ویراستیار خبری از ارائه کد برنامه نیست) خواهد بود. در حال حاضر برنامه ویراستیار علاوه بر نسخه اجرائی قابل استفاده در برنامه آفیس ویندوز، بصورت آنلاین هم در آدرس ویراست لایو ارائه شده است.
اما شاید اولین قدم برای تبدیل خط فارسی به لاتین، تعریف خط لاتین باشد بطوریکه بتواند با کمترین مشکل برای پردازش زبان طبیعی قابل استفاده باشد. در حال حاضر ۳ مدل مختلف برای تعریف خط لاتین فارسی تعریف شده که در زیر به آنها اشاره شده است:
از بین ۳ مدل ارائه شده، فقط پروژه الفبای دوم هست که میخواهد خط فارسی و خط لاتین را در کنار هم استفاده کند تا بتواند بخشی از مشکلات آموزش زبان فارسی را حل کند و دوتای اول قصد دارند جایگزین خط فارسی بشوند ( که بنظر من منطقی نیست ).
لینکهای مرتبط
لینکهای مرتبط
- دستورالعمل آوانگاری نام های جغرافیایی ایران
- ایسنا - ابلاغ شیوهنامه آوانگاری کلی نامهای جغرافیایی ایران
- الفبای آوانگاری بینالمللی
هیچ نظری موجود نیست:
ارسال یک نظر