تعدادی بورس دکترا و یک فرصت پست داک در زمینه ترجمه ماشینی آماری در دانشگاه آمستردام هلند برای سال ۲۰۱۵ ارائه شده که میتوانید اطلاعات بیشتر را از طریق گروه دیلماج گوگل ببینید.
چهارشنبه، مرداد ۰۸، ۱۳۹۳
دکترا و پست دکترا - ترجمه ماشینی - آمستردام - هلند
تعدادی بورس دکترا و یک فرصت پست داک در زمینه ترجمه ماشینی آماری در دانشگاه آمستردام هلند برای سال ۲۰۱۵ ارائه شده که میتوانید اطلاعات بیشتر را از طریق گروه دیلماج گوگل ببینید.
شنبه، مرداد ۰۴، ۱۳۹۳
مترجم ماشینی - شورای عالی اطلاع رسانی
ترجمه ماشینی - شورای عالی اطلاع رسانی را میتوانید از لینک زیر تست کنید. تا جائیکه تست کردم نتیجه خوبی نشون نمیده. ظاهرا از یکی از ابزارهای اوپن سورس استفاده شده و با کمک پیکره موازی که احتمالا با کمک مترجم گوگل تهیه شده اونو آموزش دادهاند.
در یک پست جدا در مورد اینکه چطور میشه اینکار را انجام داد مینویسم. اینکه کلا اینکار کمتر از یک هفته طول میکشه برای یک نفر که بتونه چند تا برنامه نصب کنه.
برای شروع میتونید ببینید که پروژه مترجم ماشنی اتحادیه اروپا تمام برنامهها و پیکرههای موازی را بصورت تقریبا رایگان در اختیار همه گذاشته و از طریق لینک زیر برای همه قابل استفاده است.
سهشنبه، تیر ۳۱، ۱۳۹۳
لاتین نویسی زبان فارسی
لاتین نویسی زبان فارسی یکی از پروژههائی است که میتواند مورد توجه محققان در زمینه پردازش زبان طبیعی قرار بگیرد. پروژههای مشابه با نام نویسهگردانی (transliteration) در زبانهای مختلف تعریف شده که بیشتر برای تبدیل متن (در یک زبان) از یک خط به خط لاتین بوده است. بعنوان مثال میتوان برای زبان ترکی آذربایجان متون را به سه خط عربی، سیریلیک و لاتین دید. در ادامه متن، تعدادی از ابزارهای تبدیل بین خط فارسی و لاتین معرفی شده و استاندارهای قابل استفاده برای اینکار نیز معرفی شدهاند.
چهارشنبه، تیر ۲۵، ۱۳۹۳
پیکرههای فارسی
تعریف
پیکره متنی (corpus) مجموعهای بزرگ و بدون ساختار از متون تولید شده توسط انسان است. از پیکره برای آموزش یا ارزیابی مدلهای پردازش زبان طبیعی استفاده میشود. پیکره میتواند یک زبانه یا چند زبانه باشد. در صورتیکه در پیکره چند زبانه ارتباطی بین جملات زبانهای مختلف تعریف شده باشد، به آن پیکره موازی میگویند که کاربر بیشتر آن در ترجمه ماشینی است.
قبلا در مورد پیکرههای موجود در زبانهای غیر از فارسی نوشتهبودم (حافظه ترجمه، همشهری آنلاین) . در این نوشته قصد دارم دو تا از مهمترین پیکرههای موجود در زبان فارسی را معرفی کنم.
شنبه، تیر ۲۱، ۱۳۹۳
پنجشنبه، تیر ۱۹، ۱۳۹۳
یک منبع عالی برای حافظه ترجمه
یکی از منابع مهم برای تولید یک سیستم ترجمه ماشینی، داشتن پیکرههای موازی است. به این معنی که در پیکره موازی جملات ترجمه شده بین دو زبان را داشته باشیم. با داشتن این پیکره . استفاده از ابزارهای آماده مانند موسی (moses) میتوان یک برنامه ترجمه ماشینی را به سرعت آماده کرد.
در ادامه پروژه ترجمه ماشینی اتحادیه اروپا، جندی پیش مسئولان پروژه یکی از بزرگترین پیکرههای موازی را برای ۲۲ زیان و ۲۳۱ ترکیب زبانی منتشر کردند. این پیکرهها در درجه اول توسط مترجمان حرفهای برای بالا بردن کیفیت و سرعت ترجمه استفاده شده است. اما در حال حاضر امکان استفاده از آنها برای آموزش یک سیستم ترجمه ماشینی برای همه افراد وجود دارد.
چهارشنبه، تیر ۱۸، ۱۳۹۳
بررسی وضعیت نیمفاصله در پیکره همشهری آنلاین
در ادامه مطالب نوشته شده در زمینه نیمفاصله، این نوشته قصد دارد بخشی از اشتباهات موجود در یکی از پیکرههای زبان فارسی را مطرح کند. اینروزها بجز از چند سایت خبری که از نرمافزارهای قدیمی برای ویراش اخبارشان استفاده میکنند، بیشتر سایتها از نیمفاصله تا حد امکان استفاده میکنند. اما کماکان در بعضی از موارد از فاصله بجای (بهجای) نیمفاصله استفاده میکنند که میتواند باعث بروز مشکلاتی در پردازش محتوای آنها بشود.
در اینجا به چند مورد از بیشترین اشتباهات صورت گرفته در سایت روزنامه همشهری آنلاین اشاره میکنم. این لیست پس از بررسی پیکره همشهری آنلاین تهیه شده است. این پیکره در حدود ۱۱۲ میلیون کلمه (شامل۶۳۰ هزار واژه) دارد.
جمعه، تیر ۱۳، ۱۳۹۳
نیمفاصله یا فاصله مجازی در زبان فارسی
اینروزها یکی از کارهای من اینه که بر روی نرمال سازی پیکرههای فارسی کار کنم. بزرگترین مشکلی که دیدهام در مورد استفاده از نیمفاصله یا فاصله مجازی بوده. نمیدانم چرا یک سایتهای خبری یک قانون مشخص در اینمورد ندارن که مثلا اینکه یک سایت اصلا از نیمفاصله استفاده نکنه. وقتی قانون مشخصی نداریم، اینطوری میشه که در یک سایت تمام حالتهای مختلف استفاده و عدم استفاده نیمفاصله برای یک کلمه خاص وجود داره.
اشتراک در:
پستها (Atom)