لاتین نویسی زبان فارسی یکی از پروژههائی است که میتواند مورد توجه محققان در زمینه پردازش زبان طبیعی قرار بگیرد. پروژههای مشابه با نام نویسهگردانی (transliteration) در زبانهای مختلف تعریف شده که بیشتر برای تبدیل متن (در یک زبان) از یک خط به خط لاتین بوده است. بعنوان مثال میتوان برای زبان ترکی آذربایجان متون را به سه خط عربی، سیریلیک و لاتین دید. در ادامه متن، تعدادی از ابزارهای تبدیل بین خط فارسی و لاتین معرفی شده و استاندارهای قابل استفاده برای اینکار نیز معرفی شدهاند.
نمایش پستها با برچسب زبان فارسی. نمایش همه پستها
نمایش پستها با برچسب زبان فارسی. نمایش همه پستها
سهشنبه، تیر ۳۱، ۱۳۹۳
شنبه، تیر ۲۱، ۱۳۹۳
چهارشنبه، تیر ۱۸، ۱۳۹۳
بررسی وضعیت نیمفاصله در پیکره همشهری آنلاین
در ادامه مطالب نوشته شده در زمینه نیمفاصله، این نوشته قصد دارد بخشی از اشتباهات موجود در یکی از پیکرههای زبان فارسی را مطرح کند. اینروزها بجز از چند سایت خبری که از نرمافزارهای قدیمی برای ویراش اخبارشان استفاده میکنند، بیشتر سایتها از نیمفاصله تا حد امکان استفاده میکنند. اما کماکان در بعضی از موارد از فاصله بجای (بهجای) نیمفاصله استفاده میکنند که میتواند باعث بروز مشکلاتی در پردازش محتوای آنها بشود.
در اینجا به چند مورد از بیشترین اشتباهات صورت گرفته در سایت روزنامه همشهری آنلاین اشاره میکنم. این لیست پس از بررسی پیکره همشهری آنلاین تهیه شده است. این پیکره در حدود ۱۱۲ میلیون کلمه (شامل۶۳۰ هزار واژه) دارد.
جمعه، تیر ۱۳، ۱۳۹۳
نیمفاصله یا فاصله مجازی در زبان فارسی
اینروزها یکی از کارهای من اینه که بر روی نرمال سازی پیکرههای فارسی کار کنم. بزرگترین مشکلی که دیدهام در مورد استفاده از نیمفاصله یا فاصله مجازی بوده. نمیدانم چرا یک سایتهای خبری یک قانون مشخص در اینمورد ندارن که مثلا اینکه یک سایت اصلا از نیمفاصله استفاده نکنه. وقتی قانون مشخصی نداریم، اینطوری میشه که در یک سایت تمام حالتهای مختلف استفاده و عدم استفاده نیمفاصله برای یک کلمه خاص وجود داره.
دوشنبه، خرداد ۰۸، ۱۳۹۱
اولین کنفرانس بین المللی پردازش زبان طبیعی فارسی
اینروزها با گسترش اینترنت بین فارسی زبانان در سراسر دنیا؛ استفاده از ابزارهای پردازش زبان فارسی اهمیت بیشتری پیدا کرده اند. بطوریکه بالاخره بعد از مدتها خبر برگزاری یک کنفرانس بین المللی در زمینه پردازش زبان فارسی به علاقه مندان این رشته نشان داد که این اهمیت در داخل ایران هم دیده شده است. امسال اولین کنفرانس بین المللی پردازش زبان فارسی در دانشگاه سمنان برگزار میشه. این کنفرانس در روزهای 15-16 شهریور 1391 برگزار خواهد شد. امیدوارم که اینکار ادامه پیدا کرده و در نهایت بعد از مدتها یک کنفرانس تخصصی پردازش زبان طبیعی برای زبان فارسی در ایران داشته باشیم. کنفرانسی که کمک خواهد کرد که محققان و دانشجویان و شرکتهای فعال در این زمینه با هم آشنا شده و بتوانند در آینده پروژه های بهتری را در این زمینه تعریف کنند.
در صورت برگزاری این کنفرانس در دوره های بعدی می توان امیدوار بود که تحقیقات دانشگاهی در زمینه پردازش زبان طبیعی در داخل ایران به تولید محصولات بهتری در این زمینه کمک کند.
مطالب مرتبط :
چهارشنبه، اسفند ۱۲، ۱۳۸۸
Automatic Translation now in Chrome
بالاخره گوگل سرویس ترجمه اتوماتیک ( ترجمه ماشینی ) را در مرورگر اینترنت خودش یعنی کروم اضافه کرد. از این به بعد برای دیدن صفحاتی که به زبان دیگری هستند مشکلی ندارید. کروم بصورت خودکار متن هر سایتی را به زبان مورد نظر شما ترجمه میکند. اگر قبلا برای انجام اینکار نیاز به نصب پلاگین در فایر فاکس یا اینترنت اکسپلورر داشتید، یا اینکه آدرس سایت را در سایت مترجم گوگل کپی می کردید، الان دیگر نیازی نیست.
فقط کافیه که آخرین نگارش مرورگر کروم را نصب کنید و از این امکان جدید استفاده کنید.
در این روش ظاهرا مشکلی نباید باشه و بنظر میاد که کاملا مشکل چند زبانه بودن محیط اینترنت حل شده است. اما نه اینطور نیست. مشکل اینه که سیستمهای ترجمه ماشینی عموما ترجمه دقیق به شما نمی دهد و شما فقط می توانید ( با تکنولوژی امروز ) یک ایده بگیرید که سایت در چه زمینه ای هست .
در ضمن شاید شما در حین آموزش یک زبان جدید باشید و دوست داشته باشید که بدانید چه جمله ای در مثلا زبان فرانسه به جمله مادل فارسی ترجمه شده، در اینصورت می توانید از ابزارهای ترجمه آنلاین استفاده کنید که به شما نشان می دهد که چه چیزی به چه چیزی ترجمه شده است. سیستم مترجم گوگل ( در سایت اصلی آن ) در حال حاضر این امکان را برای شما فراهم میکند.
اگر می خواهید این سیستم را در هر صفحه اینترت داشته باشید هم می توانید تولبار مترجم را از آدرس زیر دانلود کنید و از سیستم ترجمه فارسی به انگلیسی، فرانسه و آلمانی و برعکس آن استفاده کنید.
برچسبها
ابزار ترجمه,
ترجمه ماشینی,
ترجمه مجانی,
زبان فارسی,
سرویس رایگان,
گوگل,
ماشین ترجمه,
مترجم فارسی,
مترجم گوگل
دوشنبه، بهمن ۲۹، ۱۳۸۶
زبان فارسی
شاید اولین سوالی که بتوان مطرح کرد اینست که چرا تابحال بر روی زبان فارسی کار زیادی انجام نشده است؟
اول از همه از تجربه قبلی خودم در زمینه ترجمه ماشینی شروع کنم.
چرا در زمینه ترجمه ماشینی فارسی تعداد شرکتهای فعال یا دانشگاههای فعال کم است؟
آیا متقاضی این محصول کم است؟ تا آنجا که می دانم تقاضای موجود کم نیست. بخصوص اینکه حجم زیادی از مطالب منتظر شده در اینترنت به زانی غیر از فارسی است و بسیاری از ایرانیان آشنائی کافی به زبانهای دیگرندارند.
از مدتها پیش پرژه ای مانند ترجمه ماشینی بعنوان پروژه ملی در سطوح بالای مملکت مطرح شده و تصویب شده است. این پروژه مصوب مجمع تشخیص مصلجت + شورای عالی انقلاب فرهنگی است.
اول از همه از تجربه قبلی خودم در زمینه ترجمه ماشینی شروع کنم.
چرا در زمینه ترجمه ماشینی فارسی تعداد شرکتهای فعال یا دانشگاههای فعال کم است؟
آیا متقاضی این محصول کم است؟ تا آنجا که می دانم تقاضای موجود کم نیست. بخصوص اینکه حجم زیادی از مطالب منتظر شده در اینترنت به زانی غیر از فارسی است و بسیاری از ایرانیان آشنائی کافی به زبانهای دیگرندارند.
از مدتها پیش پرژه ای مانند ترجمه ماشینی بعنوان پروژه ملی در سطوح بالای مملکت مطرح شده و تصویب شده است. این پروژه مصوب مجمع تشخیص مصلجت + شورای عالی انقلاب فرهنگی است.
دوشنبه، آذر ۲۷، ۱۳۸۵
فرهنگستان زبان و ادب فارسی
فرهنگستان متولی واژه گزینی در زبان فارسی است. تا مدتی قبل روال مشخصی برای پیشنهاد واژه وجود نداشت. اما جدیدا این امگان وجود دارد که هر فردی بتواند برای یک واژه خارجی، معادل فارسی آنرا پیشنهاد نماید.
این امکان می تواند به غنی سازی واژه های انتخابی فرهنگستان کمک کند در صورتیکه عموم کاربران اینترنت در آن شرکت کنند.
پیشنهاد می کنم این آدرس را به تمامی علاقه مندان به زبان فارسی معرفی نمائید
Persian Academy
این امکان می تواند به غنی سازی واژه های انتخابی فرهنگستان کمک کند در صورتیکه عموم کاربران اینترنت در آن شرکت کنند.
پیشنهاد می کنم این آدرس را به تمامی علاقه مندان به زبان فارسی معرفی نمائید
Persian Academy
یکشنبه، آبان ۰۷، ۱۳۸۵
UniversalPersian -UniPers
یونی پرس
یکی از مشکلاتی که در زبان فارسی و ابزارهای پردازش آن وجود دارد، خط زبان فارسی است. بسیاری از واژه ها آنگونه که نوشته می شوند خوانده نمی شوند. گروهی برای حل این مشکل استفاده از الفبای لاتین را پیشنهاد می کنند. بعنوان مثال یونی پارس به ما کمک می کند که بتوانیم خط فارسی را کمی تصحیح کنیم. در زیر مطالبی از این سایت نقل شده است. متاسفانه انشای نوشته شده کمی متفاوت از فارسی است که امروزه در ایران مورد استفاده قرار می گیرد و بایستی برای فهم کامل مطالب سایت یا به نسخه انگلیسی آن مراجعه نمائیم یا اینکه کلمه به کلمه آنرا به فارسی عامیانه ترجمه نمائیم.
در صورتیکه متولیان این ایده می خواهند چنین خطی را در محیط رایانه گسترش دهند ، می بایست ابزارهای تبدیل متون فارسی معمولی به یونی پارس را نیز تهیه کرده و بعنوان ابزار ارائه نمایند . چرا که یکی از مشکلات اصلی در استفاده از این روش ، نحوه تبدیل متون فارسی معمولی به این حروف است. بنظر کار ساده ای نیست.
به نقل از سایت یونی پارس - بعنوان یک خط فارسی جدید
بـنـشـتـه ى الـفـبـايــى ، خــوانــدن و نــوشـتـن را آسـان و سـرراسـت كـرده ، بـه خــوانـنــده ايــن اجـازه را مـيــدهـد كـه امـلـاى واژه هـا را بـر پـايـه ى فـراگــويـشـشـان بـگــذارد . الـفـبـاى پـارســى جـهـانــى و روشـهـايـش بـر چــونـيـن بـنـشـتـه يــى بـنـيـاد نـهـاده شـده انـد . آمـاجـهـاى دبـيــره ى پـارســى جـهـانــى در زيــر نـمــودارنــد:
فـراهـم كـردن دبـيــره يــى واجــى ، روشـن ، سـاده ، و هـمـسـاز بـر پـايـه ى لـاتـيـن ، بـراى زبـان پـارســى.
خــوانــدن و نــوشـتـن زبـان پـارســى را در دسـتــرس بـيـشـتـر كـاربـران ، از هـر كـشــور و بـا هـر پـايـه ى آمــوزشــى ، بـگــذارد.
فـراهـم كـردن دبـيــره يــى واجــى ، روشـن ، سـاده ، و هـمـسـاز بـر پـايـه ى لـاتـيـن ، بـراى زبـان پـارســى.
خــوانــدن و نــوشـتـن زبـان پـارســى را در دسـتــرس بـيـشـتـر كـاربـران ، از هـر كـشــور و بـا هـر پـايـه ى آمــوزشــى ، بـگــذارد.
اشتراک در:
پستها (Atom)