‏نمایش پست‌ها با برچسب زبان فارسی. نمایش همه پست‌ها
‏نمایش پست‌ها با برچسب زبان فارسی. نمایش همه پست‌ها

سه‌شنبه، تیر ۳۱، ۱۳۹۳

لاتین نویسی زبان فارسی


   لاتین نویسی زبان فارسی یکی از پروژه‌هائی است که می‌تواند مورد توجه محققان در زمینه پردازش زبان طبیعی قرار بگیرد. پروژه‌های مشابه با نام نویسه‌گردانی (transliteration) در زبانهای مختلف تعریف شده که بیشتر برای تبدیل متن (در یک زبان) از یک خط به خط لاتین بوده است. بعنوان مثال می‌توان برای زبان ترکی آذربایجان متون را به سه خط عربی، سیریلیک و لاتین دید. در ادامه متن، تعدادی از ابزارهای تبدیل بین خط فارسی و لاتین معرفی شده و استاندارهای قابل استفاده برای اینکار نیز معرفی شده‌اند.

شنبه، تیر ۲۱، ۱۳۹۳

پاورچین پاورچین - سلانه سلانه - بع بع - صورت صورت

بسی رنج بردم بدین سال سی
عجم زنده کردم بدین پارسی

در ادامه مباحث مربوط به پردازش پیکره فارسی، به یکی دیگه از مواردی که در پیکره‌های خبری فارسی به‌وفور دیده‌ام می‌پردازیم. و خواهیم دید که چطور میشه با یک مدل ساده چنین مشکلی را در پیکره حل کرد.

چهارشنبه، تیر ۱۸، ۱۳۹۳

بررسی وضعیت نیم‌فاصله در پیکره همشهری آنلاین


در ادامه مطالب نوشته شده در زمینه نیم‌فاصله، این نوشته قصد دارد بخشی از اشتباهات موجود در یکی از پیکره‌های زبان فارسی را مطرح کند. اینروزها بجز از چند سایت خبری که از نرم‌افزارهای قدیمی برای ویراش اخبارشان استفاده می‌کنند، بیشتر سایتها از نیم‌فاصله تا حد امکان استفاده می‌کنند. اما کماکان در بعضی از موارد از فاصله بجای (به‌جای) نیم‌فاصله استفاده می‌کنند که می‌تواند باعث بروز مشکلاتی در پردازش محتوای آنها بشود.

در اینجا به چند مورد از بیشترین اشتباهات صورت گرفته در سایت روزنامه همشهری آنلاین اشاره می‌کنم. این لیست پس از بررسی پیکره همشهری آنلاین تهیه شده است. این پیکره در حدود ۱۱۲ میلیون کلمه (شامل۶۳۰ هزار واژه) دارد.

جمعه، تیر ۱۳، ۱۳۹۳

نگارش فارسی و نیم‌فاصله از دید فرهنگستان زبان و ادب فارسی


گاهی برای من مشخص نیست که آیا در مورد یک کلمه خاص باید از نیم‌فاصله استفاده کرد یا اینکه باید با فاصله نوشته بشه. در حالت سوم هم گاهی کلا هیچ نوع فاصله‌ای درکار نیست. مثلا جمله زیر را در نظر بگیرید:

همچنان به فیزیوتراپی و آب درمانی مشغول است.

نیم‌فاصله یا فاصله مجازی در زبان فارسی


فارسی شکر است

اینروزها یکی از کارهای من اینه که بر روی نرمال سازی پیکره‌های فارسی کار کنم. بزرگترین مشکلی که دیده‌ام در مورد استفاده از نیم‌فاصله یا فاصله مجازی بوده. نمی‌دانم چرا یک سایتهای خبری یک قانون مشخص در این‌مورد ندارن که مثلا اینکه یک سایت اصلا از نیم‌فاصله استفاده نکنه. وقتی قانون مشخصی نداریم، اینطوری میشه که در یک سایت تمام حالتهای مختلف استفاده و عدم استفاده نیم‌فاصله برای یک کلمه خاص وجود داره.

دوشنبه، خرداد ۰۸، ۱۳۹۱

اولین کنفرانس بین المللی پردازش زبان طبیعی فارسی

اینروزها با گسترش اینترنت بین فارسی زبانان در سراسر دنیا؛ استفاده از ابزارهای پردازش زبان فارسی اهمیت بیشتری پیدا کرده اند. بطوریکه بالاخره بعد از مدتها خبر برگزاری یک کنفرانس بین المللی در زمینه پردازش زبان فارسی به علاقه مندان این رشته نشان داد که این اهمیت در داخل ایران هم دیده شده است. امسال اولین کنفرانس بین المللی پردازش زبان فارسی در دانشگاه سمنان برگزار میشه. این کنفرانس در روزهای 15-16 شهریور 1391 برگزار خواهد شد. امیدوارم که اینکار ادامه پیدا کرده و در نهایت بعد از مدتها یک کنفرانس تخصصی پردازش زبان طبیعی برای زبان فارسی در ایران داشته باشیم. کنفرانسی که کمک خواهد کرد که محققان و دانشجویان و شرکتهای فعال در این زمینه با هم آشنا شده و بتوانند در آینده پروژه های بهتری را در این زمینه تعریف کنند.

در صورت برگزاری این کنفرانس در دوره های بعدی می توان امیدوار بود که تحقیقات دانشگاهی در زمینه پردازش زبان طبیعی در داخل ایران به تولید محصولات بهتری در این زمینه کمک کند.

مطالب مرتبط : 

چهارشنبه، اسفند ۱۲، ۱۳۸۸

Automatic Translation now in Chrome

بالاخره گوگل سرویس ترجمه اتوماتیک ( ترجمه ماشینی ) را در مرورگر اینترنت خودش یعنی کروم اضافه کرد. از این به بعد برای دیدن صفحاتی که به زبان دیگری هستند مشکلی ندارید. کروم بصورت خودکار متن هر سایتی را به زبان مورد نظر شما ترجمه میکند. اگر قبلا برای انجام اینکار نیاز به نصب پلاگین در فایر فاکس یا اینترنت اکسپلورر داشتید، یا اینکه آدرس سایت را در سایت مترجم گوگل کپی می کردید، الان دیگر نیازی نیست.
فقط کافیه که آخرین نگارش مرورگر کروم را نصب کنید و از این امکان جدید استفاده کنید.

در این روش ظاهرا مشکلی نباید باشه و بنظر میاد که کاملا مشکل چند زبانه بودن محیط اینترنت حل شده است. اما نه اینطور نیست. مشکل اینه که سیستمهای ترجمه ماشینی عموما ترجمه دقیق به شما نمی دهد و شما فقط می توانید ( با تکنولوژی امروز ) یک ایده بگیرید که سایت در چه زمینه ای هست . 
در ضمن شاید شما در حین آموزش یک زبان جدید باشید و دوست داشته باشید که بدانید چه جمله ای در مثلا زبان فرانسه به جمله مادل فارسی ترجمه شده، در اینصورت می توانید از ابزارهای ترجمه آنلاین استفاده کنید که به شما نشان می دهد که چه چیزی به چه چیزی ترجمه شده است. سیستم مترجم گوگل ( در سایت اصلی آن ) در حال حاضر این امکان را برای شما فراهم میکند. 

اگر می خواهید این سیستم را در هر صفحه اینترت داشته باشید هم می توانید تولبار مترجم را از آدرس زیر دانلود کنید و از سیستم ترجمه فارسی به انگلیسی، فرانسه و آلمانی و برعکس آن استفاده کنید.

دوشنبه، بهمن ۲۹، ۱۳۸۶

زبان فارسی

شاید اولین سوالی که بتوان مطرح کرد اینست که چرا تابحال بر روی زبان فارسی کار زیادی انجام نشده است؟
اول از همه از تجربه قبلی خودم در زمینه ترجمه ماشینی شروع کنم.
چرا در زمینه ترجمه ماشینی فارسی تعداد شرکتهای فعال یا دانشگاههای فعال کم است؟
آیا متقاضی این محصول کم است؟ تا آنجا که می دانم تقاضای موجود کم نیست. بخصوص اینکه حجم زیادی از مطالب منتظر شده در اینترنت به زانی غیر از فارسی است و بسیاری از ایرانیان آشنائی کافی به زبانهای دیگرندارند.

از مدتها پیش پرژه ای مانند ترجمه ماشینی بعنوان پروژه ملی در سطوح بالای مملکت مطرح شده و تصویب شده است. این پروژه مصوب مجمع تشخیص مصلجت + شورای عالی انقلاب فرهنگی است.

دوشنبه، آذر ۲۷، ۱۳۸۵

فرهنگستان زبان و ادب فارسی

فرهنگستان متولی واژه گزینی در زبان فارسی است. تا مدتی قبل روال مشخصی برای پیشنهاد واژه وجود نداشت. اما جدیدا این امگان وجود دارد که هر فردی بتواند برای یک واژه خارجی، معادل فارسی آنرا پیشنهاد نماید.
این امکان می تواند به غنی سازی واژه های انتخابی فرهنگستان کمک کند در صورتیکه عموم کاربران اینترنت در آن شرکت کنند.

پیشنهاد می کنم این آدرس را به تمامی علاقه مندان به زبان فارسی معرفی نمائید

Persian Academy

یکشنبه، آبان ۰۷، ۱۳۸۵

UniversalPersian -UniPers

یونی پرس
یکی از مشکلاتی که در زبان فارسی و ابزارهای پردازش آن وجود دارد، خط زبان فارسی است. بسیاری از واژه ها آنگونه که نوشته می شوند خوانده نمی شوند. گروهی برای حل این مشکل استفاده از الفبای لاتین را پیشنهاد می کنند. بعنوان مثال یونی پارس به ما کمک می کند که بتوانیم خط فارسی را کمی تصحیح کنیم. در زیر مطالبی از این سایت نقل شده است. متاسفانه انشای نوشته شده کمی متفاوت از فارسی است که امروزه در ایران مورد استفاده قرار می گیرد و بایستی برای فهم کامل مطالب سایت یا به نسخه انگلیسی آن مراجعه نمائیم یا اینکه کلمه به کلمه آنرا به فارسی عامیانه ترجمه نمائیم.
در صورتیکه متولیان این ایده می خواهند چنین خطی را در محیط رایانه گسترش دهند ، می بایست ابزارهای تبدیل متون فارسی معمولی به یونی پارس را نیز تهیه کرده و بعنوان ابزار ارائه نمایند . چرا که یکی از مشکلات اصلی در استفاده از این روش ، نحوه تبدیل متون فارسی معمولی به این حروف است. بنظر کار ساده ای نیست.
به نقل از سایت یونی پارس - بعنوان یک خط فارسی جدید
بـنـشـتـه ى الـفـبـايــى ، خــوانــدن و نــوشـتـن را آسـان و سـرراسـت كـرده ، بـه خــوانـنــده ايــن اجـازه را مـيــدهـد كـه امـلـاى واژه هـا را بـر پـايـه ى فـراگــويـشـشـان بـگــذارد . الـفـبـاى پـارســى جـهـانــى و روشـهـايـش بـر چــونـيـن بـنـشـتـه يــى بـنـيـاد نـهـاده شـده انـد . آمـاجـهـاى دبـيــره ى پـارســى جـهـانــى در زيــر نـمــودارنــد:
فـراهـم كـردن دبـيــره يــى واجــى ، روشـن ، سـاده ، و هـمـسـاز بـر پـايـه ى لـاتـيـن ، بـراى زبـان پـارســى.
خــوانــدن و نــوشـتـن زبـان پـارســى را در دسـتــرس بـيـشـتـر كـاربـران ، از هـر كـشــور و بـا هـر پـايـه ى آمــوزشــى ، بـگــذارد.