tag:blogger.com,1999:blog-61127372024-03-13T08:45:15.672+01:00 پردازش زبانطبیعیمعرفی آخرین روشهای مطرح در حوزه پردازش زبان طبیعی
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.comBlogger120125tag:blogger.com,1999:blog-6112737.post-32074145436351746592016-08-20T22:51:00.001+02:002016-08-20T22:51:45.028+02:00<div dir="ltr" style="text-align: left;" trbidi="on">
<blockquote class="twitter-tweet" data-lang="en">
<div dir="ltr" lang="en">
Word is defined as a sum of its ngram embeddings in <a href="https://twitter.com/hashtag/fastText?src=hash">#fastText</a> <a href="https://t.co/8K4Oy9H056">https://t.co/8K4Oy9H056</a></div>
— Reza (@arezae) <a href="https://twitter.com/arezae/status/767101506227150849">August 20, 2016</a></blockquote>
<script async="" charset="utf-8" src="//platform.twitter.com/widgets.js"></script>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-87961720866875918992016-04-13T15:30:00.003+02:002016-04-13T15:41:37.936+02:00آیا پایگاه اسناد و مدارک علمی میتونه موفق باشه؟<div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjQQ7bn7LZkqWJ4UPubJPNDfYvT3bljiYWAJbYtBpI252JMX1zHr4CNWAYs_PNXuDESK-kAcFC5kPPfbCcuQEH33dmhqIhH3ieBemmyH38hAWe0HH6-PWU0hGobInxCsqFUmgAC/s1600/scienceIndex.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" height="152" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjQQ7bn7LZkqWJ4UPubJPNDfYvT3bljiYWAJbYtBpI252JMX1zHr4CNWAYs_PNXuDESK-kAcFC5kPPfbCcuQEH33dmhqIhH3ieBemmyH38hAWe0HH6-PWU0hGobInxCsqFUmgAC/s400/scienceIndex.png" width="400" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: justify;">
با <a href="http://www.scienceindex.ir/" target="_blank">پایگاه اسناد و مدارک علمی</a> امروز از طریق ایمیل آشنا شدم. در صفحه اول سایت (عکس بالا) نوشته شده بود که ۶۶ درصد محتوای سایت رایگان هست. با توجه به زمینه کاری در مورد ترجمه ماشینی در سایت پایگاه اسناد و مدارک علمی جستجو کردم. حداقل در مورد جستجوی ترجمه ماشینی و در بین ۱۰ نتیجه اول ۸۰ درصد اون پولی بود و تنها ۲۰ درصد رایگان بود. </div>
<div dir="rtl" style="text-align: justify;">
<br /></div>
<div dir="rtl" style="text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiwNJDkY6FPtNhfcjvXELUOG5lukOKPdTQor6UN7BuSjQHY84K8WC03_sv0XozKvcmJ3nbjs0lINIqTfzHKZhrmIdsFdTMHImgHJPzaXXUTVBbGUmiOxateuEnh5i2kRUJoBBiR/s1600/scienceIndex-MT.png" imageanchor="1"><img border="0" height="380" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiwNJDkY6FPtNhfcjvXELUOG5lukOKPdTQor6UN7BuSjQHY84K8WC03_sv0XozKvcmJ3nbjs0lINIqTfzHKZhrmIdsFdTMHImgHJPzaXXUTVBbGUmiOxateuEnh5i2kRUJoBBiR/s400/scienceIndex-MT.png" width="400" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
تصور میکنم که اطلاعات آماری ارائه شده در سایت بصورت کلی درست هست اما احتمالا نسبت ۸۰/۲۰ در مورد بیشتر مطالب مهم بیشتر صدق میکنه.</div>
<div dir="rtl" style="text-align: center;">
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-70656442744370514562014-12-18T09:40:00.002+01:002015-10-06T10:04:23.767+02:00TF-IDF<div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgs9UppvwJHsWHeF833fpMSAgU4kUQGOXQkPJeyrjqQNOMbhHhc7UthClR1zTxUkDAYkVn6eLG7t0QLPQlouGQQdsB-QtV1ROgnyh7PTLBPiWbi28ewxEDajYvL8IddyYVT75Oc/s1600/tf-idf.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgs9UppvwJHsWHeF833fpMSAgU4kUQGOXQkPJeyrjqQNOMbhHhc7UthClR1zTxUkDAYkVn6eLG7t0QLPQlouGQQdsB-QtV1ROgnyh7PTLBPiWbi28ewxEDajYvL8IddyYVT75Oc/s1600/tf-idf.png" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
امروز به مطلبی در مورد پیدا کردن کلمههای با اهمیت در یک پیکره برخورد کردم که خیلی ساده دلیل استفاده از TF-IDF را توضیح داده بود. اینکه TF میتونه کمک کنه که واژههای مهم در سطح یک document را پیدا کنیم و IDF هم به ما نشون میده که از بین همه این کلمههای پرتکرار کدامیک مهمتر هستند. </div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<a href="http://trimc-nlp.blogspot.fr/2013/04/tfidf-with-google-n-grams-and-pos-tags.html" target="_blank">در مورد تیاف-آیدیاف (TF-IDF)</a> و پیکره گوگل<br />
<br />
<a href="https://www.youtube.com/watch?v=a50Hv_N-yHA" target="_blank">ویدیو آموزشی tf-idf - دانشگاه استنفورد</a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-20470282342703660772014-12-12T15:23:00.002+01:002014-12-12T15:24:53.306+01:00زبان عربی قدیم - بدون نقطه و اِعراب<div dir="ltr" style="text-align: left;" trbidi="on">
<div dir="rtl" style="text-align: right;">
امروز در <a href="http://en.wikipedia.org/wiki/Arabic_alphabet" target="_blank">ویکیپدیا</a> به مطلبی در مورد زبان عربی برخورد کردم که برای من عجیب بود. مطلب در مورد نگارشهای مختلف زبان عربی بود. ظاهرا در زمانیها قدیم در زبان عربی نه نقطهای وجود داشته و نه اعرابی. نمونه نوشته شده زیر در زمانهای مختلف را میتوانید در عکس زیر ببینید:</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td style="text-align: center;"><a href="http://upload.wikimedia.org/wikipedia/commons/thumb/7/7f/Arabic_script_evolution.svg/375px-Arabic_script_evolution.svg.png" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" src="http://upload.wikimedia.org/wikipedia/commons/thumb/7/7f/Arabic_script_evolution.svg/375px-Arabic_script_evolution.svg.png" height="320" width="285" /></a></td></tr>
<tr><td class="tr-caption" style="text-align: center;">نگارشهای مختلف بسمالله ارحمن الرحیم </td></tr>
</tbody></table>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
اولین خط مربوط به خط عربی کوفی است که در قرن ۹ استفاده میشده است. حذف اعراب از زبان عربی به تنهائی پردازش متن را مشکل میکند برای اینکه مدل کامگیوتری ما باید بتواند در جمله را تجزیه و تحلیل کرده و بر اساس نقش هر کلمه اعراب آنرا حدس بزند. حال اگر نقطه را هم حذف کنیم، پیچیدگی زبان عربی بیشتر خواهد شد.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div class="separator" style="clear: both; text-align: center;">
</div>
<div class="separator" style="clear: both; text-align: center;">
<a href="http://upload.wikimedia.org/wikipedia/commons/thumb/2/21/Basmala_kufi.svg/1280px-Basmala_kufi.svg.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="http://upload.wikimedia.org/wikipedia/commons/thumb/2/21/Basmala_kufi.svg/1280px-Basmala_kufi.svg.png" height="118" width="400" /></a></div>
<div dir="rtl" style="text-align: right;">
مثلا دیگه فرقی بین ب و ن در زبان عربی نخواهد بود. آیا بنظر شما با توجه به اینکه زبان فارسی از سیستم مشابه زبان عربی برای نوشتن استفاده میکند، چنین تغییری در زبان فارسی هم اتفاق افتاده است؟</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<b>لینکهای مرتبط</b></div>
<div dir="rtl" style="text-align: right;">
</div>
<ul dir="rtl" style="text-align: right;">
<li><a href="http://en.wikipedia.org/wiki/Arabic_alphabet" target="_blank">الفبای عربی</a></li>
<li><a href="http://commons.wikimedia.org/wiki/File:Arabic_script_evolution.svg" target="_blank">تغییرات دستخط عربی</a></li>
</ul>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-57960513566934710432014-09-03T09:48:00.000+02:002014-09-10T15:31:26.140+02:00مبدل متن به دستخط<div dir="ltr" style="text-align: left;" trbidi="on">
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEglmCk4x8sq8W8-XyokJWGlHBOCpBJvjResdbXhb4Ifi9DzJkOZywoXgtkYX1rAx3zo5NdNMmsqHsbdV5iIDwDExr8iGxmJMfx_QcU5hyphenhyphenYVbXWW-LQWsuCzGjW1jtHZNCM_GH89/s1600/82772_365.jpg" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEglmCk4x8sq8W8-XyokJWGlHBOCpBJvjResdbXhb4Ifi9DzJkOZywoXgtkYX1rAx3zo5NdNMmsqHsbdV5iIDwDExr8iGxmJMfx_QcU5hyphenhyphenYVbXWW-LQWsuCzGjW1jtHZNCM_GH89/s1600/82772_365.jpg" height="212" width="320" /></a></td></tr>
<tr><td class="tr-caption" style="text-align: center;">من آقای خوشخطی هستم</td></tr>
</tbody></table>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<div style="text-align: justify;">
همیشه صحبت از استفاده از مدلهای یادگیری ماشین برای تشخیص دستخط بوده، اما اینبار گروهی از محققان دانشگاه تورنتو مدلی ارائه کردهاند که میتونه متن نوشته شده را به دستخط شما تبدیل کنه. تصور کنید که میخواهید متنی با دستخط خودتان داشته باشید اما با توجه به اینکه اینروزها نوشتن روی کاغذ کار سادهای نیست، از انجام اینکار صرفنظر میکنید. اما اگر این برنامه را داشته باشید میتوانید متن را تایپ کرده و در نهایت آنرا با دستخط خودتان داشته باشید.</div>
</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiySDp-cBCEoC4ljTdCfXrwGLCsxXf0vTA5jhKO7cHFSyEPf9St-pnsRh-WhmFz8f718TQo8HgqG5-rj_MiPCTllsj5U8HmOklpZCUoC7A3ynMtwcKd3LUmS0spXFm7lydfEd-V/s1600/hw.jpg" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiySDp-cBCEoC4ljTdCfXrwGLCsxXf0vTA5jhKO7cHFSyEPf9St-pnsRh-WhmFz8f718TQo8HgqG5-rj_MiPCTllsj5U8HmOklpZCUoC7A3ynMtwcKd3LUmS0spXFm7lydfEd-V/s1600/hw.jpg" height="31" width="400" /></a></td></tr>
<tr><td class="tr-caption" style="text-align: center;">نمونه متن نوشته شده توسط این برنامه</td></tr>
</tbody></table>
<div dir="rtl" style="text-align: right;">
<div style="text-align: justify;">
این برنامه را میتوانید از طریق لینک زیر تست کنید. البته در حال حاضر فقط برای دستخطهای موجود به زبان انگلیسی در سیستم اینکار را انجام میده.</div>
</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<a href="http://www.cs.toronto.edu/~graves/handwriting.html">http://www.cs.toronto.edu/~graves/handwriting.html</a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<div style="text-align: justify;">
تصور کنید که بتوانید متن خودتان را به دستخط فردی که دوست دارید بنویسید. مثلا متن نامه شما با دستخط شکسپیر.<br />
<br />
<div style="text-align: center;">
<br /></div>
<div style="text-align: center;">
<br /></div>
<div style="text-align: center;">
<span style="color: blue;"><b>چه کاربردهای دیگری برای این تکنولوژی میتوانید تصور کنید؟</b></span></div>
</div>
</div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-28919626792944014142014-08-06T09:34:00.001+02:002014-08-11T00:18:38.421+02:00یک برنامه - تشخیص دهنده زبان - Language identification<div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
</div>
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiyeKktaefl2-I0uLb_cEeHsm5VujQRX_g6S3QuA0w8tYzKSXoC5pSEeWksaiFaJqvd3BaMSanzm9LNrFHaaoebQJzU0mIx1e1IYa_NuqkdFOB0EIYpxz7KVPR7TwWwjdhzEEOK/s1600/MFL_1.gif" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiyeKktaefl2-I0uLb_cEeHsm5VujQRX_g6S3QuA0w8tYzKSXoC5pSEeWksaiFaJqvd3BaMSanzm9LNrFHaaoebQJzU0mIx1e1IYa_NuqkdFOB0EIYpxz7KVPR7TwWwjdhzEEOK/s1600/MFL_1.gif" height="266" width="320" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
یکی از اولین ابزارهای مورد نیاز پروژههای پردازش زبان طبیعی چند زبانه، <a href="https://en.wikipedia.org/wiki/Language_identification" target="_blank">تشخیص زبان</a> محتوای داده شده است. روشهای مختلفی برای اینکار میتوان استفاده کرد، که سادهترین آن استفاده از مدل <a href="https://en.wikipedia.org/wiki/N-gram" target="_blank">ngram</a> است. در ادامه این نوشته این مدل را توضیح داده و در نهایت یک برنامه پرل (Perl) براي استفاده شما معرفي میكنم.</div>
<div dir="rtl" style="text-align: right;">
</div>
<a name='more'></a>مدلی که در اینجا معرفی میکنم یک مدل یادگیری بانظارت هست. به این معنی که برای استفاده از اون نیاز به داده برچسب خورده (labeled data) برای آموزش برنامه دارید. مثلا در مورد این پروژه میتوانید از یک فایل متنی که در هر خط اون یک جمله باشه و آخرین کلمه هم نوع زبان تعریف شده باشه. مثل نمونهای که در زیر به اون اشاره شده:<br />
<div dir="rtl" style="text-align: right;">
<br /></div>
<div style="text-align: left;">
this is a test. <b>en</b></div>
<div style="text-align: left;">
je suis contente. <b>fr</b></div>
<div style="text-align: left;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<b>داده</b></div>
<div dir="rtl" style="text-align: right;">
یک راه ساده برای آماده سازی چنین دادهای اینه که مجموعهای از جملات انگلیسی را به مترجم گوگل داده و ترجمه اون به زبانهای مختلف را در یک فایل جمعآوری کنید. در نهایت باید فایل خودتون را به دو قسمت (بصورت تصادفی ۸۰-۲۰) تقسیم کنید تا بتوانید یک فایل برای آموزش داشته باشید و یکی هم برای ارزیابی نتیجه اون.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<b>مدل</b></div>
<div dir="rtl" style="text-align: right;">
مدل استفاده شده در این برنامه character 3-gram هست. به این معنی که هر زبان بر اساس لیستی از رشتههای ۳تائی از حروف پشت سر هم (3-gram) تعریف شده. این لیست از روی داده آموزشی برای زبان ساخته میشه. در زمان ارزیابی مدل، جمله داده شده به همین صورت تبدیل به حروف ۳تائی میشه و در نهایت فاصله برداری برین جمله داده شده و تمام زبانها اندازهگیری میشه. روشهای مختلفی را میتوان برای اندازهگیری فاصله بین دوبردار استفاده کرد. در این پروژه من از روش اندازه گیری بر اساس <a href="https://en.wikipedia.org/wiki/Cosine_similarity" target="_blank">کسینوس زاویه بین دو بردار</a> استفاده کردهام که معمولا برای بیشتر مدلها جواب میده.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<b>کد برنامه</b></div>
<div dir="rtl" style="text-align: right;">
سورس کد برنامه را میتوانید از آدرس زیر دانلود کنید. اگر با جیتهاب آشنا باشید براحتی میتوانید کد برنامه را روی سیستم خودتون کپی کنید. اگر هم موردی داشت که نیاز به تصحیح داشت میتوانید در همینجا اعلام کنید یا اینکه در أدرس داده شده مطرح کنید.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<u><a href="https://code.google.com/p/language-classifier/source/browse/classify.pl">https://code.google.com/p/language-classifier/source/browse/classify.pl</a></u></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
اگر مشکلی در متصل شدن به <a href="https://code.google.com/" target="_blank">گوگلکد</a> داشتید به من خبر بدین که برنامه را برای شما بفرستم.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-68619819013777979612014-07-30T10:04:00.000+02:002014-08-06T09:36:30.449+02:00دکترا و پست دکترا - ترجمه ماشینی - آمستردام - هلند<div dir="ltr" style="text-align: left;" trbidi="on">
<div dir="rtl" style="text-align: right;">
<div class="separator" style="clear: both; text-align: center;">
</div>
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjIRFvxmznbtVGgFC9m9pkq5MCRkc3esdo-yY1giQ4jm1-QvdJFbRbmlu_J-R9wbokmtJS4Uk5M5ykMB8c8Mi0-EkI2Fw6hzVMowJFtpfxR5fbmV1VdEwo6re6iY9ZttqG-ewDy/s1600/University-of-Amsterdam-logo.gif" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjIRFvxmznbtVGgFC9m9pkq5MCRkc3esdo-yY1giQ4jm1-QvdJFbRbmlu_J-R9wbokmtJS4Uk5M5ykMB8c8Mi0-EkI2Fw6hzVMowJFtpfxR5fbmV1VdEwo6re6iY9ZttqG-ewDy/s1600/University-of-Amsterdam-logo.gif" /></a></div>
<br />
تعدادی بورس دکترا و یک فرصت پست داک در زمینه ترجمه ماشینی آماری در دانشگاه آمستردام هلند برای سال ۲۰۱۵ ارائه شده که میتوانید اطلاعات بیشتر را از طریق <a href="https://groups.google.com/forum/#!forum/NLP-dilmaj" target="_blank">گروه دیلماج</a> گوگل ببینید.</div>
<div dir="rtl" style="text-align: right;">
<br />
<br />
<br />
<ul style="text-align: right;">
<li><a href="https://groups.google.com/d/msg/nlp-dilmaj/FYQRg9V0WJs/HlRc0QSAcuAJ" target="_blank">دکترا - زبانشناسی محاسباتی - دانشگاه آمستردام - هلند</a></li>
<li><a href="https://groups.google.com/d/msg/nlp-dilmaj/HFy_LR8FUv0/OGChOxDcbaUJ" target="_blank">پستداک - ترجمه ماشینی آماری - دانشگاه آمستردام - هلند</a></li>
</ul>
</div>
<div dir="rtl" style="text-align: right;">
</div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-20279175403788307542014-07-26T15:46:00.001+02:002014-07-26T23:54:23.999+02:00 مترجم ماشینی - شورای عالی اطلاع رسانی<div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEggGFKLFU5DR3-5foTH6Onb-0ah2IXHFztaNDHGBydheJloO-2vjoI3frYQXNNuyFUA_Yi8aQVcb6Q6GxJn6vr4pH7uglHuv76GnnobTFk1qVlKtUEPbB-7cbRDDZHMK8VD1M3W/s1600/EuropeFlags.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEggGFKLFU5DR3-5foTH6Onb-0ah2IXHFztaNDHGBydheJloO-2vjoI3frYQXNNuyFUA_Yi8aQVcb6Q6GxJn6vr4pH7uglHuv76GnnobTFk1qVlKtUEPbB-7cbRDDZHMK8VD1M3W/s1600/EuropeFlags.jpg" height="206" width="320" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
ترجمه ماشینی - شورای عالی اطلاع رسانی را میتوانید از لینک زیر تست کنید. تا جائیکه تست کردم نتیجه خوبی نشون نمیده. ظاهرا از یکی از ابزارهای اوپن سورس استفاده شده و با کمک پیکره موازی که احتمالا با کمک مترجم گوگل تهیه شده اونو آموزش دادهاند. </div>
<div dir="rtl" style="text-align: right;">
<a href="http://machinetranslation.ir/">http://machinetranslation.ir</a></div>
<div dir="rtl" style="text-align: right;">
در یک پست جدا در مورد اینکه چطور میشه اینکار را انجام داد مینویسم. اینکه کلا اینکار کمتر از یک هفته طول میکشه برای یک نفر که بتونه چند تا برنامه نصب کنه. </div>
<div dir="rtl" style="text-align: right;">
برای شروع میتونید ببینید که پروژه مترجم ماشنی اتحادیه اروپا تمام برنامهها و پیکرههای موازی را بصورت تقریبا رایگان در اختیار همه گذاشته و از طریق لینک زیر برای همه قابل استفاده است.</div>
<div dir="rtl" style="text-align: right;">
<a href="http://www.statmt.org/">http://www.statmt.org</a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-89444812450790996652014-07-22T13:20:00.002+02:002014-07-22T14:27:06.114+02:00لاتین نویسی زبان فارسی<div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjETupzBw9hYfUZ2TbhhQVeH0VELIwwg6ZBIjdTveg_H2XWCvfDV4cF1RTBuCGBIDhUGrLeYBEifLt2KIQjjMvzCqDsOVy_tD7uiYe6F1lOtCChTWvMgLL9aH_4mf3VzjVQDfJv/s1600/images.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjETupzBw9hYfUZ2TbhhQVeH0VELIwwg6ZBIjdTveg_H2XWCvfDV4cF1RTBuCGBIDhUGrLeYBEifLt2KIQjjMvzCqDsOVy_tD7uiYe6F1lOtCChTWvMgLL9aH_4mf3VzjVQDfJv/s1600/images.jpg" /></a></div>
<div dir="rtl" style="text-align: justify;">
<br /></div>
<div dir="rtl" style="text-align: justify;">
لاتین نویسی زبان فارسی یکی از پروژههائی است که میتواند مورد توجه محققان در زمینه پردازش زبان طبیعی قرار بگیرد. پروژههای مشابه با نام <a href="https://fa.wikipedia.org/wiki/%D9%86%D9%88%DB%8C%D8%B3%D9%87%E2%80%8C%DA%AF%D8%B1%D8%AF%D8%A7%D9%86%DB%8C" target="_blank">نویسهگردانی</a> (<a href="https://en.wikipedia.org/wiki/Transliteration" target="_blank">transliteration</a>) در زبانهای مختلف تعریف شده که بیشتر برای تبدیل متن (در یک زبان) از یک خط به خط لاتین بوده است. بعنوان مثال میتوان برای زبان ترکی آذربایجان متون را به سه خط عربی، <a href="https://fa.wikipedia.org/wiki/%D8%A7%D9%84%D9%81%D8%A8%D8%A7%DB%8C_%D8%B3%DB%8C%D8%B1%DB%8C%D9%84%DB%8C%DA%A9" target="_blank">سیریلیک</a> و لاتین دید. در ادامه متن، تعدادی از ابزارهای تبدیل بین خط فارسی و لاتین معرفی شده و استاندارهای قابل استفاده برای اینکار نیز معرفی شدهاند.</div>
<div dir="rtl" style="text-align: right;">
</div>
<a name='more'></a><br />
<div dir="rtl" style="text-align: justify;">
در زبان فارسی هم ابزارهای مختلفی برای نویسهگردانی از لاتین به فارسی ارائه شده است که بیشتر کاربرد تبدیل خط پینگلیش به فارسی را دارد. بعنوان مثال میتوان به برنامههای <a href="http://www.behnevis.com/" target="_blank">بهنویس</a>، <a href="http://blog.dilmaj.net/p/blog-page_22.html" target="_blank">نویسهگردان گوگل</a> و <a href="http://virastyar.ir/trans/index" target="_blank">ترانویس</a> اشاره کرد. چنین برنامههائی برای تعدادی از کاربران فارسیزبان که عادت دارند به پینگلیش بنویسند خیلی مفید بوده است. </div>
<div dir="rtl" style="text-align: justify;">
اما کمتر برنامهای تا الان برای تبدیل خط فارسی به لاتین ارائه شده است. شاید یکی از دلایل ارائه نشدن چنین ابزاری، نبود بازار مناسب برای آن باشد. در حال حاضر و با وجود فارسیزبانهائی که قادر به خواندن متون فارسی به خط فارسی نیستند، بازار مناسب ایجاد شده است. اما مشکلات دیگری هم برای ارائه چنین برنامههائی وجود دارد. با توجه به اینکه صداهادر خط فارسی نوشته نمیشوند، نمیتوان بسادگی با جایگزینی حروف فارسی با لاتین تبدیل را انجام داد. ابهامات زیادی هست که نیاز به استفاده از الگوریتمهای پیچیدهتری نسبت به مبدل لاتین به فارسی هست. ابهاماتی مانند کلمه -حسن- یا -در- که بسته به معنی آن در جمله، میتواند تلفظهای متفاوتی داشته باشد. </div>
<div dir="rtl" style="text-align: justify;">
در حال حاضر پروژهای زیر نظر دبیرخانه شورای عالی اطلاع رسانی در اینزمینه در حال انجام است که یکی از خروجیهای آن نویسهگردانی فارسی به لاتین هست. در این پروژه که با نام <a href="http://virastyar.ir/" target="_blank">ویراستیار</a> ارائه شده، ادعا شده که برنامه بصورت رایگان و کد باز (هرچند در سایت ویراستیار خبری از ارائه کد برنامه نیست) خواهد بود. در حال حاضر برنامه ویراستیار علاوه بر نسخه اجرائی قابل استفاده در برنامه آفیس ویندوز، بصورت آنلاین هم در آدرس <a href="http://virastyar.com/virastlive/index.html" target="_blank">ویراست لایو</a> ارائه شده است.</div>
<div dir="rtl" style="text-align: justify;">
<br /></div>
<div dir="rtl" style="text-align: justify;">
اما شاید اولین قدم برای تبدیل خط فارسی به لاتین، تعریف خط لاتین باشد بطوریکه بتواند با کمترین مشکل برای پردازش زبان طبیعی قابل استفاده باشد. در حال حاضر ۳ مدل مختلف برای تعریف خط لاتین فارسی تعریف شده که در زیر به آنها اشاره شده است:</div>
<br />
<div dir="rtl" style="text-align: right;">
</div>
<ul dir="rtl" style="text-align: right;">
<li><a href="http://unipers.com/" target="_blank">یونیپرس</a></li>
<li><a href="http://www.persiandirect.com/projects/ipa2/ipa2_tutor.htm" target="_blank">پرسیک</a></li>
<li><a href="http://fa.alefbaye2om.org/" target="_blank">الفبای دوم</a></li>
</ul>
<br />
<div dir="rtl" style="text-align: justify;">
<span style="color: #141412; font-family: Source Sans Pro, Tahoma, Tahoma, Helvetica, sans-serif;"><span style="background-color: white; line-height: 24px;">از بین ۳ مدل ارائه شده، فقط پروژه الفبای دوم هست که میخواهد خط فارسی و خط لاتین را در کنار هم استفاده کند تا بتواند بخشی از مشکلات آموزش زبان فارسی را حل کند و دوتای اول قصد دارند جایگزین خط فارسی بشوند ( که بنظر من منطقی نیست ).</span></span><br />
<span style="color: #141412; font-family: Source Sans Pro, Tahoma, Tahoma, Helvetica, sans-serif;"><span style="background-color: white; line-height: 24px;"><br /></span></span>
<span style="color: #141412; font-family: Source Sans Pro, Tahoma, Tahoma, Helvetica, sans-serif;"><span style="background-color: white; line-height: 24px;">لینکهای مرتبط</span></span><br />
<br />
<ul>
<li><span style="color: #141412; font-family: Source Sans Pro, Tahoma, Tahoma, Helvetica, sans-serif;"><span style="line-height: 24px;"><a href="http://geonames.ncc.org.ir/_icnsgn/Documents/%D8%B4%DB%8C%D9%88%D9%87%20%D9%86%D8%A7%D9%85%D9%87%20%D8%A2%D9%88%D8%A7%D9%86%DA%AF%D8%A7%D8%B1%DB%8C_20130327_083742.pdf" target="_blank">دستورالعمل آوانگاری نام های جغرافیایی ایران</a> </span></span></li>
<li><span style="color: #141412; font-family: Source Sans Pro, Tahoma, Tahoma, Helvetica, sans-serif;"><span style="line-height: 24px;"><a href="http://isna.ir/fa/news/91122113926/%D8%A7%D8%A8%D9%84%D8%A7%D8%BA-%D8%B4%DB%8C%D9%88%D9%87-%D9%86%D8%A7%D9%85%D9%87-%D8%A2%D9%88%D8%A7%D9%86%DA%AF%D8%A7%D8%B1%DB%8C-%DA%A9%D9%84%DB%8C-%D9%86%D8%A7%D9%85-%D9%87%D8%A7%DB%8C-%D8%AC%D8%BA%D8%B1%D8%A7%D9%81%DB%8C%D8%A7%DB%8C%DB%8C" target="_blank">ایسنا - ابلاغ شیوهنامه آوانگاری کلی نامهای جغرافیایی ایران</a></span></span></li>
<li><span style="color: #141412; font-family: Source Sans Pro, Tahoma, Tahoma, Helvetica, sans-serif;"><a href="https://fa.wikipedia.org/wiki/%D8%A7%D9%84%D9%81%D8%A8%D8%A7%DB%8C_%D8%A2%D9%88%D8%A7%D9%86%DA%AF%D8%A7%D8%B1%DB%8C_%D8%A8%DB%8C%D9%86%E2%80%8C%D8%A7%D9%84%D9%85%D9%84%D9%84%DB%8C" target="_blank">الفبای آوانگاری بینالمللی</a></span></li>
</ul>
<br />
<br />
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-86850945702444697862014-07-16T12:04:00.002+02:002014-07-16T12:06:20.666+02:00پیکرههای فارسی<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: center;">
<iframe frameborder="0" marginheight="0" marginwidth="0" scrolling="no" src="//ws-na.amazon-adsystem.com/widgets/q?ServiceVersion=20070822&OneJS=1&Operation=GetAdHtml&MarketPlace=US&source=ac&ref=tf_til&ad_type=product_link&tracking_id=computatlingu-20&marketplace=amazon&region=US&placement=0262133601&asins=0262133601&linkId=PO3WAINEG2M5Z2DS&show_border=true&link_opens_in_new_window=true" style="height: 240px; width: 120px;">
</iframe>
</div>
<div dir="ltr" style="text-align: left;" trbidi="on">
<div dir="rtl" style="text-align: right;">
<b style="font-size: x-large;">تعریف</b></div>
<div dir="rtl" style="text-align: right;">
<div style="text-align: justify;">
پیکره متنی (<a href="https://en.wikipedia.org/wiki/Text_corpus" target="_blank">corpus</a>) مجموعهای بزرگ و بدون ساختار از متون تولید شده توسط انسان است. از پیکره برای آموزش یا ارزیابی مدلهای پردازش زبان طبیعی استفاده میشود. پیکره میتواند یک زبانه یا چند زبانه باشد. در صورتیکه در پیکره چند زبانه ارتباطی بین جملات زبانهای مختلف تعریف شده باشد، به آن <a href="http://blog.dilmaj.net/2014/07/Euro-Corpus-Translation-Memory.html" target="_blank">پیکره موازی</a> میگویند که کاربر بیشتر آن در <a href="https://fa.wikipedia.org/wiki/%D8%AA%D8%B1%D8%AC%D9%85%D9%87_%D9%85%D8%A7%D8%B4%DB%8C%D9%86%DB%8C" target="_blank">ترجمه ماشینی</a> است.</div>
</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<div style="text-align: justify;">
قبلا در مورد پیکرههای موجود در زبانهای غیر از فارسی نوشتهبودم (<a href="http://blog.dilmaj.net/2014/07/Euro-Corpus-Translation-Memory.html" target="_blank">حافظه ترجمه</a>، <a href="http://blog.dilmaj.net/2014/07/hamshahri-online-corpus-zwnj-analysis.html" target="_blank">همشهری آنلاین</a>) . در این نوشته قصد دارم دو تا از مهمترین پیکرههای موجود در زبان فارسی را معرفی کنم.</div>
</div>
<div dir="rtl" style="text-align: right;">
</div>
<a name='more'></a><span style="font-size: large;"><b><br /></b></span>
<br />
<div dir="rtl" style="text-align: right;">
<span style="font-size: large;"><b><a href="http://ece.ut.ac.ir/dbrg/bijankhan/" target="_blank">پیکره بیجنخان</a> </b></span></div>
<div dir="rtl" style="text-align: right;">
<div style="text-align: justify;">
یکی از قدیمیترین پیکرههای زبان فارسی که به همت آقای دکتر بیجنخان و با حمایت مالی سازمانهای مختلف دولتی در دانشگاه تهران تهیه شده است. این پیکره شامل <a href="https://fa.wikipedia.org/wiki/%D8%A8%D8%B1%DA%86%D8%B3%D8%A8%E2%80%8C%D8%B2%D9%86%DB%8C_%D8%A7%D8%AC%D8%B2%D8%A7%DB%8C_%DA%A9%D9%84%D8%A7%D9%85" target="_blank">برچسبهای دستوری</a> (<a href="https://en.wikipedia.org/wiki/Part-of-speech_tagging" target="_blank">Part-Of-Speech tags</a>) برای کلمات نیز است. این پیکره بصورت دستی برچسب زنی شده است و به همین دلیل یکی از دقیقترین پیکرههای موجود برای آموزش یک برچسب زن فارسی است. هرچند بنظر میرسد که در حین انجام برچسبزنی دستی از ابزارهای خودکار برای تسریع کار استفاده شده است که باعث ایجاد برچسبهای نادرست در مواردی شده است.</div>
</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<a href="http://www.dadegan.ir/catalog/bijankhan" target="_blank">لینک پیکره بیجنخان در سایت دادگان</a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<span style="font-size: large;"><br /></span></div>
<div dir="rtl" style="text-align: right;">
<span style="font-size: large;"><b><a href="http://www.dadegan.ir/catalog/tep" target="_blank">پیکره موازی انگلیسی-فارسی دانشگاه تهران</a></b></span> (<a href="http://wwwusers.di.uniroma1.it/~pilehvar/pubs/CICLING_2011_Pilehvars_Faili.pdf" target="_blank">TEP corpus</a>)</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<div style="text-align: justify;">
این پیکره شامل جملات انگلیسی و ترجمه فارسی زیرنویس فیلمهای مختلف هست که در قالب یک پیکره ارائه شده است. گروه <a href="http://ece.ut.ac.ir/lab/nlp?destination=node%2F732" target="_blank">پردازش زبان طبیعی دانشگاه تهران </a>و آقای دکتر فیلی گردآورنده این پیکره بودهاند. این پیکره بیشتر برای آموزش یک سیستم ترجمه ماشینی کاربرد دارد.</div>
</div>
<div dir="rtl" style="text-align: right;">
</div>
<ul dir="rtl" style="text-align: right;">
<li><a href="http://opus.lingfil.uu.se/TEP.php" target="_blank">اطلاعات بیشتر در مورد پیکره انگلیسی-فارسی دانشگاه تهران</a></li>
<li><a href="http://opus.lingfil.uu.se/download.php?f=TEP/TEP0.1.tar.gz" target="_blank">لینک دانلود پیکره انگلیسی-فارسی دانشگاه تهران</a></li>
</ul>
<div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
پیکرههای دیگری هم برای زبان فارسی وجود دارند که در نوشتههای بعدی آنها را معرفی خواهم کرد.</div>
</div>
</div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-46457374214832026102014-07-12T08:30:00.000+02:002014-08-06T09:41:21.577+02:00پاورچین پاورچین - سلانه سلانه - بع بع - صورت صورت<div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
</div>
<div dir="rtl" style="text-align: right;">
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjIbDsmqImn8sPQ8fDkqH5pSmmIi4Q-AGkr_R1v9JJTC2Rj_emWJBE1QFbJ7klrb00yOwEIx3RPfFuJ0cOpfS_unqoP3Ic5A5gywomD-B1BrMj-apnz6taYheDOBrOK4uB2SDT-/s1600/NastaliqOnline.ir.jpg" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjIbDsmqImn8sPQ8fDkqH5pSmmIi4Q-AGkr_R1v9JJTC2Rj_emWJBE1QFbJ7klrb00yOwEIx3RPfFuJ0cOpfS_unqoP3Ic5A5gywomD-B1BrMj-apnz6taYheDOBrOK4uB2SDT-/s1600/NastaliqOnline.ir.jpg" height="195" width="320" /></a></td></tr>
<tr><td class="tr-caption" style="text-align: center;"><table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td class="tr-caption" style="font-size: 13px;">بسی رنج بردم بدین سال سی<br />
عجم زنده کردم بدین پارسی</td></tr>
</tbody></table>
</td></tr>
</tbody></table>
<br /></div>
<div dir="rtl" style="text-align: right;">
در ادامه مباحث مربوط به پردازش پیکره فارسی، به یکی دیگه از مواردی که در پیکرههای خبری فارسی بهوفور دیدهام میپردازیم. و خواهیم دید که چطور میشه با یک مدل ساده چنین مشکلی را در پیکره حل کرد.</div>
<div dir="rtl" style="text-align: right;">
</div>
<a name='more'></a><br />
<div dir="rtl" style="text-align: right;">
در متون فارسی گاهی به کلماتی برخورد میکنیم که تکرار پشتسر آنها کاملا درست است، مثل کلمات زیر:</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
قاه قاه<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
شرحه شرحه</div>
<div dir="rtl" style="text-align: right;">
بیگلی بیگلی</div>
<div dir="rtl" style="text-align: right;">
واق واق<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
کورمال کورمال<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
هق هق</div>
<div dir="rtl" style="text-align: right;">
زق زق<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
خس خس<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
سلانه سلانه<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
اَ اَ<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
کَل کَل<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
یواش یواش<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
بع بع<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
دوان دوان</div>
<div dir="rtl" style="text-align: right;">
پچ پچ<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
پرسان پرسان<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
نچ نچ<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
فوج فوج<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
تلق تلق<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
کرور کرور<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
پاورچین پاورچین<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
واه واه<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
اما آیا همه کلماتی که دوبار پشتسرهم نوشته شدهاند، درستن؟ مثلا آیا میشه کلمات زیر را بصورت تکراری نوشت؟</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
صورت صورت<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
نظر نظر<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
باشد باشد<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
انجام انجام<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
اگر اگر<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
پس پس<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
نمی نمی<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
آنها آنها<span class="Apple-tab-span" style="white-space: pre;"> </span></div>
<div dir="rtl" style="text-align: right;">
شد شد</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
بنظر میاد که ترکیب کلمات بالا صحیح نیست. اما چطور میشه این کلمات را در متن پیدا کرده و تصحیح کرد. یک راه ساده اینه که تعداد تکرار ترکیب دوتائی (<a href="http://en.wikipedia.org/wiki/Bigram" target="_blank">bigram</a>) را در نظر بگیریم. اما این کافی نیست چرا که کلمات درستی که در ابتدای متن اشاره شد معمولا از تکرار بالائی برخوردار نیستند و نمیشه براحتی اونها را از سری دوم کلمات فقط بر اساس آمار تکرار اونها تشخص داد. </div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
اما راه دوم استفاده از آمار تکرار نسبی است. به این معنی که آمار تکرار دوتائی (<a href="http://en.wikipedia.org/wiki/Bigram" target="_blank">bigram</a>) را بر تعداد تکرار کلمه تقسیم کنیم. در اینصورت میتوانید کلماتی که بصورت تنهائی تکرار بالائی دارند (مانند -شد- ) را از کلماتی که تکرار کمتری دارند ( مانند -بع- ) جدا کرد. </div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div style="text-align: right;">
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-78156085529127663492014-07-10T16:19:00.000+02:002014-07-10T16:19:08.580+02:00یک منبع عالی برای حافظه ترجمه <div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiOGNkaf8fncZ4DRXH-Cwgv-HrEJN3W1cjS1LgmiktXdGaUew3HgPMlp1XRSeIqzSMiXAhO8ETAVfz1K7VFB1eyOjQ_0WwPFEHilJ498mmAe2tpL7fiX2CwIqkuXQ_DeKWPUA1d/s1600/EuropeFlags.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiOGNkaf8fncZ4DRXH-Cwgv-HrEJN3W1cjS1LgmiktXdGaUew3HgPMlp1XRSeIqzSMiXAhO8ETAVfz1K7VFB1eyOjQ_0WwPFEHilJ498mmAe2tpL7fiX2CwIqkuXQ_DeKWPUA1d/s1600/EuropeFlags.jpg" height="206" width="320" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: justify;">
یکی از منابع مهم برای تولید یک سیستم ترجمه ماشینی، داشتن پیکرههای موازی است. به این معنی که در پیکره موازی جملات ترجمه شده بین دو زبان را داشته باشیم. با داشتن این پیکره . استفاده از ابزارهای آماده مانند موسی (<a href="http://www.statmt.org/moses/" target="_blank">moses</a>) میتوان یک برنامه ترجمه ماشینی را به سرعت آماده کرد.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: justify;">
در ادامه پروژه ترجمه ماشینی اتحادیه اروپا، جندی پیش مسئولان پروژه یکی از بزرگترین پیکرههای موازی را برای ۲۲ زیان و ۲۳۱ ترکیب زبانی منتشر کردند. این پیکرهها در درجه اول توسط مترجمان حرفهای برای بالا بردن کیفیت و سرعت ترجمه استفاده شده است. اما در حال حاضر امکان استفاده از آنها برای آموزش یک سیستم ترجمه ماشینی برای همه افراد وجود دارد.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
- <a href="http://arxiv.org/pdf/1309.5226.pdf" target="_blank">درمورد این پیکرههای حافظه ترجمه</a></div>
<div dir="rtl" style="text-align: right;">
- <a href="http://ipsc.jrc.ec.europa.eu/?id=61" target="_blank">دانلود پیکره اتحادیه اروپا</a></div>
<div dir="rtl" style="text-align: right;">
- <a href="http://www.euromatrix.net/" target="_blank">پروژه ترجمه ماشینی اتجادیه اروپا</a></div>
<div dir="rtl" style="text-align: right;">
- <a href="http://www.statmt.org/" target="_blank">تمام ابزارها و منابع لازم برای ترجمه ماشینی آماری</a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-60552369640630238072014-07-09T16:51:00.002+02:002014-08-06T09:44:18.225+02:00بررسی وضعیت نیمفاصله در پیکره همشهری آنلاین<div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
</div>
<div dir="rtl" style="text-align: right;">
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEj8Oc6E4BwHXD5rVZwhDJ_UF-weYCKpqiw4bHO5D49F6-gUzTA65SMyFU5sIcbxBJzrwn2VWtRDJW2kIZgNIwsXAwVbT9jyIg7qr6P9dc-4j5-jMhoVBRsY1IzQjarys5klkbC9/s1600/1349332461634_i.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEj8Oc6E4BwHXD5rVZwhDJ_UF-weYCKpqiw4bHO5D49F6-gUzTA65SMyFU5sIcbxBJzrwn2VWtRDJW2kIZgNIwsXAwVbT9jyIg7qr6P9dc-4j5-jMhoVBRsY1IzQjarys5klkbC9/s1600/1349332461634_i.png" /></a></div>
<br /></div>
<div dir="rtl" style="text-align: right;">
در ادامه مطالب <a href="http://blog.dilmaj.net/2014/07/farsi-zwnj.html" target="_blank">نوشته شده</a> در زمینه <a href="http://blog.dilmaj.net/2014/07/farsi-zwnj-farhangestan.html" target="_blank">نیمفاصله</a>، این نوشته قصد دارد بخشی از اشتباهات موجود در یکی از پیکرههای زبان فارسی را مطرح کند. اینروزها بجز از چند سایت خبری که از نرمافزارهای قدیمی برای ویراش اخبارشان استفاده میکنند، بیشتر سایتها از نیمفاصله تا حد امکان استفاده میکنند. اما کماکان در بعضی از موارد از فاصله بجای (بهجای) نیمفاصله استفاده میکنند که میتواند باعث بروز مشکلاتی در پردازش محتوای آنها بشود.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
در اینجا به چند مورد از بیشترین اشتباهات صورت گرفته در سایت <a href="http://www.hamshahrionline.ir/" target="_blank">روزنامه همشهری آنلاین</a> اشاره میکنم. این لیست پس از بررسی پیکره همشهری آنلاین تهیه شده است. این پیکره در حدود ۱۱۲ میلیون کلمه (شامل۶۳۰ هزار واژه) دارد.</div>
<div dir="rtl" style="text-align: right;">
</div>
<a name='more'></a><br />
<br />
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
بین المللی --- بینالمللی</div>
<div dir="rtl" style="text-align: right;">
گفت وگو --- گفتوگو</div>
<div dir="rtl" style="text-align: right;">
سرمایه گذاری --- سرمایهگذاری</div>
<div dir="rtl" style="text-align: right;">
روبه رو --- روبهرو</div>
<div dir="rtl" style="text-align: right;">
بین الملل --- بینالملل</div>
<div dir="rtl" style="text-align: right;">
تصمیم گیری --- تصمیمگیری</div>
<div dir="rtl" style="text-align: right;">
خصوصی سازی --- خصوصیسازی</div>
<div dir="rtl" style="text-align: right;">
چشم انداز --- چسمانداز</div>
<div dir="rtl" style="text-align: right;">
آن قدر --- آنقدر</div>
<div dir="rtl" style="text-align: right;">
فوق العاده --- فوقالعاده</div>
<div dir="rtl" style="text-align: right;">
روزنامه نگاری --- روزنامهنگاری</div>
<div dir="rtl" style="text-align: right;">
قلعه نویی --- قلعهنوعی</div>
<div dir="rtl" style="text-align: right;">
گفت وگوی --- گفتوگوی</div>
<div dir="rtl" style="text-align: right;">
برمی گردد --- برمیگردد</div>
<div dir="rtl" style="text-align: right;">
جابه جایی --- جابهجایی</div>
<div dir="rtl" style="text-align: right;">
جست وجو --- جستوجو</div>
<div dir="rtl" style="text-align: right;">
سهمیه بندی --- سهمیهبندی</div>
<div dir="rtl" style="text-align: right;">
حزب الله --- حزبالله</div>
<div dir="rtl" style="text-align: right;">
گفت وگویی --- گفتوگویی</div>
<div dir="rtl" style="text-align: right;">
خانواده اش --- خانوادهاش</div>
<div dir="rtl" style="text-align: right;">
صاحب نظران --- صاحبنظران</div>
<div dir="rtl" style="text-align: right;">
گفت وگوهای --- گفتوگوهای</div>
<div dir="rtl" style="text-align: right;">
فرهنگ سازی --- فرهنگسازی</div>
<div dir="rtl" style="text-align: right;">
جابه جا --- جابهجا</div>
<div dir="rtl" style="text-align: right;">
گفت وگوها --- گفتوگوها</div>
<div dir="rtl" style="text-align: right;">
بیت المقدس --- بیتالمقدس</div>
<div dir="rtl" style="text-align: right;">
زندگی اش --- زندگیاش</div>
<div dir="rtl" style="text-align: right;">
نتیجه گیری --- نتیجهگیری</div>
<div dir="rtl" style="text-align: right;">
بازمی گردد --- بازمیگردد</div>
<div style="text-align: right;">
<br /></div>
<div style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
برای تمام موارد اشاره شده ، کلمه در درست هم به کرات در متن استفاده شده است که در جلوی هر کلمه آورده شده.</div>
<div dir="rtl" style="text-align: right;">
اگر خواستار اطلاعات بیشتر درمورد پیکره همشهری آنلاین (متفاوت از پیکره همشهری بیجنخان) هستید، با من از طریق آدرس زیر تماس بگیرید.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: center;">
<a href="http://blog.dilmaj.net/p/blog-page_16.html" target="_blank">فرم تماس با من</a></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-63504939753951192612014-07-04T17:03:00.000+02:002014-07-09T16:54:46.104+02:00نگارش فارسی و نیمفاصله از دید فرهنگستان زبان و ادب فارسی<div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEihSBaS7Nf20BSUZKNxM2s9D_-NbjJTmQFqAvba4mwAkii-5EYEhKfjKyGu_-1HAzxRAUXM6u1LR3rEvClD7TiSJsud56y98JGmfZcIxaXeea6OMBenAieyK0sN-Xzfx9lw-hrP/s1600/ARM.JPG" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEihSBaS7Nf20BSUZKNxM2s9D_-NbjJTmQFqAvba4mwAkii-5EYEhKfjKyGu_-1HAzxRAUXM6u1LR3rEvClD7TiSJsud56y98JGmfZcIxaXeea6OMBenAieyK0sN-Xzfx9lw-hrP/s1600/ARM.JPG" height="204" width="320" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
گاهی برای من مشخص نیست که آیا در مورد یک کلمه خاص باید از نیمفاصله استفاده کرد یا اینکه باید با فاصله نوشته بشه. در حالت سوم هم گاهی کلا هیچ نوع فاصلهای درکار نیست. مثلا جمله زیر را در نظر بگیرید:</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: center;">
<b><span style="color: #cc0000;">همچنان به فیزیوتراپی و آب درمانی مشغول است.</span></b></div>
<div dir="rtl" style="text-align: right;">
</div>
<a name='more'></a><br />
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
آیا کلمه آب درمانی (آبدرمانی) باید بصورت یک کلمه واحد با نیمفاصله نوشته بشه یا اینکه باید بصورت جدا نوشته بشه. یا اینکه هر دو این حالتها درسته؟</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
موارد از این دست در متون فارسی زیاد هست که به بعضی از اونها در ادامه اشاره شده:</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
بهجای -- بجای --- به جای</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
هیچ کس -- هیچکس -- هیچکس </div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
فن آوری -- فنآوری -- فنآوری</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
به وجود --- بهوجود --- بوجود</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
همین جا --- همینجا --- همینجا</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
شناخته شده --- شناختهشده</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
کوچک تر --- کوچکتر -- کوچکتر</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
البته برای بعضی از این موارد در <a href="http://www.persianacademy.ir/fa/tarkibat.aspx" target="_blank">سایت فرهنگستان زبان فارسی</a> توضیحاتی آمده است. نکته جالب اینه که در همین متن نوشته شده در فرهنگستان هم <a href="http://blog.dilmaj.net/2014/07/farsi-zwnj.html" target="_blank">مشکل نیمفاصله</a> وجود داره. جائیکه در مورد کلمات ترکیبی که الزاما جدا نوشته میشوند، نوشته:</div>
<div dir="rtl" style="text-align: right;">
<span style="background-color: #f4f4f4; font-family: Tahoma; font-size: x-small; line-height: 19.19999885559082px; text-align: justify;"> </span><strong style="background-color: #f4f4f4; font-family: Tahoma; font-size: small; line-height: 19.19999885559082px; text-align: justify;">دستکم، شوراى عالى، حاصل ضرب، صرف نظر، سیبزمینى، آبمیوه، آبلیمو</strong></div>
<div dir="rtl" style="text-align: right;">
<strong style="background-color: #f4f4f4; font-family: Tahoma; font-size: small; line-height: 19.19999885559082px; text-align: justify;"><br /></strong></div>
<div dir="rtl" style="text-align: right;">
با کمی دقت میشه دید که برای کلمه حالضرب از فاصله استفاده شده و نه نیمفاصله در حالیکه برای سیبزمینی از نیمفاصله استفاده شده است. وقتی در نوشته رسمی فرهنگستان چنین اشتباهی وجود داشته باشه، نمیشه از نویسندگان سایتهای خبری انتظار بیشتری داشت.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
نوشتههای مرتبط:<br />
- <a href="http://blog.dilmaj.net/2014/07/hamshahri-online-corpus-zwnj-analysis.html" target="_blank">بررسی وضعیت نیمفاصله در پیکره همشهری آنلاین</a><br />
- <a href="http://blog.dilmaj.net/2014/07/farsi-zwnj.html" target="_blank">نیمفاصله یا فاصله مجازی در زبان فارسی</a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-18933478851995312232014-07-04T12:29:00.000+02:002014-08-06T09:47:28.455+02:00نیمفاصله یا فاصله مجازی در زبان فارسی<div dir="ltr" style="text-align: left;" trbidi="on">
<div dir="rtl" style="text-align: right;">
<br /></div>
<div class="separator" style="clear: both; text-align: center;">
</div>
<div dir="rtl" style="text-align: right;">
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEidGzQfaRjSb4Y1sWnFLDz-5RCn1o5gkqBFdw96WPyReQOB-PVSCGoCbdqWmS_j_q-AxuOVC3phyphenhyphentI2dR0eCEv_xK897jHnH2jomFUl5PzTCXmj2_HYIJDCtebydEsZZrZzDi08/s1600/NastaliqOnline.png" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEidGzQfaRjSb4Y1sWnFLDz-5RCn1o5gkqBFdw96WPyReQOB-PVSCGoCbdqWmS_j_q-AxuOVC3phyphenhyphentI2dR0eCEv_xK897jHnH2jomFUl5PzTCXmj2_HYIJDCtebydEsZZrZzDi08/s1600/NastaliqOnline.png" /></a></td></tr>
<tr><td class="tr-caption" style="text-align: center;">فارسی شکر است</td></tr>
</tbody></table>
<br /></div>
<div dir="rtl" style="text-align: right;">
اینروزها یکی از کارهای من اینه که بر روی نرمال سازی پیکرههای فارسی کار کنم. بزرگترین مشکلی که دیدهام در مورد استفاده از <a href="http://fa.wikipedia.org/wiki/%D9%81%D8%A7%D8%B5%D9%84%D9%87_%D9%85%D8%AC%D8%A7%D8%B2%DB%8C" target="_blank">نیمفاصله</a> یا فاصله مجازی بوده. نمیدانم چرا یک سایتهای خبری یک قانون مشخص در اینمورد ندارن که مثلا اینکه یک سایت اصلا از نیمفاصله استفاده نکنه. وقتی قانون مشخصی نداریم، اینطوری میشه که در یک سایت تمام حالتهای مختلف استفاده و عدم استفاده نیمفاصله برای یک کلمه خاص وجود داره.</div>
<div dir="rtl" style="text-align: right;">
</div>
<a name='more'></a><br />
<div dir="rtl" style="text-align: right;">
در بیشتر موارد این اسامی جمع یا صرف فعل هست که این مشکل را داره. </div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
می توانم ---> میتوانم</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
کتاب ها ----> کتابها یا کتابها</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
اما گاهی پیچیدگی بیشتر هست. مثلا در مورد اسم شهرهایی که ترکیبی هستند مثل <a href="http://fa.wikipedia.org/wiki/%D8%AE%D9%85%DB%8C%D9%86%DB%8C%E2%80%8C%D8%B4%D9%87%D8%B1" target="_blank">خمینیشهر</a>.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
جملات زیر را در نظر بگیرید:</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
در میدان امام خمینی شهر لواسان</div>
<div dir="rtl" style="text-align: right;">
در میدان امام <a href="http://fa.wikipedia.org/wiki/%D8%AE%D9%85%DB%8C%D9%86%DB%8C%E2%80%8C%D8%B4%D9%87%D8%B1" target="_blank">خمینی شهر</a> اصفهان</div>
<div dir="rtl" style="text-align: right;">
در شهرستان خمینیشهر اصفهان</div>
<div dir="rtl" style="text-align: right;">
در میدان امام خمینی شهر <a href="http://fa.wikipedia.org/wiki/%D8%AE%D9%85%DB%8C%D9%86%DB%8C%E2%80%8C%D8%B4%D9%87%D8%B1" target="_blank">خمینیشهر</a> اصفهان</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
در تمام موارد بالا، تنها نویسنده مطلب هست که میتونه با درست نوشتن کمک کنه که ابهام از بین بره. جالبه که ذهن انسان میتونه این ابهام را براحتی حل کنه اما در حال حاضر الگورتیمی برای حل اون توسط کامپیوتر نداریم (یا حداقل من خبر ندارم و پیدا نکردم).</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
حالا در نظر بگیرید که در یک سایت خبری موارد زیر را دیدهام:</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
- به نمایندگی ایران خودرو در خمینی شهر تحویل داد</div>
<div dir="rtl" style="text-align: right;">
- در آن مثال شهرستان خمینی شهر زده شد</div>
<div dir="rtl" style="text-align: right;">
- علیرضا باقری از خمینیشهر</div>
<div dir="rtl" style="text-align: right;">
- تحت پوشش کمیته امداد امام خمینی شهر تهران</div>
<div dir="rtl" style="text-align: right;">
- سر رسید مفاخر خمینیشهر را تهیه کرده بود</div>
<div dir="rtl" style="text-align: right;">
- مردم خمینیشهر مردم شعر شناسی هستند</div>
<div dir="rtl" style="text-align: right;">
- پس از انقلاب به خمینی شهر تغییر یافت</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
هر دو حالت استفاده از نیمفاصله و بدون نیم فاصله در سایت وجود داره. حالا اگه بخواهید هر نوع پردازش متنی برروی محتوای این سایت انجام بدین، به مشکل برخورد میکنین. حتی یک جستجوی ساده برای اسم شهر خمینیشهر میتونه تعداد زیادی از نتایج را نشان نده. البته روشهایی هست که بتونه نتایج را بهتر کنه اما سوال من اینه که آیا بهتر نیست که سایتهای خبری در مورد استفاده یا عدم استفاده از نیمفاصله رویه ثابتی داشته باشند؟</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-47973450391786289632013-07-13T16:49:00.001+02:002013-07-13T16:49:34.388+02:00دادگان - مرجعی برای تمام داده های زبان فارسی<div dir="ltr" style="text-align: left;" trbidi="on">
<div class="separator" style="clear: both; text-align: center;">
<a href="http://www.dadegan.ir/themes/corolla/logo.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="http://www.dadegan.ir/themes/corolla/logo.png" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<a href="http://www.dadegan.ir/about" target="_blank">گروه پژوهشی دادگان</a> در <a href="http://www.scict.ir/Portal/Home/" target="_blank">دبیرخانه شورای عالی اطلاع رسانی</a> وب سایتی را برای معرفی تمام داده های موجود زبان فارسی ارائه کرده است. خوبی اینکار این هست که افراد و شرکتهای فعال در زمینه پردازش زبان فارسی می توانند بصورت متمرکز به این اطلاعات دسترسی داشته باشند. اضافه بر اینکه در هر مورد شما می توانید براحتی اطلاعاتی در مورد تولید کننده داده و نحوه تماس با آنها پیدا کنید.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<b>اما چند نکته:</b></div>
<div dir="rtl" style="text-align: right;">
- بیشتر دادگانی که با پشتیبانی دبیرخانه شورای عالی اطلاع رسانی در مراکز پژوهشی انجام شده، فقط قابل استفاده توسط دانشگاههای ایرانی است. ظاهرا در این میان راه حلی برای استفاده تحقیقاتی از این اطلاعات در شرکتهای داخلی یا خارجی در نظر گرفته نشده است.</div>
<div dir="rtl" style="text-align: right;">
- در چند مورد من تلاش کردم که اطلاعات بیشتری در مورد داده ها و اینکه چطور می توانم از آنها برای کارهای تحقیقاتی در شرکت استفاده کنم بدست بیاورم که متاسفانه کسی پاسخگو نبود. البته بدیهی بود که وظیفه پاسخگوئی بر عهده دبیرخانه نیست و برای هر داده باید با تولید کننده آن تماس گرفت. اما متاسفانه چند تولید کننده ای که من برای آنها فرمهای خواسته شده را فرستادم و حتی با ایمیل هم پیگیری کردم، جوابی به من ندادند.</div>
<div dir="rtl" style="text-align: right;">
با توجه به اینکه تقریبا در تمام مواردی که ایمیل فرستادم، کسی جوابی به من نداد، تصور میکنم این اطلاعات در حقیقت بخشی از قرارداد دبیرخانه برای پشتیبانی مالی پروژه های معرفی شده بوده و مهم نیست که آیا کسی امکان دسترسی به این داده ها را دارد یا نه.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
</div>
Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-90186446778415694802012-05-28T16:41:00.000+02:002012-05-28T16:44:33.610+02:00اولین کنفرانس بین المللی پردازش زبان طبیعی فارسی<div dir="ltr" style="text-align: left;" trbidi="on">
<div dir="rtl" style="text-align: right;">
اینروزها با گسترش اینترنت بین فارسی زبانان در سراسر دنیا؛ استفاده از ابزارهای پردازش زبان فارسی اهمیت بیشتری پیدا کرده اند. بطوریکه بالاخره بعد از مدتها خبر برگزاری یک کنفرانس بین المللی در زمینه پردازش زبان فارسی به علاقه مندان این رشته نشان داد که این اهمیت در داخل ایران هم دیده شده است. امسال <a href="http://icplp2012.semnan.ac.ir/indexF.php" target="_blank">اولین کنفرانس بین المللی پردازش زبان فارسی</a> در دانشگاه سمنان برگزار میشه. این کنفرانس در روزهای 15-16 شهریور 1391 برگزار خواهد شد. امیدوارم که اینکار ادامه پیدا کرده و در نهایت بعد از مدتها یک کنفرانس تخصصی پردازش زبان طبیعی برای زبان فارسی در ایران داشته باشیم. کنفرانسی که کمک خواهد کرد که محققان و دانشجویان و شرکتهای فعال در این زمینه با هم آشنا شده و بتوانند در آینده پروژه های بهتری را در این زمینه تعریف کنند.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
در صورت برگزاری این کنفرانس در دوره های بعدی می توان امیدوار بود که تحقیقات دانشگاهی در زمینه پردازش زبان طبیعی در داخل ایران به تولید محصولات بهتری در این زمینه کمک کند.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
مطالب مرتبط : </div>
<div dir="rtl" style="text-align: right;">
</div>
<ul dir="rtl" style="text-align: right;">
<li><a href="http://blog.dilmaj.net/2004/05/blog-post_30.html" target="_blank">در مورد اولین کارگاه پژوهشی زبان فارسی</a></li>
<li><a href="http://www.scict.ir/Portal/Home/Default.aspx?CategoryID=1124824e-4937-4a12-bb6f-b9d6dd01eb38" target="_blank">کارگروه خط و زبان فارسی در محیط رایانه - شورای عالی اطلاع رسانی</a></li>
<li><a href="http://blog.dilmaj.net/2005/05/blog-post.html" target="_blank">اولین همایش بومی سازی در حوزه خط و زبان فارسی</a></li>
</ul>
</div>Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-81645048336373431132012-05-04T12:25:00.001+02:002012-05-04T16:14:29.214+02:00چطور می توانید فایلهای خودتان را با دوستانتان به اشتراک بگذارید؟<div dir="ltr" style="text-align: left;" trbidi="on">
<div dir="rtl" style="text-align: right;">
حتما برای شما هم پیش آمده است که خواسته باشید فایلی را برای دوستتان بفرستید اما بدلیل محدودیت پیوست کردن فایل به ایمیل نتوانسته اید آنرا بفرستید. یا اینکه خواسته باشید یک فایل را برای تعداد زیادی از دوستانتان بفرستید و مجبور نباشید که برای هرکدام یک کپی از فایل را بفرستید. </div>
<div dir="rtl" style="text-align: right;">
اگر مشابه چنین مشکلی داشته اید، این نوشته می تواند به شما کمک کند که از امکانات جدید (و رایگان) اشتراک فایل در اینترنت برای اینکار استفاده کنید.<br />
<br />
<div style="text-align: center;">
<span class="Apple-style-span" style="color: blue;">شما می توانید ۵۰ گیگا بایت فضای مجانی اما کمی کند از <a href="http://www.box.net/" target="_blank">باکس</a> بگیرید، یا اینکه ۲ گیگا بایت مجانی ولی پرسرعت از <a href="http://db.tt/G46w4SWo" target="_blank">دراپ باکس</a> بگیرید. توضیحات بیشتر در ادامه این مطلب نوشته شده است.</span></div>
</div>
<div dir="rtl" style="text-align: right;">
</div>
<a name='more'></a><br />
<br />
<div dir="rtl" style="text-align: right;">
یک راه اشتراک فایل این است که شما فایل خودتان را در جائی در اینترنت قرار دهید (آپلود کنید) و بعد لینک آنرا به دوستانتان بدهید تا بتوانند آنرا ببینند. در ضمن شما می خواهید کنترل کنید که چه کسانی بتوانند فایل شما را دانلود کنند یا عکس شما را ببینند. در حال حاضر سرویسهای متنوعی برای اینکار بصورت رایگان ارائه شده اند در ادامه آنها را توضیح داده و مزایا و معیب هر کدام را بررسی میکنیم.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div class="separator" style="clear: both; text-align: center;">
</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
۱- <a href="http://db.tt/G46w4SWo" target="_blank">دراپ باکس</a></div>
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjXFlfkj65nN-wgBHx8YzNr1XMvaYTlWSZF2zvfxY4BJCi_YeYSFxsj-b2wr3VWji3vPRhni4CLnkhBuT0vZ3x4gWa2YuETFfiV7DDb7y6pum4iVKNpaVZQbx2yoP5QTt1gTimW/s1600/dropbox.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjXFlfkj65nN-wgBHx8YzNr1XMvaYTlWSZF2zvfxY4BJCi_YeYSFxsj-b2wr3VWji3vPRhni4CLnkhBuT0vZ3x4gWa2YuETFfiV7DDb7y6pum4iVKNpaVZQbx2yoP5QTt1gTimW/s1600/dropbox.jpg" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
یکی از بهترین سرویسهای اشتراک فایل هست که استفاده از آن تا ۲ گیگابایت مجانی است. در صورتیکه برنامه آنرا بر روی کامپیوتر خودتان نصب کنید، اشتراک گذاشتن یک فایل از روی کامپیوترتان به سادگی کپی کردن فایل در یک کامپیوتر شما است. فراموش نکنید که برای استفاده از تمام امکانات این سرویس بهتر است که برنامه معرفی شده در سایت را هم نصب کنید.</div>
<div dir="rtl" style="text-align: right;">
این برنامه برای ویندوز و لینوکس و همچنین اندروید و ای آو اس (موبایل) ارائه شده است که بعد از نصب یک فولدر با نام دراپ باکس در کامپیوتر شما درست میکند. شما براحتی می توانید فایلهای خودتان را در این فولدر کپی کنید و آنرا با دوستان خودتان به اشتراک بگذارید. تمام کارهای مربوط به آماده سازی نسخه اینترنتی فایل شما بر عهده برنامه نصب شده خواهد بود. شما نیازی ندارید که هربار در سایت دراپ باکس وارد شده و فایل را آنجا آپلود کنید.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
در ضمن در صورتیکه این برنامه را به دوستان خودتان معرفی کنید، برای هر نفر که برنامه آنرا نصب کند به شما ۲۵۰ مگابایت فضای رایگان می دهد. </div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
۲- <a href="http://drive.google.com/" target="_blank">گوگل درایو</a></div>
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgOEMFE0ykukrjYoCWN3WFFrunu15GoE7V6Ofi-cxwze-lNnTCiBGlEKalLmoKO7sP9_esaYZfaboZ2sA8SzL3iNdm0JO7VDB3WYQw6qpbBX_riVFAC71uUCHaz9rSbJxAiIWYm/s1600/googledrive.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" height="200" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgOEMFE0ykukrjYoCWN3WFFrunu15GoE7V6Ofi-cxwze-lNnTCiBGlEKalLmoKO7sP9_esaYZfaboZ2sA8SzL3iNdm0JO7VDB3WYQw6qpbBX_riVFAC71uUCHaz9rSbJxAiIWYm/s200/googledrive.jpg" width="173" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
گوگل از مدتها قبل در بازار ارائه فضای رایگان جهت اشتراک فایل در اینترنت حضور داشت. در این سرویس هم شما می توانید برنامه ارائه شده را نصب کرده و از فولدری که گوگل بر ای شما در کامپیوتر ایجاد کرده برای اشتراک فایل استفاده کنید. اینبار هم تمام کارهای مربوط به اشتراک فایل در اینترنت از طریق برنامه انجام خواهد شد. این برنامه برای موبایل اندروید هم ارائه شده است.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
تفاوت این سرویس با دراپ باکس این است که در ابتدای کار گوگل فضای بیشتری را در اختیار شما قرار می دهد این فضا در حدود ۵ گیگا بایت است که فابل ارتقاء است (با پرداخت کمی هزینه)</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
۳- <a href="http://skydrive.live.com/" target="_blank">اسکای درایو</a> (میکروسافت)</div>
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEh2ZRPXVDDoxzWF7aKxF3mRbPcRabFGJ_-hKlbbaUK8aykpAhYWT-eN3RW-aLUh9EUP35jib6eRDqULD35jsBEWn8UpKPw6YJWilZyeMVTBWKsdXbKqgqwkpYzzDezIy_L0c8Eu/s1600/logo_msSkyDrive_web.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" height="55" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEh2ZRPXVDDoxzWF7aKxF3mRbPcRabFGJ_-hKlbbaUK8aykpAhYWT-eN3RW-aLUh9EUP35jib6eRDqULD35jsBEWn8UpKPw6YJWilZyeMVTBWKsdXbKqgqwkpYzzDezIy_L0c8Eu/s200/logo_msSkyDrive_web.jpg" width="200" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
شرکت میکروسافت هم از مدتها قبل سرویس مربوط به فضای رایگان در اینترنت را با نام اسکای درایو ارائه کرده است. این سرویس در ابتدا حدود ۱ گیگا بایت بود. بعدا تا ۲۵ گیگا بایت (درست خواندید ۲۵ گیگا بایت) فضا افزایش یافت. در حال حاضر این سرویس برای کاربران قدیمی همان ۲۵ گیگا بایت هست اما برای افرادی که اکانت جدید درست کنند حدود ۷ گیگا بایت خواهد بود.</div>
<div dir="rtl" style="text-align: right;">
متاسفانه این سرویس برنامه ای برای موبایلهای اندروید تابحال ارائه نکرده است و برنامه ارائه شده تنها امکان نصب بر روی گوشیهای ویندوزی و آف فون را دارد.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
۴- <a href="http://www.zumodrive.com/" target="_blank">زومو درایو</a> (یاهو)</div>
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjtOYE00kKjHRDs5UvpbfEaaygV0BYGLat27eRAu_IybAP9QoVXGyZHDLu6HW0bxG1LSxGoK3PEu42EH_ZP4O07Ow24a0nuWNuzlOwIAkcjM2MprTkI50afkokdfbloBiAhHLny/s1600/zumo-1.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" height="200" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjtOYE00kKjHRDs5UvpbfEaaygV0BYGLat27eRAu_IybAP9QoVXGyZHDLu6HW0bxG1LSxGoK3PEu42EH_ZP4O07Ow24a0nuWNuzlOwIAkcjM2MprTkI50afkokdfbloBiAhHLny/s200/zumo-1.png" width="200" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
شرکت یاهو هم سرویس مشابهی را از طریق سایت زومو دروایو ارائه کرده است که حدود ۱/۵ گیگا بایت فضای مجانی در اختیار شما قرار می دهند. مانند بقیه سرویسهای معرفی شده، این سرویس هم برنامه ای در اختیار شما قرار می دهند که امکان اشتراک فایل را مستقیما از طریق کامپیوتر خودتان بدون نیاز به وارد شدن به سایت اینترنتی فراهم میکند. </div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
۵- <a href="http://www.box.net/" target="_blank">باکس</a></div>
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEj1XOpvNnYYfbvi70vegLtZ15yhb3zg_nuQrOACwj-612F2reRfpwnVy7Ao54lGN5jDwWuLmpzbg08B6usU6Ma4qt_8Z7W0ppKZsL2RNIllGwW54ZxcXLITsqqK-u6apOR__-Ma/s1600/box_logo.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" height="200" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEj1XOpvNnYYfbvi70vegLtZ15yhb3zg_nuQrOACwj-612F2reRfpwnVy7Ao54lGN5jDwWuLmpzbg08B6usU6Ma4qt_8Z7W0ppKZsL2RNIllGwW54ZxcXLITsqqK-u6apOR__-Ma/s200/box_logo.png" width="200" /></a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
این سرویس بیشترین فضای مجانی را در مقایسه با بقیه سرویسها در اختیار شما قرار می دهد. در صورتیکه برنامه موبایل آنرا نصب کنید حدود ۵۰ گیگا بایت فضا در اختیار شما قرار می دهد. اما اشکال این سرویس این است که برای نصب برنامه آن در کامپیوتر خودتان باید پول بدهید. بعبارت دیگه این سرویس برای گرفتن فضای زیاد خوبه اما کار کردن با آن بسادگی بقیه سرویسها نیست.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<b>در نهایت :</b></div>
<div dir="rtl" style="text-align: right;">
از بین سرویسهای ارائه شده بالا، در حال حاضر سرویس <a href="http://db.tt/G46w4SWo" target="_blank">دراپ باکس </a>سریعترین سرویس را ارائه می کند. بعلاوه اینکه شما براحتی می توانید حجم فضای خودتان را بصورت رایگان، از طریق معرفی آن به دوستان دیگر، اضافه کنید.</div>
</div>Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-58191821814256990302012-04-19T11:47:00.003+02:002012-04-22T12:22:12.011+02:00استفاده کاربردی از ترجمه ماشینی گوگل<div dir="ltr" style="text-align: left;" trbidi="on">
<div dir="rtl" style="text-align: right;">
این نوشته در مورد نتایج خنده دار مترجم گوگل است که تقریبا در مورد همه مترجمهای ماشینی در همه زبانها صادق است.<br />
<br />
چندی قبل یکی از فارسی زبانان طنز پرداز اینترنتی (<a href="http://www.youtube.com/user/alireza24tv" target="_blank">علیرضا۲۴</a>)(<a href="https://www.facebook.com/Alireza24" target="_blank">فیس بوک علیرضا۲۴</a>) فیلمی را در مورد استفاده کاربردی ترجمه ماشنی گوگل در یوتیوب منتشر کرد. این فیلم به اینصورت است که فرد یک سناریوی فرضی را به زبان فارسی نوشته و اجرا میکند. بعد ترجمه انگلیسی آنرا هم به همان صورت قبلی اجرا میکند. در نهایت متن ترجمه شده انگلیسی را دوباره با <a href="http://translate.google.com/" target="_blank">مترجم گوگل</a> به فارسی ترجمه می کند. این متن آخر را دوباره در همان حالت قبلی اجرا میکند که بسیار جالب و خنده دادر درآمده. تصور نمیکنم کسی بتواند این فیلم را ببیند و بتواند جلوی خنده خودش را بگیرد.<br />
<br />
<br />
<a href="http://dl.dropbox.com/u/68757022/google-translation.mp4" target="_blank">لینک اول برای دیدن یا دانلود</a><br />
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td><a href="http://dl.dropbox.com/u/68757022/google-translation.mp4" imageanchor="1" style="margin-left: auto; margin-right: auto;" target="_blank"><img alt="نتایج خنده دار مترجم گوگل" border="0" height="242" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjZcyF56vziTYmbqpb_UwrsXSNQLTZ8s_056cKWp8gVPlYy0YcRCvSKhXqNAW4ydOwLW8-ni1spEIHwd24Qx122V7cloMSyPdgG5rZ_XqFzHKzaMOHd8RPIU0r0UQxFS6iOF28k/s400/google-translate.png" title="نتایج خنده دار مترجم گوگل" width="400" /></a></td></tr>
<tr><td class="tr-caption" style="font-size: 13px;">نتایج خنده دار مترجم گوگل</td></tr>
</tbody></table>
<br />
<br />
نسخه یوتیوب این فیلم را در زیر می توانید می بینید. </div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div align="center">
<iframe allowfullscreen="" frameborder="0" height="315" src="http://www.youtube.com/embed/n0y5NCVc8fY" width="560"></iframe>
</div>
<br />
<div dir="rtl" style="text-align: right;">
<br />
<br />
توضیح اینکه اصولا ترجمه رفت و برگشت در یک سیستم ترجمه ماشینی برای بیشتر زبانها می تونه متن اولیه را کلا عوض کنه. دلیل آنهم اینه که مدل استفاده شده برای تولید یک مترجم مثلا انگلیسی به فارسی و برعکس یک سرویس متقارن نیست. برای همین ترجمه رفت و برگشت می تونه متفاوت باشه.<br />
<br />
<br />
<br /></div>
</div>Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-2950513273366308472012-04-04T13:38:00.002+02:002012-04-04T13:38:24.040+02:00درس آنلاین پردازش زبان طبیعی<div dir="ltr" style="text-align: left;" trbidi="on">
<div dir="rtl" style="text-align: right;">
مدتیست که درس پردازش زبان طبیعی بصورت آنلاین و مجانی توسط دو تن از بزرگترین اساتید این </div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
رشته در اینترنت ارائه شده است. استفاده از کلاس درس این دو استاد فرصت مناسبی است که همه دانسته های خودمان در این زمینه را مرورو کرده و آنها را با آخرین تحولات این رشته بروز رسانی کنیم.</div>
<div dir="rtl" style="text-align: right;">
برای شرکت در این کلاسها از آدرس زیر استفاده کنید :</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<a href="https://class.coursera.org/nlp/auth/welcome" target="_blank">کلاس درس پردازش زبان طبیعی دانشگاه استنفورد</a></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div class="separator" style="clear: both; text-align: center;">
</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td style="text-align: center;"><a href="http://spark-public.s3.amazonaws.com/nlp/landing/jurafsky.png" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" src="http://spark-public.s3.amazonaws.com/nlp/landing/jurafsky.png" /></a></td></tr>
<tr><td class="tr-caption" style="text-align: center;"><a href="http://www.stanford.edu/~jurafsky/" style="background-color: white; border-bottom-width: 0px; border-color: initial; border-left-width: 0px; border-right-width: 0px; border-style: initial; border-top-width: 0px; color: #0069d6; font-family: Verdana; font-size: 14px; line-height: 21px; margin-bottom: 0px; margin-left: 0px; margin-right: 0px; margin-top: 0px; padding-bottom: 0px; padding-left: 0px; padding-right: 0px; padding-top: 0px; text-align: justify; text-decoration: none;" target="_blank">Dan Jurafsky</a></td></tr>
</tbody></table>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td style="text-align: center;"><a href="http://spark-public.s3.amazonaws.com/nlp/landing/manning.png" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" src="http://spark-public.s3.amazonaws.com/nlp/landing/manning.png" /></a></td></tr>
<tr><td class="tr-caption" style="text-align: center;"><a href="http://nlp.stanford.edu/~manning/" style="background-color: white; border-bottom-width: 0px; border-color: initial; border-left-width: 0px; border-right-width: 0px; border-style: initial; border-top-width: 0px; color: #00438a; font-family: Verdana; font-size: 14px; line-height: 21px; margin-bottom: 0px; margin-left: 0px; margin-right: 0px; margin-top: 0px; outline-color: initial; outline-style: initial; outline-width: 0px; padding-bottom: 0px; padding-left: 0px; padding-right: 0px; padding-top: 0px; text-align: justify;" target="_blank">Christopher Manning</a></td></tr>
</tbody></table>
<div class="separator" style="clear: both; text-align: center;">
<br /></div>
<div dir="rtl" style="text-align: right;">
<br /></div>
</div>Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-5103818966067392012-04-04T11:32:00.001+02:002012-04-04T11:32:39.788+02:00چه موضوعی در زمینه پردازش زبان طبیعی توی بورس هست؟<div dir="ltr" style="text-align: left;" trbidi="on">
<div dir="rtl" style="text-align: right;">
اگر می خواهید در بازار کار همیشه طرفدار داشته باشید، یکی از سوالاتی که همیشه باید از خودتان بپرسید اینه که چه زمینه هائی از پردازش زبان طبیعی الان پرطرفدار هستند. از این پست قصد دارم در مورد هر کدام از مواردی که در زمینه پردازش زبان طبیعی الان پرطرفدار هستند کمی بنویسم.</div>
<div dir="rtl" style="text-align: right;">
این نوشته بیشتر در مورد کاربردهای داده کاوی خواهد بود.</div>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody>
<tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjLLwUUVQZoBhSqNnXZ-_nTRYGw8lglGvXpdWNJHdJY5Wcr2snEkfkU9jkw5xYAvYMb_ZeP8aUbhOQRjb5oSyhTYIdjOwaSi-m5-kFF6AQF-0FyYo3o671AQhHZbemNKBOl89sW/s1600/dm_process.gif" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" height="197" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjLLwUUVQZoBhSqNnXZ-_nTRYGw8lglGvXpdWNJHdJY5Wcr2snEkfkU9jkw5xYAvYMb_ZeP8aUbhOQRjb5oSyhTYIdjOwaSi-m5-kFF6AQF-0FyYo3o671AQhHZbemNKBOl89sW/s320/dm_process.gif" width="320" /></a></td></tr>
<tr><td class="tr-caption" style="text-align: center;">مراحل انجام داده کاوی</td></tr>
</tbody></table>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
بسیار عالی خواهد بود اگر نظر خودتان را در مورد این دسته از نوشته ها در انتهای همین نوشته یا از طریق صفحه تماس با من خبر بدهید.</div>
<div dir="rtl" style="text-align: right;">
</div>
<a name='more'></a><br /><br />
<div dir="rtl" style="text-align: right;">
<b>Social Network Data Mining</b></div>
<div dir="rtl" style="text-align: right;">
از پر طرفدارترین موضوع که پردازش متون شبکه های اجتماعی است شروع میکنم. در حال شرکتهای زیاید علاقه دارند که بتوانند اطلاعاتی را از شبکه های احتماعی استخراج کنند. اسم علمی اینکار داده کاوی (Data mining) به زبان فارسی است. یکی از اطلاعاتی که می توان استخراج کرد در مورد مطالبی است که هر کاربر می نویسد. مثلا اداره پلیس شهر علاقه مند است که بداند چه افرادی در مورد اتفاقاتی که در شهر افتاده یا خواهد افتاد صحبت کرده اند. به این ترتیب می توانند با این داده ها از بروز اتفاقات بعدی جلوگیری کنند (چیزی شبیه داستان گزارش اقلیت تام کروز). در حال حاضر بطور خاض شرکتهایی هستند که مستقیما برای اداره پلیس کار میکنند و هدف آنها جمع آوری اطلاعات در زمینه های جرم و جنایت هست.</div>
<div dir="rtl" style="text-align: right;">
<b>Opinion Mining </b></div>
<div dir="rtl" style="text-align: right;">
یکی دیگر از کاربردهای پردازش متون در شبکه های اجتماعی این است که یک شرکت مثلا بی ام و بداند که مردم در مورد آخرین مدل ماشین آنها چه نظری دارند. یا اینکه مثلا اگر آگهی را بصورت عمومی نمایش داده اند که ویژگیهای مدل جدید ماشنینی را نشان می دهد، نظر مردم چیست. این می تواند به آنها کمک کند که بازاریابی بهتری داشته باشند. گاهی مواردی از نظر مشتریان اهمیت دارد که شاید در اولین نگاه از دید بخش بازاریابی شرکت پنهان بوده باشد. مشابه همینکار می تواند برای نامزدهای انتخابات در کشورهای مختلف استفاده شود. اگر یک کاندید بتواند سریعتر از بقیه بفهمد که مردم در مورد آخرین صحبتهای او چه نظری دارند، می تواند در صورت لزوم سری آنها را تصحیح کند یا اینکه موارد قوت را بیشتر در صحبتهای بعدی مطرح کند. بصورت کلی مواردی مشابه اینرا در گروه پروژه های Opinion mining دسته بندی می کنند. ترجمه فارسی مناسبی برای این واژه سراغ ندارم اما شاید عبارت نظر کاوی درست باشد.</div>
<div dir="rtl" style="text-align: right;">
<br /></div>
<div dir="rtl" style="text-align: right;">
برای طولانی نشدن مطلب بقیه موارد را در یک نوشته دیگر برای شما خواهم نوشت.</div>
</div>Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-8183258267539089082011-06-07T14:25:00.000+02:002012-05-03T10:43:19.611+02:00پایان مهلت استفاده از سرویس ترجمه گوگل در برنامه<div dir="ltr" style="text-align: left;" trbidi="on"><div dir="rtl" style="text-align: right;">گوگل<a href="http://blog.gts-translation.com/2011/05/27/breaking-news-google-to-shut-down-translate-api/"> اعلام کرده </a>که استفاده از ارائه سرویس ترجمه رایگان در برنامه های دیگر را برای سال آینده 2012 ادامه نخواهد داد. یا این ترتیب شرکتهایی که از ترجمه آنلاین گوگل در برنامه هایشان استفاده می کردند دیگر نمی توانند از آن استفاده کنند. حداقل بصورت مجانی نمی توانند.</div><div dir="rtl" style="text-align: right;">این می تونه فرصتی باشه برای بقیه شرکتها که بتونن روی سرویسهای آنلاین ترجمه خودشون کار کنن. در ضمن امکان کسب درآمد را برای بقیه می تونه فراهم کنه. البته باید منتظر ماند و دید که آیا این سرویس بصورت تجاری ارائه میشه یا نه و اگر ارائه میشه به چه قیمتی.</div><div dir="rtl" style="text-align: right;"><br /></div></div>Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-30117338529691191672011-03-28T17:39:00.000+02:002011-03-28T17:39:47.625+02:00فوق لیسانس زبانشناسی در آلمان<div dir="ltr" style="text-align: left;" trbidi="on"><div dir="rtl" style="text-align: right;">اول از همه اینکه شما می توانید آخرن اخبار بورسهای اروپا و آمریکا در زمینه پردازش زبان طبیعی را در گروه زیر پیدا کنید.</div><div dir="rtl" style="text-align: right;"><a href="http://groups.google.com/group/NLP-dilmaj">گروه دیلماج در گوگل</a></div><div dir="rtl" style="text-align: right;"><br />
</div><div dir="rtl" style="text-align: right;">اما اینبار یک بورس کارشناسی ارشد - فوق لیسانس ـ در آلمان برای زیانشناسی رایانه ای</div><div dir="rtl" style="text-align: right;">شروع دوره از سپتامبر ۲۰۱۱ هست و بیشتر برای افرادی که در زمینه زبانشناسی کار کرده اند مناسب است. </div><div dir="rtl" style="text-align: right;"><br />
</div><div style="text-align: left;"> The University of Zurich is pleased to announce an innovative Master's </div><div style="text-align: left;"> degree program in ?Multilingual Text Analysis - Comparative Corpus </div><div style="text-align: left;"> Linguistics?, beginning in September 2011. </div> The Specialized Master in Multilingual Text Analysis is inspired by <br />
comparative Corpus Linguistics. It combines Linguistics in English, <br />
German and the Romance languages with methods and techniques from <br />
Computational Linguistics. <br />
<br />
It has been designed for students who want to complement their interest <br />
in Linguistics with a qualification in Language Technology. It is also <br />
suitable for students of Computational Linguistics who want to gain a <br />
multilingual perspective. Applicants should have a Bachelor degree. <br />
<br />
Comparative Corpus Linguistics is a fast-growing discipline, which is <br />
partly due to the multitude of translated texts that are now available <br />
in digitialised form. The demand for interdisciplinary skills in <br />
languages and computers is increasing, which has created many job <br />
opportunities. Graduates are well qualified for jobs in translation and <br />
terminology departments of international companies which manage <br />
documents in multiple languages, and in the rapidly growing field of <br />
language technology development. <br />
<br />
Online-Application: <br />
<a href="http://www.google.com/url?sa=D&q=http://www.uzh.ch/studies/application/master/apply_en.html" rel="nofollow" target="_blank">http://www.uzh.ch/studies/application/master/apply_en.html</a> <br />
<br />
Application Deadline: April 30, 2011 <br />
<br />
For more information about admissions, tuition, and financial <br />
assistance, please visit the website: <br />
<a href="http://www.google.com/url?sa=D&q=http://www.mlta.uzh.ch" rel="nofollow" target="_blank">http://www.mlta.uzh.ch</a> <br />
<br />
Contact Jeannette Roth, Student Counsellor Multilingual Text Analysis: <br />
m<a href="http://groups.google.com/groups/unlock?_done=/group/NLP-dilmaj/browse_thread/thread/d1e3668da7c73e5&msg=52d6d13ed0a87ed3" target="_parent">...</a>@cl.uzh.ch <br />
<div dir="rtl" style="text-align: right;"></div></div>Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-52347354018137567492011-01-06T13:26:00.000+01:002012-05-03T10:43:19.609+02:00بورس دکترا در زمینه تکنولوژی زبان - دانشگاه های سوئد<div dir="ltr" style="text-align: left;" trbidi="on"><div class="articleComp"><h1>Application for GSLT PhD programmes</h1>Application for PhD programmes in language technology associated with GSLT should be made to the individual institutions involved. We will place information concerning application to the individual institutions on this page as it becomes available.<br /><h3>PhD positions in Gothenburg</h3>The Faculty of Arts at the University of Gothenburg has announced <a href="http://www.hum.gu.se/english/education/doctoral-studies/admission/">30 funded PhD positions</a> for graduate studies in the subjects associated with the faculty (including language technology). Deadline for applications is Jan. 24, 2011. The following two graduate programmes in the faculty are associated with GSLT:<br /><a href="http://www.flov.gu.se/english/education/doctoral-studies-third-cycle/">PhD programme in General Linguistics</a> (<a href="http://www.flov.gu.se/english/education/doctoral-studies-third-cycle/?languageId=100001&contentId=-1&disableRedirect=true&returnUrl=http%3A%2F%2Fwww.flov.gu.se%2Futbildning%2Fforskarniva%2F">Department of Philosophy, Linguistics and Theory of Science</a>)<br /><a href="http://spraakbanken.gu.se/eng/phd-program">PhD programme in Natural Language Processing</a> (<a href="http://www.svenska.gu.se/english/education/doctoral-studies-third-cycle/?languageId=100001&contentId=-1&disableRedirect=true&returnUrl=http%3A%2F%2Fwww.svenska.gu.se%2Futbildning%2Fforskarniva%2F">Department of Swedish</a>)<br /><br /><br />The Graduate School of Language Technology (GSLT) is a national graduate school for which the University of Gothenburg (Faculty of Arts) is the coordinating host. Participating institutions are:<br /><a href="http://www.hb.se/">University College of Borås</a>,<br /><a href="http://www.chalmers.se/">Chalmers University of Technology</a>,<br /><a href="http://www.kth.se/">KTH (Royal Institute of Technology)</a>,<br /><a href="http://www.liu.se/">Linköping University</a>,<br /><a href="http://www.lu.se/">Lund University</a>,<br /><a href="http://www.su.se/">Stockholm University</a>,<br /><a href="http://www.uu.se/">Uppsala University</a><br />Supervision is also available from<br /><a href="http://www.sics.se/">SICS (Swedish Institute of Computer Science)</a>.<br /><br />The school offers a doctoral programme in language technology. One of its main aims is to provide advanced training in the foundations of both speech and natural language processing technologies. <br />GSLT is committed to an international profile and welcomes applications from outside Sweden. To be eligible for application students must have an undergraduate degree in an appropriate related field.</div></div>Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0tag:blogger.com,1999:blog-6112737.post-84678766626829723402010-12-22T12:13:00.000+01:002012-05-03T10:43:19.612+02:00PhD scholarship - Machine Translation, Speech Recognition and NLP - Deadline 9 Jan 2011<div dir="ltr">The ?Human Language Technologies? Research Unit of Bruno Kessler Foundation (FBK)<br> is seeking candidates for three research internship positions in the following areas:<br> <br> - Statistical Machine Translation<br> - Automatic Speech Recognition<br> - Software development for NLP<br> <br> The internship are intended to provide a strong theoretical and experimental background to graduate<br> students interested in applying for a PhD scholarship to start in June 2011.<br> <br> Requirements, salary, and application procedure are specified in<br> <a href="http://risorseumane.fbk.eu/sites/risorseumane.fbk.eu/files/Call%20HLT_INTERNSHIP2011.pdf" target="_blank">http://risorseumane.fbk.eu/sites/risorseumane.fbk.eu/files/Call%20HLT_INTERNSHIP2011.pdf</a><br> <br> Closing date: 9 January 2011</div> Ali Reza Ebadathttp://www.blogger.com/profile/01335297083423745162noreply@blogger.com0