پردازش زبان‌طبیعی: پیکره‌های فارسی

چهارشنبه، تیر ۲۵، ۱۳۹۳

پیکره‌های فارسی

تعریف

پیکره متنی (corpus) مجموعه‌ای بزرگ و بدون ساختار از متون تولید شده توسط انسان است. از پیکره برای آموزش یا ارزیابی مدلهای پردازش زبان طبیعی استفاده می‌شود. پیکره می‌تواند یک زبانه یا چند زبانه باشد. در صورتیکه در پیکره چند زبانه ارتباطی بین جملات زبانهای مختلف تعریف شده باشد، به آن پیکره موازی می‌گویند که کاربر بیشتر آن در ترجمه ماشینی است.

قبلا در مورد پیکره‌های موجود در زبانهای غیر از فارسی نوشته‌بودم (حافظه ترجمه، همشهری‌ آن‌لاین) . در این نوشته قصد دارم دو تا از مهمترین پیکره‌های موجود در زبان فارسی را معرفی کنم.

پیکره بی‌جن‌خان

یکی از قدیمی‌ترین پیکره‌های زبان فارسی که به همت آقای دکتر بی‌جن‌خان و با حمایت مالی سازمانهای مختلف دولتی در دانشگاه تهران تهیه شده است. این پیکره شامل برچسب‌های دستوری (Part-Of-Speech tags) برای کلمات نیز است. این پیکره بصورت دستی برچسب زنی شده است و به همین دلیل یکی از دقیق‌ترین پیکره‌های موجود برای آموزش یک برچسب زن فارسی است. هرچند بنظر می‌رسد که در حین انجام برچسب‌زنی دستی از ابزارهای خودکار برای تسریع کار استفاده شده است که باعث ایجاد برچسب‌های نادرست در مواردی شده است.

لینک پیکره بی‌جن‌خان در سایت دادگان

پیکره موازی انگلیسی-فارسی دانشگاه تهران (TEP corpus)

این پیکره شامل جملات انگلیسی و ترجمه فارسی زیر‌نویس فیلمهای مختلف هست که در قالب یک پیکره ارائه شده‌ است. گروه پردازش زبان طبیعی دانشگاه تهران و آقای دکتر فیلی گردآورنده این پیکره بوده‌اند. این پیکره بیشتر برای آموزش یک سیستم ترجمه ماشینی کاربرد دارد.

پیکره‌های دیگری هم برای زبان فارسی وجود دارند که در نوشته‌های بعدی آنها را معرفی خواهم کرد.

هیچ نظری موجود نیست:

ارسال یک نظر

صفحات

چهارشنبه، تیر ۲۵، ۱۳۹۳

پیکره‌های فارسی

هیچ نظری موجود نیست: