تعریف
پیکره متنی (corpus) مجموعهای بزرگ و بدون ساختار از متون تولید شده توسط انسان است. از پیکره برای آموزش یا ارزیابی مدلهای پردازش زبان طبیعی استفاده میشود. پیکره میتواند یک زبانه یا چند زبانه باشد. در صورتیکه در پیکره چند زبانه ارتباطی بین جملات زبانهای مختلف تعریف شده باشد، به آن پیکره موازی میگویند که کاربر بیشتر آن در ترجمه ماشینی است.
قبلا در مورد پیکرههای موجود در زبانهای غیر از فارسی نوشتهبودم (حافظه ترجمه، همشهری آنلاین) . در این نوشته قصد دارم دو تا از مهمترین پیکرههای موجود در زبان فارسی را معرفی کنم.
یکی از قدیمیترین پیکرههای زبان فارسی که به همت آقای دکتر بیجنخان و با حمایت مالی سازمانهای مختلف دولتی در دانشگاه تهران تهیه شده است. این پیکره شامل برچسبهای دستوری (Part-Of-Speech tags) برای کلمات نیز است. این پیکره بصورت دستی برچسب زنی شده است و به همین دلیل یکی از دقیقترین پیکرههای موجود برای آموزش یک برچسب زن فارسی است. هرچند بنظر میرسد که در حین انجام برچسبزنی دستی از ابزارهای خودکار برای تسریع کار استفاده شده است که باعث ایجاد برچسبهای نادرست در مواردی شده است.
این پیکره شامل جملات انگلیسی و ترجمه فارسی زیرنویس فیلمهای مختلف هست که در قالب یک پیکره ارائه شده است. گروه پردازش زبان طبیعی دانشگاه تهران و آقای دکتر فیلی گردآورنده این پیکره بودهاند. این پیکره بیشتر برای آموزش یک سیستم ترجمه ماشینی کاربرد دارد.
- اطلاعات بیشتر در مورد پیکره انگلیسی-فارسی دانشگاه تهران
- لینک دانلود پیکره انگلیسی-فارسی دانشگاه تهران
پیکرههای دیگری هم برای زبان فارسی وجود دارند که در نوشتههای بعدی آنها را معرفی خواهم کرد.
هیچ نظری موجود نیست:
ارسال یک نظر