جمعه، تیر ۱۳، ۱۳۹۳
نیمفاصله یا فاصله مجازی در زبان فارسی
اینروزها یکی از کارهای من اینه که بر روی نرمال سازی پیکرههای فارسی کار کنم. بزرگترین مشکلی که دیدهام در مورد استفاده از نیمفاصله یا فاصله مجازی بوده. نمیدانم چرا یک سایتهای خبری یک قانون مشخص در اینمورد ندارن که مثلا اینکه یک سایت اصلا از نیمفاصله استفاده نکنه. وقتی قانون مشخصی نداریم، اینطوری میشه که در یک سایت تمام حالتهای مختلف استفاده و عدم استفاده نیمفاصله برای یک کلمه خاص وجود داره.
شنبه، تیر ۲۲، ۱۳۹۲
دادگان - مرجعی برای تمام داده های زبان فارسی
گروه پژوهشی دادگان در دبیرخانه شورای عالی اطلاع رسانی وب سایتی را برای معرفی تمام داده های موجود زبان فارسی ارائه کرده است. خوبی اینکار این هست که افراد و شرکتهای فعال در زمینه پردازش زبان فارسی می توانند بصورت متمرکز به این اطلاعات دسترسی داشته باشند. اضافه بر اینکه در هر مورد شما می توانید براحتی اطلاعاتی در مورد تولید کننده داده و نحوه تماس با آنها پیدا کنید.
اما چند نکته:
- بیشتر دادگانی که با پشتیبانی دبیرخانه شورای عالی اطلاع رسانی در مراکز پژوهشی انجام شده، فقط قابل استفاده توسط دانشگاههای ایرانی است. ظاهرا در این میان راه حلی برای استفاده تحقیقاتی از این اطلاعات در شرکتهای داخلی یا خارجی در نظر گرفته نشده است.
- در چند مورد من تلاش کردم که اطلاعات بیشتری در مورد داده ها و اینکه چطور می توانم از آنها برای کارهای تحقیقاتی در شرکت استفاده کنم بدست بیاورم که متاسفانه کسی پاسخگو نبود. البته بدیهی بود که وظیفه پاسخگوئی بر عهده دبیرخانه نیست و برای هر داده باید با تولید کننده آن تماس گرفت. اما متاسفانه چند تولید کننده ای که من برای آنها فرمهای خواسته شده را فرستادم و حتی با ایمیل هم پیگیری کردم، جوابی به من ندادند.
با توجه به اینکه تقریبا در تمام مواردی که ایمیل فرستادم، کسی جوابی به من نداد، تصور میکنم این اطلاعات در حقیقت بخشی از قرارداد دبیرخانه برای پشتیبانی مالی پروژه های معرفی شده بوده و مهم نیست که آیا کسی امکان دسترسی به این داده ها را دارد یا نه.
اشتراک در:
پستها (Atom)