یکی از اولین ابزارهای مورد نیاز پروژههای پردازش زبان طبیعی چند زبانه، تشخیص زبان محتوای داده شده است. روشهای مختلفی برای اینکار میتوان استفاده کرد، که سادهترین آن استفاده از مدل ngram است. در ادامه این نوشته این مدل را توضیح داده و در نهایت یک برنامه پرل (Perl) براي استفاده شما معرفي میكنم.