Когда-то с год назад испытывал свой сегментер фраз китайского на одном тесте сегментеров китайского языка. Не совсем удачно, на первое место не попал. Однако с тех пор этот тест прошли ещё несколько программ. И оказалось, что сегментер DataparkSearch (а этот же алгоритм помимо китайского используется также для корейского и тайского языков) превосходит S-MSRSeg от Microsoft Research Asia, ненамного правда 🙂
ЗЫ: китайского не знаю 🙂
Вау, это нев...но круто. А почему в том тесте нет сегментаторов Байды и Гугла? 🙂
Участие в нём сугубо добровольное 🙂
Может ещё и не знают об этой мерялке...