Как сформулировано в вопросе, я ищу свободный и/или открытый текст-алгоритм сегментации для китайцев, я понимаю, что это очень трудная задача, так как существует множество неоднозначностей. Я знаю, что есть API Google, но это скорее черный ящик, т.е. Не так много информации о том, что он делает, проходя через.
Есть ли какой-либо хороший открытый или свободно доступный китайский алгоритм сегментации?
Ответ 1
Ключевое слово text-segmentation for Chinese
должно быть 中文分词
на китайском языке.
Хороший и активный алгоритм текстовой сегментации с открытым исходным кодом:
- 盘古 分 词 (сегмент Pan Gu):
C#
,Snapshot
- ik-analyzer:
Java
- ICTCLAS:
C/C++, Java, C#
,Demo
- NlpBamboo:
C, PHP, PostgreSQL
- HTTPCWS: на основе
ICTCLAS
,Demo
- mmseg4j:
Java
- fudannlp:
Java
,Demo
- smallseg:
Python, Java
,Demo
- nseg: NodeJS
- mini-segmenter:
python
Другое
Пример
-
Google Chrome (Chromium):
src
,cc_cedict.txt (73,145 Chinese words/pharases)
-
В
text field
илиtextarea
Google Chrome с китайскими предложениями нажмите Ctrl + ← или Ctrl + → -
Double click
on中文分词指的是将一个汉字序列切分成一个一个单独的词
-
Ответ 2
Стенфордский сегмент с использованием CRF-алгоритма.
Это под GPL
Ответ 3
ICU содержит сведения об универсальной сегментации текста - http://userguide.icu-project.org/boundaryanalysis
Ответ 4
Cursory Googling для "текстовой сегментации с китайским открытым исходным кодом" раскрывает эту библиотеку, которая может быть или не быть тем, что вы ищете...:
http://sourceforge.net/projects/ktdictseg/
Результаты намекают на несколько альтернативных мест для поиска библиотеки с открытым исходным кодом:
- Поиск реализации поиска с открытым исходным кодом, которая может работать с китайцами.
- Поиск реализации обнаружения плагиата с открытым исходным кодом, который может быть с китайским.