文本分析
跳转到导航
跳转到搜索
算法
- Pinyin Parser for MoinMoin - robert yu's wikiperdido, 将
pin1yin1转成pīnyīn的算法(以 Python 编写)
- TF-IDF与余弦相似性的应用(一):自动提取关键词 - 阮一峰的网络日志
- TF-IDF与余弦相似性的应用(二):找出相似文章 - 阮一峰的网络日志
- TF-IDF与余弦相似性的应用(三):自动摘要 - 阮一峰的网络日志
软件
- lang-detect, 使用 Unicode 字符类和三元马尔可夫链进行语种识别。Python 编写。
- cld2 - Compact Language Detector 2,Google Chrome / Chromium 浏览器使用的语种识别库。[1] Python 绑定。
- pinyin.py,汉语转拼音,并没有考虑多音字。Python 编写。
- 结巴分词
- simbase: A vector similarity database, 使用余弦相似性。Java 编写,Redis-like 协议。
- snownlp: 中文自然语言处理,支持分词、词性标注、情感分析、文本分类、转换为拼音/简体、摘取关键词和摘要、文本相似等。Python 2 编写,自带字典。无其它依赖。