原创作者: QuakeWang   阅读:10735次   评论:6条   更新时间:2011-05-26    
项目名称: Coreseek
发起时间: 2007年7月
网站:http://www.coreseek.com

项目介绍:
为应用提供全文检索功能,目前的版本(2.x 3.x)基于Sphinx 0.9.8,支持使用Python定义数据源,支持中文分词。
为您的应用实施全文检索,您可以:
* 帮助用户找到您业务中,目前通过全网搜索找不到的80%的信息;
* 可以保证自己信息的私密性,这在公司组织中尤其重要;
* 降低服务器的运行负载,提高系统响应速度,从而大幅度降低您的运营成本;
* 为您的需求修改检索结果的展现方式,更好的组织数据;
* 帮助您发现用户提交的敏感文档或广告。

产品信息:
开发语言: C/C++/Python
运行平台: Windows / Linux / FreeBSD
开源协议: GPL

项目成员:
李沫南 系统架构师 北京

是什么促使你们发起/开始这个项目?
搜索的技术不单会改变互联网的生态环境,也会改变软件开发与设计的方方面面,而这些方面的需求,google和百度这样的第三方搜索引擎是无法满足的。全文检索,应该是新一代应用系统的标配功能。

该项目面向哪些使用群体?
需要全文检索功能的应用开发者或网站的站长

您认为有多少人使用这个软件/项目/服务?
大约有30个项目和网站在使用这个软件

您在该项目中遇到的最大挑战是什么?
中文切分的歧义的处理与存储,目前仍未真正意义上解决。
例如,连续剧 创世纪 的切分方式 取决于 上下文, 如为圣经上的章节,应为 创世/v 纪/nv ; 如为剧集的名称,应为 创/v 世纪/nz

您对该项目有哪些期望?
希望我的软件运行在中国每个网站的后面,为浏览者提供服务。

如果您能对项目进行修改,您会改善哪些地方?
1、我们目前在设计新的中文粗切分方法,将集成NER与词性标注;如果有机会,将改进切分性能(CUDA maybe)。
2、索引器应该能够接受一句话有多种切分方案,以及多级索引
3、正向索引、文本聚类

你们一般花多长时间在这个项目上?
大约10小时/周

你们用的开发环境是什么
OS: Windows/FreeBSD
IDE: VC 2005 Express/GCC

项目里程碑
07.07 v1.0 支持Python 作为数据源,闭源软件
08.04 v2.0 改为基于Sphinx + LibMMseg ,支持Python数据源 GPL
08.08 v3.0b2 基于Sphinx 0.9.8 支持基于词典

其他人如何给你们提供建议?
论坛 http://www.coreseek.com/forum/
评论 共 6 条 请登录后发表评论
6 楼 chaos.wql 2011-08-12 13:57
GPL ,直接毙了
5 楼 hanwangabc 2011-08-07 22:49
我可以加入参与开发吗
4 楼 Clayz 2009-08-12 09:16
正在找python写的全文检索引擎.研究下先~~
3 楼 流星阿勇 2009-07-29 19:37
能否在java中用吗?怎么用,有demo吗?
2 楼 wqshren 2009-07-21 13:02
看着就挺厉害的!
1 楼 zhoden 2009-07-21 08:20
很好,很强大!

发表评论

您还没有登录,请您登录后再发表评论

文章信息

Global site tag (gtag.js) - Google Analytics