Presentation is loading. Please wait.

Presentation is loading. Please wait.

KsanaCore goes GPL 葉健欣 剎那搜尋工坊

Similar presentations


Presentation on theme: "KsanaCore goes GPL 葉健欣 剎那搜尋工坊"— Presentation transcript:

1 KsanaCore goes GPL 葉健欣 yapcheahshen@gmail.com 剎那搜尋工坊
COSCUP 2007

2 使用者角度: 處理資料量大 不限欄位,全文搜尋 技術角度: 回應時間不受限於資料量 關鍵:文字索引
何謂搜尋引擎? 使用者角度: 處理資料量大 不限欄位,全文搜尋 技術角度: 回應時間不受限於資料量 關鍵:文字索引

3 目前的搜尋引擎 網路上的big player: Google, Yahoo, MSN , 百度... 桌面搜尋:
GDS, Yahoo, Microsoft,百度.... 企業搜尋: (知識檢索) 龍捲風, Openfind, IBM OmniFind, 海量 開源: Lucene, htdig

4 Ksana? 剎那? 剎那:梵語 Ksana 古印度經典中,衡量意念生滅的時間單位。 約為 0.018 秒 剎那搜尋:
1)以迅速的回應時間為目標 2)結合印度與中國的元素

5 剎那搜尋工坊 1)專注於處理古籍數位化的技術 2) 缺字,動態字形 3) 佛經使用語言處理能力 中、日、韓、英、德、法、梵、巴利
藏、泰、緬等等 4) 大型資料庫處理技術

6 嵌入式 多國語言,尤其是小眾 開源/商業雙授權 特色:中文處理能力,查全率
剎那的定位 嵌入式 多國語言,尤其是小眾 開源/商業雙授權 特色:中文處理能力,查全率

7 剎那的研發歷史 Accelon=搜尋引擎+動態組字+介面 1998~2000 第一代 Accelon1 web base
2001~2002 第二代 Accelon2 For PDA 2003~2005 第三代Accelon3 windows 2006~2007 第四代 Ksana Core GPL

8 技術特色 搜尋速度:1GB以下,平均反應時間小於0.1秒;10GB以下,平均反應小於1秒。
索引速度:每秒約2~4MB,由XML產成《大正藏》和維基中文百科資料庫,各約需五分鐘。(運行條件為2007年,單價兩萬元左右之個人電腦) 支援格式:純文字, XML, Wiki markup, TEI(可自由擴充)。

9 剎那開源模組 KsanaCore 搜尋核心 KsanaForth Forth 解譯引擎,高階介面 KsanaWeb 嵌入式網頁伺服器
Wiki2HTML 轉換Wiki tag 到網頁

10 剎那 Web application開發平台
KsanaCore vs Lucene Kdb vs MySQL KsanaForth vs PHP/ASP/Python/Perl/ KsanaWeb vs Apache 搜尋引擎+唯讀資料庫引擎+動態網頁引擎+http 伺服器 : 全部 ~350KB 其他方案:數MB 至數十MB 免設定、免安裝

11 Windows / Linux/ Mac / OLPC/ UMPC/PDA 光碟資料庫 隨身碟加值,隨插即用。 SD加值
應用平台 Windows / Linux/ Mac / OLPC/ UMPC/PDA 光碟資料庫 隨身碟加值,隨插即用。 SD加值

12 應用範例 古籍資料:大藏經、四庫、中醫 維基百科: ksana4wiki 古騰堡: ksana4gutenberg
Office 文件 : ksana4office PDF : ksana4pdf

13 下載 Source Code: svn.ksana.tw Wiki&Doc : wiki.ksana.tw
pre-built binaries:


Download ppt "KsanaCore goes GPL 葉健欣 剎那搜尋工坊"

Similar presentations


Ads by Google