KsanaCore goes GPL 葉健欣 yapcheahshen@gmail.com 剎那搜尋工坊 http://www.ksana.tw 2007.11.3 COSCUP 2007
使用者角度: 處理資料量大 不限欄位,全文搜尋 技術角度: 回應時間不受限於資料量 關鍵:文字索引 何謂搜尋引擎? 使用者角度: 處理資料量大 不限欄位,全文搜尋 技術角度: 回應時間不受限於資料量 關鍵:文字索引
目前的搜尋引擎 網路上的big player: Google, Yahoo, MSN , 百度... 桌面搜尋: GDS, Yahoo, Microsoft,百度.... 企業搜尋: (知識檢索) 龍捲風, Openfind, IBM OmniFind, 海量 開源: Lucene, htdig
Ksana? 剎那? 剎那:梵語 Ksana 古印度經典中,衡量意念生滅的時間單位。 約為 0.018 秒 剎那搜尋: 1)以迅速的回應時間為目標 2)結合印度與中國的元素
剎那搜尋工坊 1)專注於處理古籍數位化的技術 2) 缺字,動態字形 3) 佛經使用語言處理能力 中、日、韓、英、德、法、梵、巴利 藏、泰、緬等等 4) 大型資料庫處理技術
嵌入式 多國語言,尤其是小眾 開源/商業雙授權 特色:中文處理能力,查全率 剎那的定位 嵌入式 多國語言,尤其是小眾 開源/商業雙授權 特色:中文處理能力,查全率
剎那的研發歷史 Accelon=搜尋引擎+動態組字+介面 1998~2000 第一代 Accelon1 web base 2001~2002 第二代 Accelon2 For PDA 2003~2005 第三代Accelon3 windows 2006~2007 第四代 Ksana Core GPL
技術特色 搜尋速度:1GB以下,平均反應時間小於0.1秒;10GB以下,平均反應小於1秒。 索引速度:每秒約2~4MB,由XML產成《大正藏》和維基中文百科資料庫,各約需五分鐘。(運行條件為2007年,單價兩萬元左右之個人電腦) 支援格式:純文字, XML, Wiki markup, TEI(可自由擴充)。
剎那開源模組 KsanaCore 搜尋核心 KsanaForth Forth 解譯引擎,高階介面 KsanaWeb 嵌入式網頁伺服器 Wiki2HTML 轉換Wiki tag 到網頁
剎那 Web application開發平台 KsanaCore vs Lucene Kdb vs MySQL KsanaForth vs PHP/ASP/Python/Perl/ KsanaWeb vs Apache 搜尋引擎+唯讀資料庫引擎+動態網頁引擎+http 伺服器 : 全部 ~350KB 其他方案:數MB 至數十MB 免設定、免安裝
Windows / Linux/ Mac / OLPC/ UMPC/PDA 光碟資料庫 隨身碟加值,隨插即用。 SD加值 應用平台 Windows / Linux/ Mac / OLPC/ UMPC/PDA 光碟資料庫 隨身碟加值,隨插即用。 SD加值
應用範例 古籍資料:大藏經、四庫、中醫 維基百科: ksana4wiki 古騰堡: ksana4gutenberg Office 文件 : ksana4office PDF : ksana4pdf
下載 Source Code: svn.ksana.tw Wiki&Doc : wiki.ksana.tw pre-built binaries: http://www.ksana.tw/download.html