全球的數位資料有八成是在近年兩年被產生,這些資料形形色色,不若資料庫中的表格資料有統一且嚴謹的描述格式,如何儲存與日遽增的資料並從中挖掘感興趣的資訊便成為一個重要的課題。
本技術提供了一個可擴增的儲存體(scalable storage)得用以儲存龐大的資料量,該儲存體提供索引機制讓使用者能從中挖掘出感興趣的資訊。此系統有底下特色:
- 經濟(cost-effectiveness):此系統能被構建在任意的commodity伺服器之上或在虛擬機(virtual machines)環境下運行。
- 高可調式(high scalability):使用者得動態新增系伺服器至統裡裡,隨著伺服器增加,系統儲存空間與執行效率亦相對提升。
- 高可用性(high reliability and availability):支援高可用性,即使系統內部分伺服器毀損,系統仍能提供正常的運作並保證資料不遺失。
- 支援多用戶(multi-tenancy):相異使用者能自行管理儲存文件並對自己的文件進行檢索與搜尋。
- 網頁操作介面(web interface):透過網際網路使用者能遠端操作其儲存體。
- 支援pdf檔案資料格式。
- Hadoop體系:整合Hadoop MapReduce並支援資料分析應用之開發。
|