GIS 概念數(shù)據(jù)模型的研究

肖樂斌,鐘耳順,劉紀(jì)遠(yuǎn),宋關(guān)福

(1 中國科學(xué)院遙感應(yīng)用研究所 ,北京市安外大屯路甲11號 ,100101)(2 中國科學(xué)院地理信息產(chǎn)業(yè)發(fā)展中心 ,北京市安外大屯路3號 ,100101)(3 中國科學(xué)院地理科學(xué)與資源研究所 ,北京市安外大屯路 3 號 ,100101)

論文來源:《武漢大學(xué)學(xué)報·信息科學(xué)版》 第26卷 第5期

摘要:GIS 概念數(shù)據(jù)模型直接反映了人們對于客觀世界的理解,本文分析和總結(jié)了早期和近期幾種GIS 數(shù)據(jù)模型的特點(diǎn),并對GIS 表達(dá)的地理空間進(jìn)行了重新理解,在此基礎(chǔ)上提出了整體GIS 數(shù)據(jù)模型設(shè)計的幾個要點(diǎn),并給出了一個簡要的整體GIS 數(shù)據(jù)模型。

關(guān)鍵詞: 拓?fù)潢P(guān)系,層,地理空間,整體數(shù)據(jù)模型

  GIS 作為一種信息系統(tǒng) ,是以現(xiàn)實(shí)世界為研究目標(biāo) ,以計算機(jī)內(nèi)部的二進(jìn)制數(shù)字世界作為存儲載體的。它將人們對客觀世界的理解 ,經(jīng)過一系列處理后變成數(shù)字形式存儲在計算機(jī)中。現(xiàn)實(shí)世界極其復(fù)雜 ,一方面人們希望 GIS 包含充足的數(shù)據(jù) ,另一方面又期望從中能方便地選擇所需要的相關(guān)數(shù)據(jù)而撇開其他興趣不大的數(shù)據(jù)[1 ] 。

  這就要求人們以一種高效的數(shù)據(jù)組織方式 , 將兩方面的要求兼顧 ,既盡可能地包含信息(包括對未來潛在有用的信息) ,又能方便快速選取。在這其中 ,人們對于客觀世界的理解及其表達(dá) ——— GIS 的數(shù)據(jù)模型 (概念、邏輯和物理數(shù)據(jù)模型) 起著至關(guān)重要的作用。從現(xiàn)實(shí)世界到計算機(jī)系統(tǒng) , 人們首先要做的是概念數(shù)據(jù)模型的建立。概念數(shù)據(jù)模型反映了人們對現(xiàn)實(shí)世界的認(rèn)知與理解 ,是從現(xiàn)實(shí)世界到人類大腦世界的映射 ,對后期 GIS 的建設(shè)起著先導(dǎo)性作用。概念數(shù)據(jù)模型不依賴于具體的計算機(jī)硬件和軟件 ,是對客觀世界的一種抽象的組織和表達(dá)。

1  兩種典型的 GIS 數(shù)據(jù)模型

  1. 1  拓?fù)潢P(guān)系數(shù)據(jù)模型

  早期的商品化 GIS 軟件大都采用了以“結(jié)點(diǎn) —弧段 —多邊形”拓?fù)潢P(guān)系為基礎(chǔ)的數(shù)據(jù)模型 ,這種數(shù)據(jù)模型稱為拓?fù)潢P(guān)系數(shù)據(jù)模型。在拓?fù)鋽?shù)據(jù)模型的基礎(chǔ)上 ,一些軟件將空間數(shù)據(jù)和屬性數(shù)據(jù)分開存放 ,如 8. 0 版以前的 Arc/ Info 將位置坐標(biāo)數(shù)據(jù)存放在文件系統(tǒng)中 ,而將拓?fù)鋵傩院推渌麑傩源娣旁陉P(guān)系數(shù)據(jù)庫系統(tǒng)的二維表格中 ;另一些軟件將坐標(biāo)數(shù)據(jù)和屬性數(shù)據(jù)統(tǒng)一存放在關(guān)系數(shù)據(jù)庫的各種表格中 ,一條記錄對應(yīng)一個點(diǎn)、線或面類型的幾何要素(不一定為完整獨(dú)立的地理要素) 。

  拓?fù)潢P(guān)系數(shù)據(jù)模型以拓?fù)潢P(guān)系為基礎(chǔ)組織和存儲各個幾何要素 ,其特點(diǎn)是以點(diǎn)、線、面間的拓?fù)溥B接關(guān)系為中心 ,它們的坐標(biāo)存儲具有依賴關(guān)系。如圖 1 所示。該模型的主要優(yōu)點(diǎn)是數(shù)據(jù)結(jié)構(gòu)緊湊、拓?fù)潢P(guān)系明晰、系統(tǒng)中預(yù)先存儲的拓?fù)潢P(guān)系可以有效提高系統(tǒng)在拓?fù)洳樵兒途W(wǎng)絡(luò)分析方面的效率 ,但也有以下不足。

  1) 對單個地理實(shí)體的操作效率不高。由于拓?fù)鋽?shù)據(jù)模型面向的是整個空間區(qū)域 ,強(qiáng)調(diào)的是各幾何要素之間的連接關(guān)系 ,對具有完整、獨(dú)立意義的地理實(shí)體作為個體存在的事實(shí)沒有足夠的重視 ,因此增加、刪除、修改某一地理實(shí)體時 ,將會牽涉到一系列文件和關(guān)系數(shù)據(jù)庫表格 ,這樣不僅使程序管理工作變得復(fù)雜 ,而且會降低系統(tǒng)的執(zhí)行效率。

  2) 難以表達(dá)復(fù)雜的地理實(shí)體。由于拓?fù)潢P(guān)系組織的要求 ,一個完整的簡單實(shí)體在拓?fù)潢P(guān)系模型中有時需要被分解為多個幾何要素。復(fù)雜地理實(shí)體由多個簡單實(shí)體組合而成 ,自然也常常被分解。拓?fù)鋽?shù)據(jù)模型的整體組織特性注定了它不可能有效地表達(dá)這一由多個獨(dú)立實(shí)體構(gòu)成的有機(jī)集合體。

  3) 難以實(shí)現(xiàn)快速查詢和復(fù)雜的空間分析。由于在拓?fù)鋽?shù)據(jù)模型中 ,地理實(shí)體被分解為點(diǎn)、線、面基本幾何要素 ,存儲在不同的文件和關(guān)系表中 ,因而凡涉及到獨(dú)立地理實(shí)體的操作、查詢和分析都將花費(fèi)較多的 CPU 時間 ,在大區(qū)域的復(fù)雜空間分析方面表現(xiàn)尤為明顯。

  4) 局部更新困難 ,系統(tǒng)難以維護(hù)與擴(kuò)充。由于地理空間的數(shù)據(jù)組織和存儲是以基本幾何要素 (點(diǎn)、弧段和多邊形) 為單元進(jìn)行的 ,系統(tǒng)中存儲的復(fù)雜拓?fù)潢P(guān)系是 GIS 工作的數(shù)據(jù)基礎(chǔ) ,當(dāng)局部一些實(shí)體發(fā)生變動時 ,整層拓?fù)潢P(guān)系將不得不隨之重建 ,因而這樣的系統(tǒng)在維護(hù)和擴(kuò)充方面需要更多的精力 ,并且容易出錯。

  1. 2  面向?qū)嶓w的數(shù)據(jù)模型

  這里稱為“面向?qū)嶓w”,是為了強(qiáng)調(diào)這種數(shù)據(jù)模型是以單個空間地理實(shí)體為數(shù)據(jù)組織和存儲的基本單位的。

  與上述拓?fù)淠P拖喾?,該模型以獨(dú)立、完整、具有地理意義的實(shí)體為基本單位對地理空間進(jìn)行表達(dá)。在具體組織和存儲時 ,可將實(shí)體的坐標(biāo)數(shù)據(jù)和屬性數(shù)據(jù)(如建立了部分拓?fù)?,拓?fù)潢P(guān)系也放在表中保存) 分別存放在文件系統(tǒng)和關(guān)系數(shù)據(jù)庫中 ;也可以將二者統(tǒng)一存放在關(guān)系數(shù)據(jù)庫中(可以將坐標(biāo)數(shù)據(jù)和屬性數(shù)據(jù)放在同一個表中 ,也可以將二者分成兩個表。ESRI 公司 SDE 的存儲模式是分成 4 個表格 ,它還增加了一個 Layers 表和一個空間索引表。Layers 表位于服務(wù)器端 ,用于層的管理和維護(hù) ;空間索引表 (服務(wù)器端) 采用網(wǎng)格索引 ,用于實(shí)體的快速搜索) 。

  面向?qū)嶓w的數(shù)據(jù)模型在具體實(shí)現(xiàn)時采用的是完全面向?qū)ο蟮能浖_發(fā)方法 ,每個對象(獨(dú)立的地理實(shí)體) 不僅具有自己獨(dú)立的屬性 (含坐標(biāo)數(shù)據(jù)) ,而且具有自己的行為 (操作) ,能夠自己完成一些操作 ,如圖 2 所示。雖然面向?qū)嶓w的數(shù)據(jù)模型在內(nèi)部組織上可以按照拓?fù)潢P(guān)系進(jìn)行 ,但是作者這里所說的模型強(qiáng)調(diào)對象的坐標(biāo)存儲之間 (尤其是面與線的坐標(biāo)存儲) 不具有依賴關(guān)系 ,這是它與拓?fù)潢P(guān)系模型的本質(zhì)不同。該模型能夠很好地克服拓?fù)潢P(guān)系數(shù)據(jù)模型的幾個缺點(diǎn) ,具有實(shí)體管理、修改方便 ,查詢檢索、空間分析容易的優(yōu)點(diǎn) ,更重要的是它能夠方便地構(gòu)造用戶需要的任何復(fù)雜地理實(shí)體 ,而且這種模式符合人們看待客觀世界的思維習(xí)慣 ,便于用戶理解和接受。同時 ,面向?qū)嶓w的數(shù)據(jù)模型自然地具有系統(tǒng)維護(hù)和擴(kuò)充方便的優(yōu)點(diǎn)。

  這種模型是當(dāng)今流行 GIS 軟件采用的最新數(shù)據(jù)模型 ,但也有如下一些缺點(diǎn)。

  1) 拓?fù)潢P(guān)系需臨時構(gòu)建。由于面向?qū)嶓w的數(shù)據(jù)模型是以地理實(shí)體為中心的 ,并未以拓?fù)潢P(guān)系為基礎(chǔ)組織、存儲地理實(shí)體 ,表達(dá)地理空間 ,因此拓?fù)潢P(guān)系并不是一開始就存在 ,而是在需要時才臨時導(dǎo)出 ,這需要消耗一定的系統(tǒng)資源。

  2) 動態(tài)分段、網(wǎng)絡(luò)分析效率降低。在結(jié)點(diǎn) — 弧段 —多邊形拓?fù)潢P(guān)系鏈中 ,顯式的拓?fù)浔碛?4 個 :結(jié)點(diǎn) —弧段表 ,弧段 —結(jié)點(diǎn)表 ,弧段 —多邊形表和多邊形 —弧段表。有了這 4 個關(guān)系表 ,就能直接查找任意結(jié)點(diǎn)、弧段和多邊形的拓?fù)鋵傩?,便于進(jìn)行動態(tài)分段和網(wǎng)絡(luò)分析等其他與拓?fù)潢P(guān)系有關(guān)的拓?fù)浞治?,基于拓?fù)鋽?shù)據(jù)模型的 GIS 可以很方便地做到這一點(diǎn)。但由于將 4 個拓?fù)浔砣看鎯瓜到y(tǒng)的空間開銷成倍增大 ,因此一些軟件只存儲其中 2 個 (如早期的 System 9 版本) 或?qū)⒒《?—結(jié)點(diǎn)、弧段 —多邊形表合二為一 (Arc/ Info 8. 0 以前版本) ,被隱含的表可由顯示存在的表導(dǎo)出。即便這樣 ,基于拓?fù)鋽?shù)據(jù)模型的 GIS 在涉及拓?fù)潢P(guān)系的查詢和分析上仍然有較高的效率 ,而面向?qū)嶓w的數(shù)據(jù)模型由于要根據(jù)需要臨時構(gòu)建拓?fù)潢P(guān)系 ,自然會使拓?fù)洳樵兒头治龅男式档?。?dāng)然 ,構(gòu)建好的拓?fù)潢P(guān)系可存放起來 ,供以后使用。

  3) 實(shí)體間的公共點(diǎn)和公共邊重復(fù)存儲。由于面向?qū)嶓w的數(shù)據(jù)模型是以地理實(shí)體為基本單位進(jìn)行數(shù)據(jù)組織和空間表達(dá)的 ,對每一個地理實(shí)體都進(jìn)行完整存儲 (存儲到點(diǎn)一級) ,在存儲坐標(biāo)時是各對象獨(dú)立存儲 ,不再依賴其他對象 ,那么就必然會導(dǎo)致實(shí)體間共有的公共點(diǎn)和公共邊重復(fù)存儲。

  4) 難以將管理、分析和處理定位到幾何要素一級。幾何要素是指點(diǎn)、弧段和多邊形等簡單圖形 ,有時構(gòu)成同一實(shí)體的各個幾何要素之屬性差別較大(例如組成一塊宗地的各邊面積不一樣 ,某一交通閉合環(huán)路的組成道路類型不一樣等) ,需要在地理實(shí)體的下一級 ———幾何要素一級上進(jìn)行處理。拓?fù)鋽?shù)據(jù)模型可以直接進(jìn)行處理 ,而面向?qū)嶓w的數(shù)據(jù)模型則需要首先對相關(guān)地理實(shí)體進(jìn)行定位、分解 ,因而降低系統(tǒng)在這方面的性能。從本質(zhì)上分析不難得到 ,由于該種模型認(rèn)為組成同一實(shí)體的幾何要素之屬性相同 ,因而忽略了幾何要素間的屬性差異 ,從而導(dǎo)致在系統(tǒng)存儲和處理機(jī)制上難以定位到幾何要素一級。

  1. 3  兩種模型的共有缺點(diǎn)

  1. 3. 1  兩種模型中的層不能很好地滿足客觀世界的整體特征要求

  早期的 GIS 和現(xiàn)在流行的 GIS 都是將地理特征表達(dá)為帶有分類屬性的幾何對象 ,然后以層 (layer) 為概念組織、存儲、修改和顯示它們 ,分層幾乎成了 GIS 的一個必不可少的基本特征。

  GIS 的分層思想給地理對象的管理帶來了極大的方便 ,在實(shí)際應(yīng)用中已廣為開發(fā)者和使用者接受。但是 ,在真實(shí)的客觀世界中 ,用戶感知到的地理現(xiàn)實(shí)世界是一個個地理實(shí)體 ,如道路、建筑、山和種族移民區(qū)域等 ,而不是數(shù)據(jù)層 ,所設(shè)計的數(shù)據(jù)模型應(yīng)該能直接反映這種感知[2 ] 。分層概念是根據(jù)人們已有的認(rèn)識和經(jīng)驗對客觀世界進(jìn)行硬性分割的 ,也許能夠較好地滿足一時的要求 ,但很難保證未來新的應(yīng)用提出的新要求能得到有效的滿足。因此 ,為一種目的進(jìn)行的分層體系很難滿足另外其他的目的 ,從而使系統(tǒng)的通用性降低。而且分層概念使得本來聯(lián)系緊密的地物分開存儲 ,復(fù)合操作和分析時效率低下。

  總之 , GIS 中的疊置分層概念根據(jù)僵硬的邊界將現(xiàn)實(shí)世界劃分為一系列的覆蓋層 ,這些分類并不能完全充分地反映現(xiàn)實(shí)世界。與照片比較起來 ,其信息損失很明顯[3 ] 。但分層對 GIS 的數(shù)據(jù)組織和信息提取都很有幫助 ,如何解決這一矛盾 , 還需要進(jìn)一步思考 ,下文的整體數(shù)據(jù)模型也將對此討論。

  1. 3. 2  忽視地理實(shí)體之間的語義關(guān)系

  傳統(tǒng) GIS 主要側(cè)重表達(dá)地理特征的幾何成分 ,其語義關(guān)系和內(nèi)部關(guān)系往往被忽視 ,這一缺陷大大影響了 GIS 的空間分析能力[3 ] 。這就使建成的 GIS 成了功能層次較低的空間數(shù)據(jù)存儲和管理系統(tǒng) ,難以進(jìn)行較高層次的空間分析和直接提出決策方案。筆者以為 ,語義關(guān)系的忽視實(shí)際上是對一部分地理現(xiàn)象規(guī)律的忽視。因為 ,所有的地理空間實(shí)體都分布在一定的地理系統(tǒng)中 ,其地理性質(zhì)的相互關(guān)系形成了空間的分布、形式、結(jié)構(gòu)和規(guī)律等方面的內(nèi)涵[4 ] 。所以 ,對于相互關(guān)系 (包括語義關(guān)系) 的忽視自然是對地理本質(zhì)規(guī)律的忽視。另外一點(diǎn)是 ,現(xiàn)實(shí)世界里有一些對象雖然在空間上并不相關(guān) ,但它們在實(shí)際生產(chǎn)和生活中具有很強(qiáng)的聯(lián)系 ,部分是因為人的活動使它們具有了緊密的邏輯聯(lián)系 ,如居民區(qū)與飛機(jī)場、研究所與野外試驗場等。忽視語義關(guān)系會使我們在已有的認(rèn)知水平上對原本為有機(jī)整體的地理世界進(jìn)行僵硬的分割 ,從而導(dǎo)致基于這種認(rèn)識的 GIS 在復(fù)雜的、深層次的空間分析上顯得被動。

  1. 3. 3  傳統(tǒng)數(shù)據(jù)模型不足以表達(dá)一些較特殊的地理現(xiàn)象

  傳統(tǒng)數(shù)據(jù)模型不足以表達(dá)一些較特殊的地理現(xiàn)象 ,模糊對象和不確定對象的表達(dá)沒有得到足夠重視 (傳統(tǒng) GIS 用二值邏輯來處理大多數(shù)問題) ,它用兩種相反的地理數(shù)據(jù)模型來模擬自然現(xiàn)象 :精確的對象模型和連續(xù)的場模型[5 ] ,也有人分別稱它們?yōu)榛趯ο蟮哪P秃突谟虻哪P蚚4 ,6 ] 。精確的對象模型有明確的空間邊界、拓?fù)潢P(guān)系和明確定義的屬性集 ;連續(xù)的場模型被認(rèn)為是連續(xù)的場 ,常常用在時空域連續(xù)變化的光滑數(shù)學(xué)表面來表達(dá)。這兩種模型是對現(xiàn)實(shí)世界的兩種極端抽象。許多研究表明 ,被制成圖的土壤單元的內(nèi)部屬性不一定均一 ,不同的土壤單元之間、地質(zhì)單元之間和植被單元之間常沒有明晰的邊界。也有研究表明 ,被制成圖的連續(xù)的場有時被突然的不連續(xù)中斷[5 ] 。這些都說明 ,傳統(tǒng)的精確對象模型和連續(xù)的場模型在地學(xué)表達(dá)上并不充足 ,從而可能導(dǎo)致信息損失。

2  理解地理空間

  GIS 在模擬空間過程和空間相互作用等空間信息時顯得力不從心 ,最為根本的原因在于 GIS 現(xiàn)有的數(shù)據(jù)模型缺乏對地理空間的真正描述[7 ] 。另外 ,空間分析是 GIS 區(qū)別于其他一切系統(tǒng)的獨(dú)特功能 , GIS 處理的基礎(chǔ)是地理空間。由于“地理空間”概念的理解將直接滲透到 GIS 的數(shù)據(jù)模型和空間分析處理中 ,因此 ,對地理空間的概念有一個較為深入的研究和理解是完全必要的。

  2. 1  地理空間

  筆者認(rèn)為 ,由于地理學(xué)是研究地球表層空間分布規(guī)律的科學(xué) ,因此地理學(xué)的空間是一個定義在地球表層目標(biāo)集上的關(guān)系。在目標(biāo)之間有無數(shù)種關(guān)系 ,物理距離只是這些關(guān)系中的一種度量 ;定義一種關(guān)系就自然定義了一種空間 ,而這個空間又是和幾何關(guān)系聯(lián)系在一起的。并且 ,幾何關(guān)系是所有這些關(guān)系中的基礎(chǔ)關(guān)系。也許正因為如此 ,今天大多數(shù)的 GIS 都強(qiáng)調(diào)空間位置和拓?fù)潢P(guān)系。也就是說 ,地理空間是一個相對空間 ,是一個目標(biāo)組合排列集 (這些目標(biāo)具有精確的空間位置) ,強(qiáng)調(diào)宏觀的空間分布和目標(biāo)間的相關(guān)關(guān)系 (關(guān)系以各單個地理目標(biāo)為聯(lián)結(jié)的結(jié)點(diǎn)或載體) 。拓?fù)潢P(guān)系是其中的一種 ,同時地理空間若想精確定位于地球上 ,還必須承認(rèn)它有歐氏空間基礎(chǔ) ,有相對于地球坐標(biāo)系的絕對位置。這樣 ,通過地理空間和歐氏空間的統(tǒng)一 ,將地理現(xiàn)象的宏觀特性和空間位置的精確特征緊密有機(jī)地聯(lián)系在一起。其中 ,宏觀特性主要體現(xiàn)在地理對象之間的拓?fù)潢P(guān)系與非拓?fù)潢P(guān)系 (通過數(shù)據(jù)模型體現(xiàn)) 上 ,其載體則是具有精確位置、起著聯(lián)結(jié)結(jié)點(diǎn)作用的那些單個地理空間對象 (通過單對象的數(shù)據(jù)結(jié)構(gòu)體現(xiàn)) 。

  2. 2  地理空間的三維特征

  地理空間在本質(zhì)上就是三維的。在過去的幾十年里 ,二維制圖和 GIS 的迅猛發(fā)展和廣泛應(yīng)用使得不同領(lǐng)域的人們大都無意識地接受了將三維現(xiàn)實(shí)世界、地理空間簡化為二維投影的概念數(shù)據(jù)模型。應(yīng)用的深入和實(shí)踐的需要漸漸暴露出二維 GIS 簡化世界和空間的缺陷 ,現(xiàn)在 GIS 的研究人員和開發(fā)者們不得不重新思考地理空間的三維本質(zhì)特征及在三維空間概念數(shù)據(jù)模型下的一系列處理方法。若從三維 GIS 的角度考慮 ,地理空間應(yīng)有如下不同于二維空間的三維特征 :1) 幾何坐標(biāo)上增加了第三維信息 ,即垂向坐標(biāo)信息 ;2) 垂向坐標(biāo)信息的增加導(dǎo)致空間拓?fù)潢P(guān)系的復(fù)雜化 ,其中突出的一點(diǎn)是無論 0D、1D、2D 還是 3D 對象 ,在垂向上都具有復(fù)雜的空間拓?fù)潢P(guān)系 ;如果說二維拓?fù)潢P(guān)系是在平面上呈圓狀發(fā)散伸展的話 ,那么三維拓?fù)潢P(guān)系則是在三維空間中呈球狀向無窮維方向伸展 ;3) 三維地理空間中的三維對象還具有豐富的內(nèi)部信息(如屬性分布、結(jié)構(gòu)形式等) 。

  2. 3  地理空間的多尺度特征與時變特征

  事實(shí)上 ,上面所說的地理空間隱含了一個空間尺度概念。如果 GIS 涉及到的地理空間強(qiáng)調(diào)宏觀的整體結(jié)構(gòu)研究及粗略的拓?fù)潢P(guān)系 ,那么 ,這個隱含的尺度是一個大尺度 ;反之 ,若應(yīng)用目的強(qiáng)調(diào)絕對位置及精確的拓?fù)潢P(guān)系 ,那么這個尺度就是一個小尺度。在地理時間尺度上也是如此。地理空間尺度、范圍、時間尺度、時間范圍均是與具體研究的地理區(qū)域系統(tǒng)的地學(xué)問題有關(guān)。不同的地學(xué)問題有不同的地理空間和地理時間[8 ] 。因此 ,在 GIS 中可能需要兩種坐標(biāo)空間 :一種是位置及拓?fù)湎鄬_的空間 (簡稱精確空間) ;一種是著重關(guān)注宏觀地理現(xiàn)象的粗略的空間 (簡稱粗略空間) ,這意味著作為基礎(chǔ)的精確底層地理數(shù)據(jù)庫應(yīng)該有派生多種比例尺數(shù)據(jù)的能力 ,這樣就為 GIS根據(jù)不同的需要進(jìn)行多尺度分析打下了基礎(chǔ)。

  ......

  閱讀全文請下載PDF