- 相關推薦
空間數據挖掘技術研究分析
摘要:隨著空間數據采集技術的飛速發(fā)展,復雜多樣的空間數據日益膨脹,迫切需要更新數據挖掘的知識和方法。文章從空間數據挖掘的基本概念出發(fā),闡述了空間數據挖掘的類型與過程,介紹了空間數據挖掘在GIS中的應用,分析了當前空問數據挖掘面臨的問題,并對空間數據挖掘技術的發(fā)展進行了展望。
關鍵詞:空間數據挖掘;地理信息系統(tǒng);研究分析
隨著數據采集技術的成熟和普及,大量的空間數據通過遙感、地理信息系統(tǒng)、多媒體系統(tǒng)、醫(yī)學和衛(wèi)星圖像等多種形式匯集成龐大而豐富的信息源。面對龐雜、繁多的數據類型,空間數據挖掘技術應運而生,并在地理信息系統(tǒng)、遙感勘測、圖像處理、交通管理、環(huán)境研究等領域得到廣泛應用。
1 空間數據挖掘研究概述
空間數據挖掘(spatial Data Mining,簡稱SDM),是指從空間數據庫中提取用戶感興趣的空間模式、普遍關系、數據特征的過程?臻g數據挖掘技術綜合數據挖掘技術與空間數據庫技術,可用于對空間數據的理解、空間關系和空間與非空間關系的發(fā)現、空間知識庫的構造以及空間數據庫的重組和查詢的優(yōu)化等,其根本目標是把大量的原始數據轉換成有價值的知識,發(fā)現大量的地學信息中所隱含的規(guī)則。
空間數據挖掘是計算機技術、數據庫應用技術和管理決策支持技術等多學科交叉發(fā)展的新興邊緣學科,一般來說,空間數據挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關聯(lián)規(guī)則四類?臻g分類的目的是在空間數據庫對象的空間屬性和非空間屬性之間發(fā)現分類規(guī)則,是近年來空間數據挖掘領域中比較活躍的一個方向,常用的方法是決策樹。空間聚類是在一個比較大的多維數據集中根據距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法?臻g趨勢分析指離開一個給定的起始對象時非空間屬性的變化情況,例如,當離城市中心越來越遠時經濟形勢的變化趨勢,空間趨勢分析需要使用回歸和相關的分析方法。空間關聯(lián)規(guī)則是指空間鄰接圖中對象之間的關聯(lián),空間關聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對初始空間數據庫進行一次挖掘,然后再在裁剪過的數據庫上用代價高的算法進行進一步精化挖掘。
空間數據挖掘過程一般可分為數據篩選(消除原始數據的噪聲或不一致數據)、數據集成(將多種數據源組合在一起)、數據選擇(根據用戶的要求從空間數據庫中提取與空間數據挖掘相關的數據)、數據變換(將數據統(tǒng)一成適合挖掘的形式)、空間數據挖掘(運用選定的知識發(fā)現算法,從數據中提取用戶所需的知識)、模式評估(根據某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術和知識表示技術,向用戶提供挖掘的知識)等階段(見圖1)?臻g數據挖掘實際上是一個“人引導機器,機器幫助人”的交互理解數據的過程。
2 空間數據挖掘在GIS中的應用
空間數據挖掘技術與地理信息系統(tǒng)(GIS)的結合具有非常廣泛的應用空間。數據挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數據挖掘模式,這種模式基本上將GIS當作一個空間數據庫看待,在G IS環(huán)境外部借助其它軟件或計算機語言進行空間數據挖掘,與GIS之間采用數據通訊的方式聯(lián)系。其二為嵌入式,又稱內部空間數據挖掘模式,即在GIs中將空間數據挖掘技術融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發(fā)的工作量和難度,又可以保持外部空間數據挖掘模式的靈活性。
利用空間數據挖掘技術可以從空間數據庫中發(fā)現如下幾種主要類型的知識:普遍的幾何知識、空間分布規(guī)律、空間關聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向對象的知識。目前,這些知識已比較成熟地應用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運輸、環(huán)境監(jiān)測和保護、110和1 20快速反應系統(tǒng)等資源管理和城市管理領域。在市場分析、企業(yè)客戶關系管理、銀行保險、人口統(tǒng)計、房地產開發(fā)、個人位置服務等領域也正得到廣泛關注與應用,實際上,它正在深入到人們工作和生活的各個方面。
3 空間數據挖掘面臨的問題
(1) 多數空間數據挖掘算法是由一般的數據挖掘算法移植而來,并沒有考慮空間數據存儲、處理及空間數據本身的特點?臻g數據不同于關系數據庫中的數據,它有其特有的空間數據訪問方法,因而傳統(tǒng)的數據挖掘技術往往不能很好地分析復雜的空間現象和空間對象。
(2) 空間數據挖掘算法的效率不高,發(fā)現模式不精練。面對海量的數據庫系統(tǒng),在空間數據挖掘過程中出現不確定性、錯誤模式的可能性和待解決問題的維數都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領域知識發(fā)現、去除與任務無關的數據,有效地降低問題的維數,設計出更有效的知識發(fā)現算法。
(3) 沒有公認的標準化空間數據挖掘查詢語言。數據庫技術飛速發(fā)展的原因之一就是數據庫查詢語言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數據挖掘就必須發(fā)展空間數據挖掘查詢語言。為高效的空間數據挖掘奠定基礎。
(4) 空間數據挖掘知識發(fā)現系統(tǒng)交互性不強,在知識發(fā)現過程中很難充分有效地利用領域專家知識,用戶不能很好掌控空間數據挖掘過程。
(5) 空間數據挖掘方法和任務單一,基本上都是針對某個特定的問題,因而能夠發(fā)現的知識有限。
(6) 空間數據挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識發(fā)現過程中的作用。一個方法和功能單一的空間數據挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開發(fā)的知識系統(tǒng)僅局限于數據庫領域,如果要在更廣闊的領域發(fā)現知識,知識發(fā)現系統(tǒng)就應該是數據庫、知識庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網絡等多項技術集成的系統(tǒng)。
上述問題使得從空間數據庫中提取知識比從傳統(tǒng)的關系數據庫中提取知識更為困難,這給空間數據挖掘研究帶來了挑戰(zhàn)。因此,空間數據挖掘在未來的發(fā)展中,還有很多理論和方法有待深入研究。
4 空間數據挖掘的發(fā)展趨勢
(1)空間數據挖掘算法和技術的研究。空間關聯(lián)規(guī)則挖掘算法、時間序列挖掘技術、空間同位算法、空間分類技術、空間離群算法等是空間數據挖掘研究的熱點,同時提高空間數據挖掘算法的效率也很重要。
(2) 多源空間數據的預處理?臻g數據內容包括數字線劃數據、影像數據、數字高程模型和地物的屬性數據,由于其本身的復雜性與數據采集的困難,空間數據中不可避免地存在著空缺值、噪聲數據及不一致數據,多源空間數據的預處理就顯得格外重要。
(3)其他各種空間數據挖掘及其相關技術研究。如網絡環(huán)境下的空間數據挖掘、可視化數據挖掘、柵格矢量-體化空間數據挖掘、背景知識概念樹的自動生成、基于空間不確定性(位置、屬性、時問等) 的數據挖掘、遞增式數據挖掘、多分辨率及多層次數據挖掘、并行數據挖掘、遙感圖像數據庫的數據挖掘、多媒體空間數據庫的知識發(fā)現等。
5 小結
空間數據挖掘可從大型空間數據庫中提取感興趣和規(guī)律性的知識,可用于理解空間數據、發(fā)現空間數據與非空間數據的關系、建立空間知識庫、優(yōu)化查詢,重組空間數據庫等,空間數據挖掘技術在廣度和深度上的不斷進步, 也將使GIs集成系統(tǒng)朝著智能化、網絡化、全球化與大眾化的方向發(fā)展?梢灶A見,空間數據挖掘不僅會促進空間科學、計算機科學的發(fā)展,而且必將增強人類認識世界、改造世界的能力,從而更好地服務人類社會。
【空間數據挖掘技術研究分析】相關文章:
空間數據挖掘技術煤礦安全管理論文12-02
基于聚類分析的數據挖掘方法03-08
數據挖掘在CRM中的應用分析03-22
基于數據挖掘技術的交叉銷售分析12-08
基于顧客價值的需求,流動網挖掘策略分析01-11
臨床醫(yī)學中數據挖掘技術的運用分析11-29
CAT挖掘機液壓系統(tǒng)發(fā)熱的故障分析12-08