关系代数表达式 分类(传统和专门,各由哪些

滴的形近字还有哪些?_百度知道
滴的形近字还有哪些?
我有更好的答案
参考答案:滴(水滴)摘(摘要)嘀(嘀咕)漓(淋漓)
采纳率:94%
来自团队:
为您推荐:
其他类似问题
您可能关注的内容
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。扫一扫下载手机客户端
扫描我,关注团购信息,享更多优惠
||网络安全
| | | | | | | | | | | | | | | |
||电子电工
汽车交通| | | | | | | | | |
||投资理财
| | | | | | | | | | | | | | | | |
| | | | | | |
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
||外语考试
| | | | | | | | |
| 视频教程|
数据库系统概念(原书第6版.本科教学版)
定价:¥59.00
校园优惠价:¥41.30 (70折)
促销活动:
商品已成功飞到您的手机啦!快登录手机站看看吧!
下载客户端
> 微信关注“互动出版网”,便捷查询订单,更多惊喜天天有
原书名:Database System Concepts,Sixth Edition
原出版社:
ISBN:1上架时间:出版日期:2013 年1月开本:16开页码:435版次:1-1
所属分类:
《数据库系统概念》是数据库系统方面的经典教材之一,本书基于该书第6版进行改编,保留了其中的基本内容,压缩或删除了一些高级内容,使其体系更加符合国内教学情况。本书的前9章讲述数据库系统的基本概念,第10至12章介绍数据库系统实现的核心技术,第13至16章介绍数据仓库和数据挖掘、新型的数据库系统――基于对象的数据库和XML数据库,以及与高级应用开发相关的性能调整、性能基准程序、标准化等内容。
《数据库系统概念(原书第6版.本科教学版)》既可作为高等院校相关专业本科生的数据库课程教材,也可供数据库领域的技术人员参考。
Abraham Silberschatz 于纽约州立大学石溪分校获得博士学位,现为耶鲁大学计算机科学Sidney J. Weinberg教授,计算机科学系主任,曾任贝尔实验室信息科学研究中心副主任。他是ACM Fellow 和 IEEE Fellow,曾获得IEEE Taylor L. Booth 教育奖、 ACM Karl V. Karlstrom 杰出教育者奖、ACM SIGMOD 贡献奖和IEEE 计算机学会杰出论文奖。他的研究兴趣包括操作系统、数据库系统、存储系统、网络管理和分布式系统。
Henry F. Korth 于普林斯顿大学获得博士学位,现为利哈伊大学计算机科学与工程系Weiseman教授,曾任贝尔实验室数据库原理研究中心主任。他是ACM Fellow 和 IEEE Fellow,是VLDB 10年贡献奖的获得者。他的研究兴趣包括为现代计算架构(多核、多线程、多级缓存)设计的数据库算法、基于Web的大型数据仓储、实时数据库系统和并行系统。
S. Sudarshan 于威斯康星大学麦迪逊分校获得博士学位,现为印度理工学院计算机科学与工程系教授,曾为贝尔实验室数据库研究组技术人员。他的研究兴趣包括查询处理和优化、关系数据和图结构数据的关键字查询,以及构建和测试数据库应用系统的工具。
杨冬青 1969年毕业于北京大学数学力学系数学专业,现任北京大学信息科学技术学院教授,博士生导师,中国计算机学会数据库专委会委员。多年来承担并完成973、863、国家科技攻关、国家自然科学基金等多项国家重点科研项目,曾获国家科技进步二等奖、三等奖和多项省部级奖励,在国内外杂志及会议上发表论文百余篇,著译作十余部。目前主要研究方向为数据库系统实现技术、Web环境下的信息集成与共享、数据仓库和数据挖掘等。
李红燕 1999年毕业于西北工业大学计算机科学与工程系计算机应用专业,获工学博士学位,现任北京大学信息科学技术学院教授,博士生导师,中国计算机学会数据库专委会委员。多年来承担并完成多项国家自然科学基金课题以及医疗、移动通信等典型应用领域内的应用研究项目,在国内外学术期刊及会议上发表论文90余篇,出版学术专著和教材各1部。目前主要研究方向为数据库系统与智能信息系统、数据仓库与数据挖掘、业务流程控制、云数据管理等。
唐世渭 1964年毕业于北京大学数学力学系计算数学专业,毕业后留校任教至今,现为北京大学信息科学技术学院教授,博士生导师,中国计算机学会数据库专委会委员,中国软件行业协会数据库及应用软件分会理事长。多年来承担并完成973、863、国家科技攻关、国家自然科学基金等多项国家重点科研项目,曾获国家科技进步二等奖、三等奖各1项,省部级科技进步奖多项,在国内外杂志及会议上发表论文百余篇,著译作多部。目前主要研究方向为数据库系统、数据仓库和数据挖掘、Web环境下的信息集成与共享、典型应用领域的信息系统等。
杨冬青、李红燕、唐世渭组织并参加了本书第6版的翻译和审校工作,参加翻译工作的还有范红杰、程序、苗高杉、邹淼、陈巍、王婧、王林青、孟必平。
《数据库系统概念(原书第6版.本科教学版)》
出版者的话
1.1数据库系统的应用
1.2数据库系统的目标
1.3数据视图
1.3.1数据抽象
1.3.2实例和模式
1.3.3数据模型
1.4数据库语言
1.4.1数据操纵语言
1.4.2数据定义语言
1.5关系数据库
1.5.2数据操纵语言
1.5.3数据定义语言
  数据库管理已经从一种专门的计算机应用发展为现代计算环境中的一个重要成分,因此,有关数据库系统的知识已成为计算机科学教育中的一个核心部分。
  本书改编自《数据库系统概念》第6版,适合作为本科生三年级或四年级数据库入门课程的教科书。在本书中,讲述数据库管理的基本概念,这些概念包括数据库设计、数据库语言、数据库系统实现等多个方面。除了这些作为入门课程的基本内容外,本书还包括了可作为课程补充或作为高级课程介绍性材料的高级内容。
  我们仅要求读者熟悉基本的数据结构、计算机组织结构和一种高级程序设计语言,例如Java、C或Pascal。书中的概念都以直观的方式加以描述,其中的许多概念都基于我们大学运行的例子加以阐释。本书中包括重要的理论结果,但省略了形式化证明,取而代之的是用图表和例子来说明为什么结论是正确的。对于形式化描述和研究结果的证明,读者可以参考文献注解中列出的研究论文和高级教材。
  本书中所包括的基本概念和算法通常是基于当今的商品化或试验性的数据库系统中采用的概念和算法。我们的目标是在一个通常环境下描述这些概念和算法,而没有与某个特定的数据库系统绑定。
  在这本《数据库系统概念》第6版的改编版本中,我们保留了原书的基本内容,压缩或删除了一些高级内容,其目的是使得本改编版本更适合本科生的数据库入门课程使用。下面我们简单描述本书内容的组织。
  本书的组织
  本书组织成四个主要部分:
  综述(第1章)。第1章对数据库系统的性质和目标进行了一般性综述。我们解释了数据库系统的概念是如何发展的,各数据库系统的共同特性是什么,数据库系统能为用户做什么,以及数据库系统如何与操作系统交互。我们还引入了一个数据库应用的例子:包括多个系、教员、学生和课程的一个大学机构。这个应用作为贯穿全书的运行实例。这一章本质上是诱导性、历史性和解释性的。
  第一部分:关系数据库(第2章至第6章)。第2章介绍了数据的关系模型,包括基本概念,诸如关系数据库的结构、数据库模式、码、模式图、关系查询语言和关系操作等。第3~5章主要介绍最具影响力的面向用户的关系语言――SQL。第6章介绍形式化的关系查询语言,包括关系代数、元组关系演算和域关系演算。
  这部分描述了数据操纵,包括查询、修改、插入和删除(假设已有一个模式设计)。关于模式设计的问题延迟到第二部分讲述。
  第二部分:数据库设计(第7章至第9章)。第7章给出了数据库设计过程的概要介绍,主要侧重于用实体-联系数据模型来进行数据库设计。实体-联系模型为数据库设计问题,以及我们在数据模型的约束下捕获现实应用的语义时所遇到的问题提供了一个高层视图。UML类图表示也在这一章中讲述。
  第8章介绍关系数据库设计理论。这一章讲述了函数依赖和规范化,重点强调提出各种范式的动机,以及它们的直观含义。这一章以关系设计的概览开始,依赖于对函数依赖的逻辑蕴涵的直观理解。这使得规范化的概念可以在函数依赖理论的完整内容之前先作介绍。函数依赖理论将在本章中稍后部分讨论。教师可以只选用81节至83节这些较前面的章节,而不会丢失连贯性。不过,完整地讲授这一章将有利于学生较好地理解规范化概念,从而诱导出函数依赖理论中一些较艰深的概念。
  第9章讲述应用设计和开发。这一章侧重于用基于Web的界面构建数据库应用。另外,这一章还讲述了应用安全性。
  第三部分:数据存储、查询和事务管理(第10章至第12章)。第10章简单介绍物理存储介质,描述记录是如何映射到文件,然后又如何映射到磁盘中的比特的,并讲解数据库系统使用的几种索引类型。第11章描述如何处理查询,给出用于实现单独操作的算法,并描述查询优化过程。第12章详细阐述事务的概念,包括事务的原子性、一致性、隔离性和持久性,还介绍了几种实现隔离性的并发控制技术,并描述了数据库恢复管理部件(它实现了数据库的原子性与持久性)。
  第四部分:高级话题(第13章至第16章)。第13章介绍数据仓库和数据挖掘的概念和主要方法。第14章介绍基于对象的数据库,讲述对象-关系数据模型,还描述了用面向对象的编程语言来访问数据库。第15章介绍数据表示的XML标准(它正日益广泛地应用于复杂数据交换和存储),还描述了XML的查询语言。第16章讨论与高级应用开发相关的性能调整、性能基准程序、标准化等内容。
  我们保持《数据库系统概念》第6版的做法,把习题划分成两部分:实践习题(practice exercise)和习题(exercise)。实践习题的解答在《数据库系统概念》第6版的配套网站(wwwdbbookcom)可以得到。我们鼓励学生独立解决这些实践习题,然后用网站上的解答来检查自己的答案。其他习题的解答只有授课教师能得到(参看下面的“配套网站和教学补充材料”以获取如何得到解答的信息)。
  授课教师注意事项
  本书包括基本内容和高级内容,在一个学期内也许不能讲授所有这些内容。
  本书的前12章是最基本的内容,对于入门性课程来说,教师可以选择重点讲授前12章,并介绍第13至16章中的部分内容。
  配套网站和教学补充材料
  数据库系统是对数据进行存储、管理、处理和维护的软件系统,是现代计算环境中的一个核心成分。随着计算机硬件、软件技术的飞速发展和计算机系统在各行各业的广泛应用,数据库技术的发展尤其迅速,引人注目。有关数据库系统的理论和技术是计算机科学技术教育中必不可少的部分。《数据库系统概念》是一本经典的、备受赞扬的数据库系统教科书,其内容由浅入深,既包含数据库系统的基本概念,又反映数据库技术新进展。本书被国际上许多著名大学采用,并多次再版。
  我们先后将本书的第3版、第4版、第5版和第6版译成中文,由机械工业出版社分别于2000年、2003年、2006年和2012年出版发行。国内许多大学采用《数据库系统概念》作为本科生和研究生数据库课程的教材或主要教学参考书,收到了良好的效果。
  我们基于《数据库系统概念》第5版进行了改编,保留其中的基本内容,压缩或删除了一些高级内容,形成了该书的本科教学版,其目的是使它更适合本科生的数据库课程使用。该本科教学版由机械工业出版社于2008年出版发行,被国内许多高校采用作为本科生数据库课程的教材或主要教学参考书。
  现在我们又基于《数据库系统概念》第6版进行了本科教学版的改编工作,希望它能够成为一本效果更好、更实用的本科生数据库课程的教材。
  本书的前9章是最基本的内容,讲述数据库系统的基本概念,包括对数据库系统的性质和目标的综述,对关系数据模型和关系语言的介绍,对数据库设计过程、关系数据库理论以及数据库应用设计和开发的详细讨论。第10至12章介绍了数据库系统实现的核心技术,包括数据存储管理、查询处理和事务管理。第13至16章是高级话题,介绍了数据仓库和数据挖掘,新型的数据库系统――基于对象的数据库和XML数据库,以及与高级应用开发相关的性能调整、性能基准程序、标准化等内容。
  本书可作为大学本科数据库概论课程的教材或主要参考资料,教师可以选择重点讲授前12章,并介绍第13至16章中的部分内容。
  限于改编者水平,改编中疏漏和错误在所难免,欢迎批评指正。
  杨冬青
  2012年10月于北京大学
  Database System Concepts,6E
  数据库系统(DataBase System, DBS)由一个互相关联的数据的集合和一组用以访问这些数据的程序组成。这个数据集合通常称作数据库(database),其中包含了关于某个企业的信息。DBS的主要目标是提供一种可以方便、高效地存取数据库信息的途径。
  设计数据库系统的目的是为了管理大量信息。对数据的管理既涉及信息存储结构的定义,又涉及信息操作机制的提供。此外,数据库系统还必须提供所存储信息的安全性保证,即使在系统崩溃或有人企图越权访问时也应保障信息的安全性。如果数据将被多用户共享,那么系统还必须设法避免可能产生的异常结果。
  在大多数组织中信息是非常重要的,因而计算机科学家开发了大量的用于有效管理数据的概念和技术。这些概念和技术正是本书所关注的。在这一章里,我们将简要介绍数据库系统的基本原理。
  1.1数据库系统的应用
  数据库的应用非常广泛,以下是一些具有代表性的应用:
  企业信息
  销售:用于存储客户、产品和购买信息。
  会计:用于存储付款、收据、账户余额、资产和其他会计信息。
  人力资源:用于存储雇员p工资p所得税和津贴的信息,以及产生工资单。
  生产制造:用于管理供应链,跟踪工厂中产品的生产情况、仓库和商店中产品的详细清单以及产品的订单。
  联机零售:用于存储以上所述的销售数据,以及实时的订单跟踪,推荐品清单的生成,还有实时的产品评估的维护。
  银行和金融
  银行业:用于存储客户信息、账户、贷款,以及银行的交易记录。
  信用卡交易:用于记录信用卡消费的情况和产生每月清单。
  金融业:用于存储股票、债券等金融票据的持有、出售和买入的信息;也可用于存储实时的市场数据,以便客户能够进行联机交易,公司能够进行自动交易。
  大学:用于存储学生信息p课程注册和成绩。(此外,还存储通常的单位信息,例如人力资源和会计信息等。)
  航空业:用于存储订票和航班的信息。航空业是最先以地理上分布的方式使用数据库的行业之一。
系列图书推荐 ¥59.00¥41.30
同类热销商品¥35.00¥22.75
订单处理配送
北京奥维博世图书发行有限公司 china-pub,All Rights Reserved空间数据库_学霸学习网
空间数据库
空 间 数 据 库郭际元 周顺平 刘修国 编著中国地质大学(武汉)信息工程学院1 前言空间数据库(地图数据库)是地理信息系统的重要组成部分, 因为地图是地理信息系统的主要载体。 地理信息系统是一种以地 图为基础,供资源、环境以及区域调查、规划、管理和决策用的 空间信息系统。在数据获取过程中,空间数据库用于存贮和管理 地图信息;在数据处理系统中,它既是资料的提供者,也可以是 处理结果的归宿处;在检索和输出过程中,它是形成绘图文件或 各类地理数据的数据源。然而,地理与地图数据以其惊人的数据 量与空间相关的复杂性, 使得通用的数据库系统难以胜任。 为此, 就要用当代的系统方法,在地理学、地图学原理的指导下,对地 理环境进行科学的认识与抽象, 将地理数据库化为计算机处理时 所需的形式与结构,形成综合性的信息系统。 目前,已形成商品的 GIS 系统中,多数是基于二维地图数 据上进行存储、处理和分析。随着 GIS 应用领域的不断扩大,应 用功能的不断增强,系统对空间数据的要求也越来越高。因此, 传统 GIS 中空间数据库的管理能力已不能满足当前 GIS 对空间 数据管理的需要。现今,GIS 业内人士在空间数据库的研究上正 在进行新的探索和尝试, 以求得能满足 GIS 各种需要的空间数据 的管理模式和数据模型。例如,三维空间数据模型、时态 GIS 空间数据模型、 空间数据关系化模型、 网络 GIS 空间数据模型等。 本教材主要是围绕 GIS 系统中各种空间数据的管理模式和 数据模型予以介绍, 其中包括传统 GIS 系统中用到的各种数据模 型,例如矢量数据模型、栅格数据模型、符号库、海量空间数据2 的管理等; 同时也对上述的 GIS 专业人员正在研究的一些新的数 据模型进行了叙述;教材中还融入了我院近年的部分科研成果。 通过本教材的学习, 读者既可以掌握已成熟的空间数据库的管理 模式和数据模型, 也可以了解当前空间数据库的最新动态和发展 趋势。 本教材是在 2001 年编写的《空间数据库》讲义的基础上, 经过三年的教学实践,在广泛征求意见的前提下,进行第三次修 编的。 在教材的编写过程中, 始终得到吴信才教授的关心和指导, 并为本教材编写的指导思想和内容组织提出建议; 谢忠教授也为 本教材提出了修改意见,在这里向他们表示感谢。由于本书的很 多内容正处于研究探索之中,再加上我们水平有限,编写时间仓 促,所以书中错误在所难免,欢迎同行专家和读者批评指正。作 者 2004 年 5 月 12 日3 目第一章 § 1.1 § 1.2 § 1.3 § 1.4 § 1.5 第二章 § 2.1 § 2.2 §2.3 第三章 § 3.1 §3 . 2 § 3.3 § 3.4录数据库概述……………………………………1 数据库的概念………………………………………… 1 数据模型……………………………………………… 3 数据库设计的三个步骤……………………………… 17 新型数据库系统……………………………………… 26 空间数据挖掘技术及应用…………………………… 41 矢量地图数据库………………………………………50 地图数据模型总论…………………………………… 50 矢量数据模型………………………………………… 57 空间索引…………………………………………63 栅格地图数据库………………………………………88 栅格数据的基本概念………………………………… 88 栅格数据的组织与存储………………………………89 栅格数据库的检索…………………………………… 99 海量影像数据库…………………………………… 101习题……………………………………………………49习 题 … … … … … … … …… … … … … … … … … …… … … … 8 7习题………………………………………………………… 103 第四章 地图符号库 ………………………………………… 104 § 4.1 § 4.2 § 4.3 第五章 § 5.14地图符号库概述…………………………………… 104 地图符号数据结构………………………………… 107 地图符号的显示…………………………………… 109 三维空间数据模型 ………………………………… 115 空间维数讨论……………………………………… 115习题………………………………………………………… 114 § 5.2 § 5.3 § 5.4 § 5.5 § 5.6 第六章 § 6.1 § 6.2 § 6.3 第七章 § 7.1 §7.2 §7.3 § 7.4 第八章 § 8.1 § 8.2 § 8.3 § 8.4空间构模技术分类………………………………… 117 基于面模型的准 3D 空间构模………………… 118 基于体模型的真 3D 空间构模………………… 120 基于面 - 体混合的 3D 空间构模………………… 138 三维空间拓扑关系……………………………… 141 海量空间数据组织与管理 ………………………… 146 数据库中图幅的组织方法………………………… 147 图幅间被分割目标的组织方法…………………… 147 跨图幅地图漫游…………………………………… 149 时态 GIS 数据库 ………………………………… 154 地理信息的时态性分析…………………………… 154 时态 GIS 数据模型…………………………………156 时态 GIS 实现方法…………………………………158 元组级基态修正法………………………………… 161 空间数据的关系化管理 …………………………… 165 基于关系数据库的空间数据模型………………… 165 基于关系数据库的空间实体数据结构…………… 167 空间数据访问模型………………………………… 169 关系化空间数据的安全管理……………………… 170 ……………………………………………………… 172习题………………………………………………………… 145习题………………………………………………………… 152习题………………………………………………………… 164§8.5 大型关系型数据库管理系统分布式体系结构的应用 习题………………………………………………………… 173 第九章 §9.1 网络 GIS 空间数据管理……………………………174 网络 GIS 主要构造模型……………………………1755 § 9.2 § 9.3 §9.4分布式地理信息共享形式………………………… 183 分布式空间数据管理技术………………………… 188 网络 GIS 中地理空间元数据管理…………………194习题…………………………………………………………… 204 参考文献 ……………………………………………………… 2056 第一章 数据库概述§1.1 数据库的概念数据库的英文是 DATA BASE,其意义为数据基地,即统一 存贮和集中管理数据的基地。这有些类似资料库,实际上资料库 的许多特征都可以从数据库中找到。在资料库中,各类资料都有 严格的分类系统和编码表,并存放在规定的资料架上,为管理和 查找资料提供了极大的方便。当资料的数据形式存放于计算机 时,它已经失去直观性,更需要建立严密的分类和编码系统,实 现数据的标准化和规范化。一、数据管理的文件方式数据库系统是运用计算机技术管理数据的最新成就, 在这之 前,计算机数据管理经历了文件管理方式时期,亦称为文件管理 系统,它包含在计算机的操作系统中。文件方式是把数据的存取 抽象为一种模型: 使用时只要给出文件名称、 格式和存取方式等, 其余的一切组织与存取过程由专用软件――文件管理系统来完 成(见图 1-1-1)。应用程序 P1 P2 ┆ Pn 图 1-1-1 文件管理系统 FMS 文件管理系统 数据文件 F1 F2 ┆ Fn7 文件管理系统的特点是: 1.数据文件是大量数据的集合形式。每个文件包含有大量 的记录,每个记录包含若干个甚至多达几十个以上的数据项。文 件和文件名面向用户并存贮在计算机的贮存设备上, 可以反复利 用。 2.面向用户的数据文件,用户可通过它进行查询、修改、 插入、删除等操作。 3.数据文件与对应的程序具有一定的独立性,即程序员可 以不关心数据的物理存贮状态,只需考虑数据的逻辑存贮结构, 从而可以大量地节省修改和维护程序的工作量。 4.数据文件的缺点是只能对应于一个或几个应用程序,不 能摆脱程序的依赖性。数据文件之间不能建立关系,呈现出无结 构的信息集合状态,往往冗余度大,不易扩充,维护和修改。二、数据库系统管理数据方式数据库管理系统(DBMS)是在文件管理系统的基础上进一步 发展的系统。 DBMS 在用户应用程序和数据文件之间起到了桥梁 作用。 DBMS 的最大优点是提供了两者之间的数据独立性。 即应 用程序访问数据文件时,不必知道数据文件的物理存贮结构。当 数据文件的存贮结构改变时,不必改变应用程序(见图 1-1-2) 。 数据库管理系统的特点可概括如下: 1.数据管理方式建立在复杂的数据结构设计的基础上,将 相互关联的数据集一文件并赋于某种固有的内在联系。 各个相关 文件可以通过公共数据项联系起来。 2.数据库中的数据完全独立,不仅是物理状态的独立,而 且是逻辑结构的独立,即程序访问的数据只需提供数据项名称。 3.数据共享成为现实,数据库系统的并发功能保证了多个用 户可以同时使用同一个数据文件,而且数据处于安全保护状态。 4.数据的完整性,有效性和相容性保证其冗余度最小,有8 利于数据的快速查询和维护。应用程序 的逻辑文件 局部 逻辑观点 数据库管理员的 全面逻辑数据描述 全局 逻辑观点 物理数据库逻辑数据 变换 图 1-1-2 数据库系统物理数据 变换三、数据库系统的构成综合上述, 我们可以把与数据库有关的几个概念理解为: 数 据库是存贮在计算机内的有结构的数据集合; 数据库管理系统是 一个软件,用以维护数据库、接受并完成用户对数据库的一切操 作;数据库系统指由硬件设备、软件系统、专业领域的数据体和 管理人员构成的一个运行系统。§1.2 数据模型数据模型是描述数据内容和数据之间联系的工具, 它是衡量 数据库能力强弱的主要标志之一。 数据模型是一组描述数据库的 概念。这些概念精确地描述数据、数据之间的关系、数据的语义 和完整性约束。很多数据模型还包括一个操作集合。这些操作用 来说明对数据库的存取和更新。数据模型应满足三方面要求:一 是能真实地模拟现实世界;二是容易为人们理解;三是便于在计9 算机上实现。 数据库设计的核心问题之一就是设计一个好的数据 模型。目前在数据库领域,常用的数据模型有:层次模型、网络 模型、关系模型以及最近兴起的面向目标模型。下面以两个简单 的空间实体为例(图 1-2-1), 简述这几个数据模型中的数据组织形 式及其特点。 M 1e b 4 d 3 图 1-2-1 地图 M 及其空间实体ⅠⅡ Ⅱ ca2一、层次模型层次数据库模型是将数据组织成一对多(或双亲与子女)关系 的结构,其特点为: (1)有且仅有一个结点无双亲,这个结点即 树的根;(2)其它结点有且仅有一个双亲。对于图 1-2-1 所示多边 形地图可以构造出图 1-2-2 所示的层次模型 层次数据库结构特别适用于文献目录,土壤分类、部门机构 等分级数据的组织。 例如全国―省―县―乡是一棵十分标准的有 向树,其中“全国”是根节点,省以下的行政区划单元都是子节 点。这种数据模型的优点是层次和关系清楚,检索路线明确。 层次模型不能表示多对多的联系,这是令人遗憾的缺陷。在 GIS 中,若采用这种层次模型将难以顾及公共点,线数据共享和 实体元素间的拓扑关系,导致数据冗余度增加,而且给拓扑查询 带来困难。10 MⅠⅡa 1 2 2b 4e 1 4 2b 4 2c 3 3d 4图 1-2-2层次模型二、网络模型在网络模型中,各记录类型间可具有任意连接的联系。一个 子结点可有多个父结点;可有一个以上的结点无父特点;父结点 与某个子结点记录之间可以有多种联系(一对多、多对一、多对 多)。图 1-2-3 是图 1-2-1 的网络模型。 网络数据库结构特别适用于数据间相互关系非常复杂的情 况,除了上面说的图形数据外,不同企业部门之间的生产,消耗 联系也可以很方便地用网状结构来表示。 网络数据库结构的缺点是:由于数据间联系要通过指针表 示,指针数据项的存在使数据量大大增加,当数据间关系复杂时 指针部分会占大量数据库存贮空间。另外,修改数据库中的数 据 ,指针也必须随着变化。因此,网络数据库中指针的建立和 维护可能成为相当大的额外负担。11 MⅠⅡabcde12图 1-2-33网络模型4三、关系模型关系模型的基本思想是用二维表形式表示实体及其联系。 二 维表中的每一列对应实体的一个属性,其中给出相应的属性值, 每一行形成一个,由多种属性组成的多元组,或称元组(tupple), 与一特定实体相对应。 实体间联系和各二维表间联系采用关系描 述或通过关系直接运算建立。元组(或记录)是由一个或多个属性 (数据项)来标识,这一个或一组属性称为关键字,一个关系表的 关键字称为主关键字,各关键字中的属性称为元属性。关系模型 可由多张二维表形式组成, 每张二维表的 “表头” 称为关系框架, 故关系模型即是若干关系框架组成的集合。如图 1-2-1 所示的多 边形地图,可用表 1-2-1 所示关系表示多边形与边界及结点之间 的关系。 关系模型中应遵循以下条件: (1) 二维表中同一列的属性是相同的; (2) 赋予表中各列不同名字(属性名);12 表 1-2-1 关系表关系 1:边界关系 关系 2:边界-结点关系 关系3:结点坐标关系多边 形 号 (P) Ⅰ Ⅰ Ⅰ边 号 (E) a b c b c d 30 边 长边号 (E)起结 点号 (SN)终结 点号 (EN) 2 4 3 4 1结点 号 (N) 1 2 3 4 19.8 38.6 26.7 9.5 34.2 25.0 8.2 15.7 X Ya 40 b 30 c Ⅱ Ⅱ Ⅱ 40 d 25 e 281 2 2 3 4(3) 二维表中各列的次序是无关紧要的; (4) 没有相同内容的元组,即无重复元组; (5) 元组在二维表中的次序是无关紧要的。 关系数据库结构的最大优点是它的结构特别灵活, 可满足所 有用布尔逻辑运算和数学运算规则形成的询问要求; 关系数据还 能搜索、组合和比较不同类型的数据,加入和删除数据都非常方 便。关系模型用于设计地理属性数据的模型较为适宜。因为在目 前,地理要素之间的相互联系是难以描述的,只能独立地建立多13 个关系表,例如:地形关系,包含的属性有高度、坡度、坡向, 其基本存贮单元可以是栅格方式或地形表面的三角面;人口关 系, 含的属性有人的数量, 男女人口数, 劳动力, 抚养人口数等。 基本存贮单元通常是对应于某一级的行政区划单元。 关系数据库的缺点是许多操作都要求在文件中顺序查找满 足特定关系的数据,如果数据库很大的话,这一查找过程要花很 多时间。搜索速度是关系数据库的主要技术标准,也是建立关系 数据库花费高的主要原因。四、面向对象模型面向对象的定义是指无论怎样复杂的事例都可以准确地由 一个对象表示。每个对象都是包含了数据集和操作集的实体,即 是说,面向对象的模型具有封装性的特点。 1.面向对象的概念 (1)对象与封装性(encapsulation) 面向对象的系统中,每个概念实体都可以模型化为对象。对 于多边形地图上的一个结点、一条弧段、一条河流、一个区域或 一个省都可看成对象。 一个对象是由描述该对象状态的一组数据 和表达它的行为的一组操作(方法)组成的。例如,河流的坐标 数据描述了它的位置和形状,而河流的变迁则表达了它的行为。 由此可见,对象是数据和行为的统一体。 一个对象 object 可定义成一个三元组: object=(ID,S,M) 其中,ID 为对象标识,M 为方法集,S 为对象的内部状态, 它可以直接是一属性值,也可以是另外一组对象的集合,因而它 明显地表现出对象的递归。14 (2)分类(classification) 类是关于同类对象的集合, 具有相同属性和操作的对象组合 在一起。属于同一类的所有对象共享相同的属性项和操作方法, 每个对象都是这个类的一个实例, 即每个对象可能有不同的属性 值。可以用一个三元组来建立一个类型: class=(CID,CS,CM) 其中,CID 为类标识或类型名,CS 为状态描述部分,CM 为应 用于该类的操作。显然有, S∈CS 和 M∈CM 当 object∈class 时 因此,在实际的系统中,仅需对每个类型定义一组操作,供 该类中的每个对象应用。由于每个对象的内部状态不完全相同, 所以要分别存储每个对象的属性值。 例如,一个城市的 GIS 中,包括了建筑物、街道、公园、电 力设施等类型。而洪山路一号楼则是建筑物类中的一个实例,即 对象。建筑物类中可能有建筑物的用途、地址、房主、建筑日期 等属性,并可能需要显示建筑物、更新属性数据等操作。每个建 筑物都使用建筑物类中操作过程的程序代码, 代入各自的属性值 操作该对象。 (3)概括(generalization) 在定义类型时, 将几种类型中某些具有公共特征的属性和操 作抽象出来,形成一种更一般的超类。例如,将 GIS 中的地物抽 象为点状对象、线状对象、面状对象以及由这三种对象组成的复 杂对象,因而这四种类型可以作为 GIS 中各种地物类型的超类。 比如,设有两种类型 Class1=(CID1,CSA,CSB,CMA,CMB) Class2=(CID2,CSA,CSC,CMA,CMC) Class1 和 Class2 中都带有相同的属性子集 CSA 和操作子集 CMA 并且15 CSA∈CS1 和 CSA∈CS2 及 CMA∈CM1 和 CMA∈CM2 因而将它们抽象出来,形成一种超类 Superclass =(SID,CSA,CMA) 这里的 SID 为超类的标识号。 在定义了超类以后,Class1 和 Class2 可表示为 Class1=(CID1,CSB,CMB) Class2=(CID2,CSC,CMC) 此时,Class1 和 Class2 称为 Superclass 的子类(Subclass) 。 例如,建筑物是饭店的超类,因为饭店也是建筑物。子类还 可以进一步分类,如饭店类可以进一步分为小餐馆、普通旅社、 宾馆、招待所等类型。所以,一个类可能是某个或某几个超类的 子类,同时又可能是几个子类的超类。 建立超类实际上是一种概括, 避免了说明和存储上的大量冗 余。由于超类和子类的分开表示,所以就需要一种机制,在获取 子类对象的状态和操作时,能自动得到它的超类的状态和操作。 这就是面向对象方法中的模型工具-继承, 它提供了对世界简明 而精确的描述,以利于共享说明和应用的实现。 (4)联合(association) 在定义对象时, 将同一类对象中的几个具有相同属性值的对 象组合起来,为了避免重复,设立一个更高水平的对象表示那些 相同的属性值。 假设有两个对象 Object1 =(ID1,SA,SB,M) Object2 =(ID2,SA,SC,M) 其中,这两个对象具有一部分相同的属性值,可设立新对象 Object3 包含 Object1 和 Object2, Object3 =(ID3,SA,Object1,Object2,M) 此时,Object1 和 Object2 可变为16 Object1 =(ID1,SB,M) Object2 =(ID2,SC,M) Object1 和 Object2 称为 “分子对象” , 它们的联合所得到的对象称 为“组合对象” 。联合的一个特征是它的分子对象应属于一个类 型。 (5)聚集(aggregation) 聚集是将几个不同特征的对象组合成一个更高水平的对象。 每个不同特征的对象是该复合对象的一部分, 它们有自己的属性 描述数据和操作,这些是不能为复合对象所公用的,但复合对象 可以从它们那里派生得到一些信息。例如,弧段聚集成线状地物 或面状地物,简单地物组成复杂地物。 例如,设有两种不同特征的分子对象 Object1 =(ID1,S1,M1) Object2 =(ID2,S2,M2) 用它们组成一个新的复合对象 Object3 =(ID3,S3,Object1(Su),Object2(Sv) ,M3) 其中 Su∈S1,SV∈S2,从式中可见,复合对象 Object3 拥有自己 的属性值和操作,它仅是从分子对象中提取部分属性值,且一般 不继承子对象的操作。 在联合和聚集这两种对象中,是用“传播”作为传递子对象 的属性到复杂对象的工具。即是说,复杂对象的某些属性值不单 独存于数据库中,而是从它的子对象中提取或派生。例如,一个 多边形的位置坐标数据,并不直接存于多边形文件中,而是存于 弧段和结点文件中, 多边形文件仅提供一种组合对象的功能和机 制,通过建立聚集对象,借助于传播的工具可以得到多边形的位 置信息。 2.面向对象数据库(OODB)模型的特征17 (1)对象和对象标识符: 任一现实世界中的实体都模拟成一 个对象,由唯一对象标识符与之对应。 (2)属性和方法:属性有单值的,也有多值的。属性不受第 一范式的约束,不必是原子的,可是另一个对象。方法是作用在 对象上的方法集合。 (3)类:同一类对象共用相同的属性集和方法集。 (4)类层次和继承:类是低层次的概括;而子类继承了高层 次类的所有属性和方法,亦有自己特有的属性和方法。 3.面向对象数据库的设计方法 面向对象数据库的设计主要是定义对象类或对象集合, 定义 对象属性,定义操作。 (1)确定对象及对象类 a.从真实世界中抽取有意义的物体和概念作为对象,并将 某类作为数据库系统的基础类; b.根据数据抽象化的原则,如果表示一组物体的对象集合 具备系统所需要的相似特性和操作,那么该集合应用类来表示。 (2)确定操作 要详细分析系统的需求,研究对各类对象起作用的操作,包 括对象自身的操作和该对象对另一类对象起作用的操作。 a.构造操作又称创建操作:在 OODB 中产生该类的一个新 的对象或实例,并赋予属性值。 b.访问操作:提供附加访问的功能,能产生该类的实例的 某些特征。 c.变更操作:用来改变特定对象的属性值。 4.GIS 中的面向对象模型 (1)空间地物的几何数据模型18 GIS 中面向对象的几何数据模型如图 1-2-4 所示。从几何方 面划分,GIS 的各种地物可抽象为:点状地物、线状地物、面状 地物以及由它们混合组成的复杂地物。 每一种几何地物又可能由 一些更简单的几何图形元素构成。例如,一个面状地物是由周边 弧段和中间面域组成,弧段又涉及到结点和中间点坐空间地物 复杂地物 简单 地物 点状地物 线状地物 面状地物结点 图 1-2-4弧段面域面向对象的几何数据模型标。或者说,结点的坐标传播给弧段,弧段聚集成线状地物或面 状地物,简单地物组成复杂地物。 (2)拓扑关系与面向对象模型 通常地物之间的相邻、关联关系可通过公共结点、公共弧段 的数据共享来隐含表达。在面向对象数据模型中,数据共享是其 重要的特征。将每条弧段的两个端点(通常它们与另外的弧段公 用)抽象出来,建立应该单独的结点对象类型,而在弧段的数据 文件中,设立两个结点子对象标识号,即用“传播”的工具提取 结点文件的信息,如图 1-2-5 所示。19 这一模型既解决了数据共享问题, 又建立了弧段与结点的拓 扑关系。同样,面状地物对弧段的聚集方式与数据共享、几何拓 扑关系的建立亦达到一致。区 域 文 件 区标识 1 2 3 4 5 弧段标识 21 22,24,25,23 23 24,26,28 25,26,27 11 12 13 14 15 16结 点 文 件 结点标识 X 100 90 60 55 30 52 Y 90 85 88 82 80 20 Z 100 120 110 150 130 90弧 段 文 件 弧标识 21 22 23 24 25 26 27 28 起结点 11 12 13 14 15 16 16 16 终结点 11 15 13 12 14 14 15 12 中间点串 … … … … … … … …图 1-2-5 拓扑关系与数据共享(3)面向对象的属性数据模型20 关系数据模型和关系数据库管理系统基本上适应于 GIS 中 属性数据的表达与管理。若采用面向对象数据模型,语义将更加 丰富,层次关系也更明了。可以说,面向对象数据模型是在包含 关系数据库管理系统的功能基础上, 增加面向对象数据模型的封 装、继承、信息传播等功能。 下面以土地利用管理 GIS 为例,如图 1-2-6 所示。 GIS 中的地物可根据国家分类标准或实际情况划分类型。如 土地利用管理 GIS 的目标可分为耕地、园地、林地、牧草地、居 民点、交通用地、水域、和未利用地等几大类,地物类型的每一 大类又可以进一步分类,如居民点可再分为城镇、农村居民点、 工矿用地等子类。另外,根据需要还可将具有相同属性和操作的 类型综合成一个超类。例如工厂、农场、商店、饭店属于产业, 它有收入和税收等属性, 可把它们概括成一个更高水平的超类- 产业类。由于产业可能不仅与建筑物有关,还可能包含其它类型 如土地等。所以可将产业类设计成一个独立的类,通过行政管理 数据库来管理。在整个系统中,可采用双重继承工具,当要查询 饭店类的信息时,既要能够继承建筑物类的属性与操作,又要继 承产业类的属性与操作。 属性数据管理中也需用到聚集的概念和传播的工具。例如, 在饭店类中,可能不直接存储职工总人数、房间总数和床位总数 等信息,它可能从该饭店的子对象职员数据库、房间床位数据库 等数据库中派生得到。21 耕地 园地 林地 GIS 牧草地 居民点 交通用地 水域 未用地 城镇 农村居民点 工矿用地 控制点 街道 公园 电力设施 建筑物 操作: 查询 插入 删除 商店 属性: 标识码 区号 街道号 房主 邮局 银行 工厂 医院 学校 居民住宅 饭店22 建筑日期 功能图 1-2-6 面向对象的属性数据模型§1.3 数据库设计的三个步骤数据库应用通过三个设计步骤来进行建模[47]。首先,采用 高层次的概念数据模型(conceptual data model)来组织所有与应 用相关的可用信息。在概念层上,重点关注应用的数据类型及其 联系和约束。设计过程的这个阶段不考虑具体实现细节。概念模 型通常用浅湿文字,结合简单一致的图形符号来表示。实体-联 系(entity relationship, ER)模型是所有概念设计工具中最为流行 的一种。 第二步,也称为逻辑建模阶段,与概念数据模型在商用 DBMS 上的具体实现有关。商用 DBMS 中的数据由实现模型来 组织。实现模型的例子有:层次模型、网状模型和关系模型。其 中,关系模型是目前商用数据库所实现的最为广泛的模型之一。 在关系模型中, 数据类型、 联系和约束都被建模为关系 (relation) 。 与关系模型联系紧密的是形式化查询语言的关系代数(relation algebra, RA) 。RA 由一些简单的操作组成,这些操作能够查询用 关系方式组织的数据。 关系模型并不能满足空间数据建模的要求,[48]对此的解释 如下: 关系代数刻画了关系数据库的查询能力。 关系数据库能够回 答任何以关系代数表示的查询, 从而成为普遍接受的关系数据库 传统应用的模型。 相反,还没有广为接受的地理信息数学模型,这给空间数据23 查询语言和空间数据库的设计造成了困难。此外,GIS 与关系数 据库之间有着相当大的语义鸿沟,也导致了复杂性和不便之处。 最后,数据库设计的第三个步骤是物理设计的建模,它解决 数据库应用在计算机中具体实现时方方面面细节。有关存储、索 引和内存管理等问题都在这一阶段考虑和解决。下面介绍一下 ER 模型。一.ER 模型数据库设计的第一步是提出“微型世界”的概念模型。构建 概念模型的目的是以一种避开计算机隐喻的方式来表达这个微 型世界,从而把应用中的概念与实现细节分离开来。对于概念数 据建模来说,有许多可用的设计工具,ER 模型是其中最为流行 的工具之一。ER 模型同关系模型无缝地整合在一起,而关系数 据模型又是三个数据库设计阶段的第二步中最流行的逻辑模型 之一。我们在这里使用 ER 模型对 State-Park 例子进行建模。 1.实体和属性 在 ER 模型中,微型世界被划分成一个个实体(entity) , 由 属性(attribute)来描述实体性质,并通过联系互相关联。实体 是物理上或者概念上独立存在的事物或对象。在 State-Park 例子 中, Forest、 RIVER、 FOREST-STAND ROAD 以及 FIRE-STATION 都是实体。 实体由属性来刻画性质。例如,name 是实体 FOREST 的属 性。唯一标识实体实例的属性(或属性集)称为码(key) 。在 我 们的例子中,假定任意两条道路均不能同名的话,实体 ROAD 的 name 属性就是一个码。 本例中数据库的所有 ROAD 实例都有 唯一的名称。尽管这不是概念设计的问题,但 DBMS 中必须有 一个机制来保证这种约束。24 属性可以是单值或多值的。 Species (树种)是 FORESTSTAND 的单值属性。我们利用本例的情况来解释多值属性。 FACILITY 实体有一个 Pointid 属性, 它是该实体实例的空间位置 的唯一标识。 我们假定, 由于地图比例尺的缘故, 所有 FACILITY 实例都要用点来表示。 一个给定的设施可能会跨越两个点对应的 位置,这时 Pointid 属性就是多值的。其他实体也会有类似情况。 假设要存储有关 FOREST 的 elevation(高程)信息,由于 elevation 的值在 FOREST 实体内部会变化, 我们将该属性作为多 值属性,因为不支持场数据类型。 2.联系 除了实体和属性外,构成 ER 模型的第三个要素是联系 (relationship) 。实体之间通过联系相互作用和关联。虽然多个 实体可以同时参与一个给定的联系, 但我们只讨论二元(binary) 联系,即两个实体间的联系。有三种基于基数约束的联系:一对 一、多对一和多对多。 (1)一对一(1∶1) 在一对一的联系中, 一个实体中每个实例只能与其他参与实 体的一个实例相联系。例如,实体 MANAGER 和 FOREST 之间 的联系 manages 就是一个一对一的联系,即一个 FOREST 只能 有一处 MANAGER, 而一个 MANAGER 只能管理一个 FOREST。 (2)多对一(M∶1) 多对一联系可将一个实体的多个实例与另一个参与该联系 的实体的一个实例相连接。 Belongs_to 是实体 FACILITY 与 FOREST 之间的一个多对一联系, 这里假定每个设施仅仅属于一 个森林,但每个森林可以有多个设施。 (3)多对多(M∶N) 有时候一个实体的多个实例会与另一个参与该联系的实体25 的多个实例相联系。实体 RIVER 和 FACILITY 之间的联系 supplies_water_to 正是这样的一个联系。有时候,联系也可以拥 有属性。Supplies-water-to 有一个 Volume 属性,用来跟踪一条河 流向一个设施供水的水量。 3.ER 图 与 ER 模型相关的是 ER 图, ER 图为概念模型提供了图形化 的表示方法。在 ER 图中,实体用矩形表示:属性表示为椭圆, 并用直线与表示实体的矩形相连;联系则表示为菱形。联系的基 数(cardinality) (包括 1∶1、M∶1 或 M∶N)标注在菱形的旁 边。码的属性加下划线,而多值属性用双椭圆表示。State-Park 例子的 ER 图如图 1-3-1 所示,其中有 7 个实体,即 FORESTSTAND、 RIVER、 ROAD、 FACILITY、 FOREST、 FIER、 STATION 和 MANAGER。实体 FOREST 的属性有 name、elevation 和图 1-3-1州立公园例子的 ER 图26 polygonid。Name 是唯一的标识,即每片森林有唯一的名称。图 中还给出了 8 个联系。实体 FOREST 参与了 6 个联系,而实体 FIER-STATION 只参与了一个名为 monitors 的联系。 基数约束表 明每个消除站只监控一片森林,但一片森林可被许多消防站监 控。有些联系是空间上固有的,包括 cross(穿过) 、within(在 内部)和 part-of(部分) ,而图中许多其他空间联系是隐含的。 例如,一条河流穿过一条道路在图中是标明的,而一条河流穿过 一片森林则是隐含的。 在直观上,ER 模型不能表达空间建模中的特定语义。具体 来说,ER 模型的不足之处在于: (1) ER 模型的最初设计隐含了基于对象模型的假设。 因此, 场模型无法用 ER 模型进行自然的映射。 (2)在传统的 ER 模型中,实体之间的关系由所要开发的 应用来导出, 而在空间建模中, 空间对象之间总会有内在的联系。 例如,所有拓扑关系都是两个空间实体之间联系的有效实例。如 何将这些联系整合到 ER 模型中,而又不使 ER 图变得复杂呢? (3)建模空间对象所使用的实体类型和“地图”的比例尺 有关。一个城市是用点还是用多边形表示和地图的分辨率有关。 在概念模型中,如何表达同一个对象的多种表现形式?二.用象形图扩展 ER 模型为了使空间应用的概念建模更加简单和直观, 提出了许多对 ER 模型进行扩展的方法。其主要思想是增加某种结构来接受和 表达空间推理的语义,同时保持图形表示的简洁性。最近,提出 了用象形图(pictogram)来注释和扩展 ER 图的方法。 空间联系(包括拓扑的、立位的和度量的联系)隐含在任何 两个具有空间成分的实体之间。例如,在实体 Forest 和 River 之27 间很自然会考虑拓扑关系―cross。在 ER 图中包含这种 cross 联 系并不能转达更多有关该应用建模的结构信息。 下面将说明如何用象形图来表达空间数据类型、 比例尺以及 空间实体的隐含关系的。 我们将以 BNF 范 式(Bachus-Naur form) 的语法符号来表示象形图的扩展。 1.实体象形图 (1)象形图 象形图是一种将对象插在方框内的微缩图表示, 这些微缩图 用来扩展 ER 图,并插到实体矩形框中的适当位置。一个象形图 可以是基本的形状,也可以是用户自定义的形状。&象形图& &形 状& * ! 象形图的语法(2)形状 形状是象形图中的基本图形元素, 它代表着空间数据模型中 的元素。一个模型元素可以是基本形状、复合形状、导出形状或 备选形状。许多对象具有简单的基本形状。&形状& &基本形状& &复合形状& &导出形状& &备选形状& 形状的语法28 (3)基本形状 在一个矢量模型中,基本元素有点、线和多边形。在一般的 应用中, 大多数空间实体是用简单形状来表示。 在森林的例子中, 我们把设施表示成点(0 维) ,把河流或道路网表示成线(1 维) , 把森林区域表示成多边形(2 维) 。&基本形● /●点/线〗面〗基本形状的语法基本形状的象形图(4)复合形状 为了处理那些不能用某个基本形状表示的对象, 我们定义了 一组聚合的形状,并用基数来量化这些复合形状。例如,河流网 可以用线的象形图的连接表示且其基数为 n。类似地,对于一些 无法在某个给定比例尺下描绘的要素,我们用 0 作为其基数。&基数&0.1 1 1,n 0,n图2〗n● 0,n使用了基数的多重形 状的象形图基数的语法(5)导出形状 如果一个对象的形状是由其他对象的形状导出的, 那么就用 斜体形式来表示这个象形图。例如,我们可以从美国的州界形状 导出美国的形状。 &导出形状& &基本形 ● / 〗基本形状的语法 导出形状的象形图29 (6)备选形状 备选形状可以用于表示某种条件下的同一个对象。 例如,根 据比例尺,一条河流可以表示成一个多边形或一条线。&备选形状& &基本形状& &基本形状& &导出形状& &基本形状&备选形状的语法●〗●〗备选形状的象形图(7)任意形状 对于形状的组合,我们用通配符(*)表示,它表示各种形 状,例如,一个灌溉网是由泵站(点) 、水渠(线)以及水库(多 边形)所组成的。 *任意可能的形状(8)用户自定义形状 除了点、 线和多边形这些基本形状外, 用户还可以定义自己 的形状。例如,为了表达更多的信息,用户可能更愿意使用感叹 号之类的象形图来表示灌溉网。 !任意可能的形状2.联系象形图 联系象形图用来构建实体间联系的模型。例如,part-of 用于30 构建道路与路网之间联系的模型, 或是用于把森林划分成林分的 建模。Part_of(网络)Part_of(分区)联系的象形图使用象形图扩展的 ER 图见图 1-3-2 。其中, Facility 和 Fire-Station 实体用点的象形图表示, River 和 Road 表示成线的象 形图,而 Forest 和 Foreststand 用多边形的象形图表示。Forest 与 Forest-stand 之间的 part_of 联系在图中表示出来。这张图清楚地 反映出象形图增强了 ER 图对空间语义的表达能力。 Part-of(分区)象形图暗含有 3 个空间完整性约束: 1)forest-stand 在空间上彼此“分离” ,即空间中任意一点至 多属于一个 forest_stand。 2)forest_stand 在空间上位于森林“内部” ,是森林的一部 分(part_of) 。 3)所有 forest_stand 的几何并集在空间上“覆盖”它们所属 的森林。 这些空间完整性约束了空间的集合分区 (set-partition) 语 义。 比较图 1-3-1 与图 1-3-2, 可以看出象形图增强 ER 模型的优 势。值得注意的是,图 1-3-2 并不显得杂乱,因为这里只有很少 的显式联系和属性。空间联系和属性是隐含的。其次,图 1-3-2 显示了在空间联系上的更多的信息。例如,尽管图 1-3-2 没有显 式列出“河流穿过森林”和“消防站在森林之中”这些联系,但 是从图中可以看出这些隐含的联系。Part_of(分区)象形图所暗 含的空间完整性约束也是原来没有的。最后,图 1-3-2 的关系模31 式要比图 1-3-1 的关系模式更为简单,由 M∶N 的空间联系生成 的关系和空间数据类型都被省略。图 1-3-2州立公园例子的带象形符号的 ER 图§1.4 新型数据库系统从 60 年代末开始,数据库系统已走过了 30 年的历史,经历 了两代的演变, 即层次与网状数据库系统时代和关系数据库系统 时代,取得了辉煌成就。事实上,这两代数据库系统只是较为成 功地适应了信息处理中最简单的一些应用环境和对象。 而对于更32 复杂的环境和对象,传统的数据库技术还远非完善。因为信息社 会的发展,人们对信息处理的要求,使得数据库的功能,对象都 随着发生变化, 更加实际、 更为广泛的是关于文字、 图象、 图形、 声音等复杂对象的处理。对这些对象,传统的数据库技术是无法 解决的。另外传统数据库是集中式的,而现实世界中,人们希望 获得的信息有时分布在不同的地区。传统数据库只能提供静态 的、 在计算机里有的信息。 对这些, 传统数据库也是无能为力的。 所有这些社会需求推动了数据库技术向着更高级、更广泛、更深 入的方向发展。 出现了许多以数据库为核心, 以人工智能、 网络、 汉字等技术为工具的新的研究领域。这些领域是:一、分布式数据库分布式数据库在最近几年变成了信息处理的一个重要方面, 可以看见它的重要性越来越明显,社会的需求越来越迫切。这种 趋势是由于两方面的原因引起的:组织方面,分布式数据库更加 自然地适合分散的组织机构;技术方面,它避免了集中式数据库 的很多弊病和弱点。 1.分布式数据库的特色 (1)地方自治性:在集中式数据库中非常强调对全局的集中 控制,而在分布式数据库中不强调全局的集中控制,而强调各结 点的地方自治。这给每一结点相当的独立性。 (2) 相互协作性: 地方自治是分布式数据库特色的一个方面, 光有这一方面是远远不够的, 更重要的是当某结点的事务需要存 取他结点的数据时,更需要各结点间相互协作,相互配合。这种 协作是平等关系的协作。 (3)位置透明性:位置透明性意味着用户使用数据时,无须 了解所存取的数据所在位置。 这一位置信息是由系统通过全局目 录而获得,并由系统决定是在本结点自治处理,还是通过网络存33 取他结点的数据。 这种透明性简化了应用程序, 大大方便了用户。 它是分布式数据库的主要目标之一。 (4)副本的透明性:在集中式数据库中减少冗余是它的主要 目标之一,但在分布式数据库中出于性能和效率方面的考虑,有 时需要在不同结点存放同一数据库的几个副本。 这主要考虑到下 述两个因素和背景。一是应用的局部性,在分布环境下,为了减 少网上的传输,提高效率,确定了一个处理原则,即能在本地区 处理的事务不申请网上的传输。 因而重复存放副本就是自然的策 略;二是系统的可行性,在分布环境下,一个结点出现了故障, 不影响整个系统的运行。需要在某地区获得的数据,可在其他结 点获得。在这种情况下,副本提高了系统的可靠性、可用性。 当然副本存放是需付出代价的。除空间开销外,更新操作要 对所有副本进行,这代价是不小的。所以需衡量一下检索获得的 好处与更新付出的代价,权衡后作出最佳选择,决定存放几个副 本及副本存放的位置。这是分布式数据库设计的任务之一。 2.使用分布式数据库的原因 (1)组织和经济上的需要;很多部门的组织结构是分散的, 分布式数据库更加符合这种状态的自然结构。 随着计算机技术的 发展,经济方面的因素使得人们怀疑集中式计算机中心是否合 适。而分布式数据库可以灵活地根据经济条件逐步投资。这是发 展分布式数据库最重要的原因。 (2)如何充分利用已有的数据资源;在很多情况下,一些部 门已有一些分散的、独立的集中式数据库,而应用要求有一个全 局的信息系统,统一各分散的独立的数据库,分布式数据库正好 符合这种需要。 (3)新的功能和结构增长;如果一个部门需增加新的结构和 应用,如银行开设新的支行,新的仓库的增加的增加,分布式数34 据库可适应这种增长,能平稳地增加现有的数据和程序,而对系 统影响最小。 集中式数据库在设计开始就确定了应用的目标和规 模, 以后的扩展是很困难的, 扩展的代价和复杂度都难令人接受。 这里指的是整体而非局部的模型的改变。 (4)通讯开销:没有全局设计和优化的一般网络数据库,其 通讯开销是很大的。因为次环境下没有全局字典,也没有从整体 出发的分布式数据库的存储布局、物理分片、查询优化,因而效 率是很低的,而网上开销又大。 (5)小型计算机的发展:它提供较低的成本与大型机相当的 功能。这是发展分布式数据库的硬件条件之一。 (6)网络技术的商品化:近些年,网络技术发展很快,各种 商品化的性能较优的网络产品不断进入市场。 这是实现分布式数 据库的硬件条件之二。 3.分布式数据库的体系结构所包含的基本部件 (1) 数据库管理 DB 系统, 即集中式数据库管理系统 DBMS; (2)数据通讯子 DC 系统; (3)全局数据字典 DD(有关网上的数据分布) ; (4)分布式数据库管理 DDB 系统,即负责分布处理的数据 管理。 上 述 四 部 分 合起 来 称 为分 布 式 数 据 库管 理 系 统 DDBMS (Distributed Database Management Systems) 。DDBMS 提供的典 型功能: (1)存取其他结点的数据; (2)分布透明性; (3)支持 数据库管理和控制; (4)对分布事物的并发控制和恢复等。 DDBMS 一个重要的问题是系统是均质的还是异质的。即硬 件、 操作系统和 DBMS 是否相同, 对我们来说最重要的是 DBMS 是否相同, 每个结点都采用相同的 DBMS, 这种系统称为均质系 统,否则称为异质系统。35 二、专家数据库人工智能是研究计算机模拟人的大脑和模拟人的活动的一 门科学,因此逻辑推理和判断是其最主要的特长,但对于信息检 索则效率很低。数据库技术是数据处理的最先进的技术,对于信 息检索有其独特的优势,但对于逻辑推理却无能为力。专家数据 库是人工智能与数据库技术想结合的产物。 它具有两种技术的优 点,而避免了它们的缺点。它是一种新型的数据库系统,它所涉 及的技术除了人工智能和数据库以外还有逻辑、 信息检索等多种 技术和知识。 1.人工智能的弱点 (1)人工智能系统中的知识库中只含有少量的规则和事实。 这是不能进入实用的原因之一。 (2)人工智能系统的效率极低,这是不能进入实用的原因之 二。 2.传统数据库系统的弱点 (1)不能进行逻辑推理和知识处理。 (2) 不能管理复杂的类型对象, 如 CAD, CAM, RLSI, CASE 等。 3.专家数据库的研究目标 (1)专家数据库中不仅包含大量的事实,而且应包含大量的 规则。 (2)专家数据库系统应具有较高的检索和推理效率,满足实 时要求。 (3)专家数据库应不仅检索,而且能推理。 (4)专家数据库应能管理复杂的类型对象如 CAD,CAM,36 CASE 等。 (5)专家数据库应能进行模糊检索。 4.专家系统的研究成果 (1)智能数据库接口:这是比较模糊的说法,并没有准确的 定义,主要的几点有:自然语言输入理解;多媒体声图文一体化 用户接口;不确定推理。 (2)知识数据模型的发展:传统的数据模型中没有关于知识 的描述,专家数据库既要处理数据,又要处理知识,数据模型中 当然要反映出来,因此提出知识数据模型。知识数据模型要扩展 数据模型,使新系统能处理复杂的对象,如时态、特殊坐标、事 件、活动等。知识数据库系统要求存取动态数据库,以辅助问题 求解。知识数据模型还有研究工具和方法论。 (3)存储模型:传统人工智能系统在存储上是非常落后的、 原始的,未采用现代数据存储和存取技术。因此不仅只能处理少 量规则和事实,而且效率极低。近些年吸取了数据处理的先进技 术, 取得了如下进展: ①将内存模式 (全部事实和规则都进内存) 改为内外存交互模式,即采用缓冲区技术。②将规则、模式、数 据、黑板等存在磁盘上。③可有效存取大型数据库和知识库。④ 不用其他逻辑方法,紧紧抓住带有递归的 Horn 子句逻辑作设计 语言的基础⑤捕捉规则寻找规则/目标树。⑥提出了对数据库进 行查询/子查询的优化方法―DATA-LOG 的评价。三、演绎数据库演绎数据库是将逻辑程序设计思想和关系数据库思想结合 起来。 1.演绎数据库的基本概念 演绎的含义是根据已知的事实和规则进行推理, 回答用户提37 出的各种问题。 演绎数据库也被称为逻辑数据库演绎关系数据库 或虚关系数据库。换言之,它们具有很强的推理能力,这种推理 能力起源于人工智能的研究。 演绎数据库理论包含了更标准的关系数据库理论。 在传统数 据库中, 用户能检索的数据只能是实际存在于关系数据库中的数 据。但客观世界中的事物之间存在着多种逻辑关系,反映这些事 物的数据之间同样存在着这些逻辑关系。 根据已知的数据和这些 逻辑关系可推出另一些在数据库中并不存在而客观又是正确的 数据。 演绎数据库可包含三方面内容;实数据(事实) 、规则及虚 数据。虚数据系根据已知的实数据经使用规则推理而得到的,它 不必存放在数据库中。 演绎数据库可获得远远多于传统数据库中的数据, 但其占有的实 际物理空间与传统数据库差不多。而且还具有易维护、易扩充、 冗余度小和数据录入量少等优点。 2.演绎数据库的基本结构 演绎数据库由三部分组成; (1) 传统数据库管理 由于演绎数据库建立在传统数据库之 上,因此传统数据库是演绎数据库的基础。 (2) 具有对一阶谓词逻辑进行推理的演绎结构 这是演绎数 据库全部功能特色所在,推理功能由此结构完成。 (3)数据库与推理机构的接口 由于演绎结构是逻辑的,而 数据库是非逻辑的,因此必须有一个接口实现物理上的连接。 3.演绎数据库的研究现状 对演绎数据库的研究始于 20 世纪 70 年代后期, 对它的研究 分两个方面;数学模型和实现方法。38 (1)数学模型 在演绎数据库中往往用证明论作为其实现的数学模型。 在证 明论中,演绎数据库可视为一个一阶谓词演算的公理系统。一个 公理系统包括;①公理;一阶谓词演算公式;②定理;有公理通 过证明而获得的一阶谓词演算公式;③证明;有公理经推理而得 到定理的证明工程。 (2)实现方法 目前演绎数据库的实现方法有两种;一种是 PROLOG 语言 实现;另一种是用现有的 DBMS+RULE 来实现。 ① 用 PROLOG 语言实现。由于 PROLOG 语言是一种基于 证明论的语言,因此用它来实现从理论上是完全可行的。用 PORLOG 语言表示演绎数据库不须编制专门的系统软件,从而 实现工作变得极为简单。 将传统数据库与演绎结构均用证明论方 法表示, 这样, 整个演绎数据库也变得极为简单。 但由于 PROLOG 语言本身的弱点(效率低) ,因此用它来有效地完整地表示一个 演绎数据库还需进一步改造。这方面的工作主要集中在两点;一 是功能上改进,在 PROLOG 中增加数据库的功能,以适应对数 据的处理要求;二是效率上的提高,改进 PROLOG 的搜索速度, 以大大提高它的效率。 ② 用 现 有 DBMS+RULE 处 理 。 目 前 著 名 的 SQL 和 INGRESE 都已实现了演绎功能。其中 RULE 部分需要完成推理 与接口两部分功能。推理部分由演绎结构完成;接口部分的功能 是将推理中的逻辑表示转换正给定 DBMS 中的数据描述与数据 操纵语言中的语句。 当用户查询演绎数据库时,如果涉及到的是实关系,则如同通常 的数据库查询一样处理;如果涉及到虚关系,则由规则处理部分 的演绎结构将其转换成对实关系的查询,最后通过 DBMS 的查 询结构完成,将最终结果提交给用户。39 4.演绎数据库、知识库与智能数据库 这三者既有联系又有差别。 其共同之处是三者都是人工智能 与数据库的结合,都是以数据库为基础,吸取了人工智能的成功 技术的成果。 首先,数据库与知识库是不同的概念,前者管理数据,后者 管理知识。知识与数据是不同的两个概念。知识包含的内容远比 数据丰富得多。知识至少包括了规则与数据两大部分。 演绎数据库与智能数据库均属于数据库范围, 它们均以数据 库为基础,吸取了人工智能的技术。所以,它们与 知识库是不 同的。演绎数据库虽然也含有规则,但它含有的规则较少,而含 有的数据却是大量的,这是与知识数据库不同的。至于智能数据 库不仅应用人工智能中的逻辑推理思想, 而且还应用人工智能中 自然语言理解、语言识别,图象、文字处理等多种方法与技术于 数据库,以求得更多的功能、性能的改善与提高。因此,从某种 意义讲,演绎数据库是智能数据库的一部分。四、多媒体数据库随着信息技术的发展, 数据库应用从传统的企业信息管理扩 展到计算机辅助设计、 办公信息系统、 人工智能等多种应用领域。 这些领域中要求处理的数据不仅包括一般格式化的数据, 还包括 大量多种媒体形式的非格式化数据,如图形、图象、正文、声音 等。 我们把这种能存储和管理多种媒体的数据库称为多媒体数据 库。 多媒体数据库及其操作与传统格式化数据库的结构和操作 有很大差别。现有 DBMS 无论从模型的语义描述能力、系统功 能、数据操作,还是存储管理、存储方法上都不能适应这些复杂 对象的处理要求。综合程序设计语言、人工智能和数据库领域的 研究成果,设计支持多媒体数据管理的 DBMS 已成为数据库领40 域中一个新的重要研究方向。 1.多媒体数据库管理系统的功能要求 在多媒体信息管理环境中, 不仅数据本身的结构和存储形式 各不相同, 而且不同领域对数据处理的要求也比一般事务管理复 杂的多,因而对 DBMS 提出了更高的功能要求。这些要求可概 括为以下几个方面; (1)要求 DBMS 能方便地描述和处理具有内部层次结构的 数据,在多媒体信息管理中,实体的属性可能又是一个实体。应 用环境要求在高一级抽象层次上将这样的实体当做一个整体, 施 加某些操作; 而在低一级抽象层上作为属性的实体也应作为一个 整体。多媒体 DBMS 应能提供对这种实体间联系的描述和处理 结构。 (2)要求 DBMS 提供由用户定义的新的数据类型和相应操 作的功能。在多媒体信息管理中,应用随时可能增加多媒体处理 设备和新的处理要求。这要求不断增加新的数据类型和新的操 作。传统 DBMS 无此功能。 (3)要求 DBMS 能够提供更灵活的定义和修改模式的能力 (4)要求 DBMS 提供版本控制能力 (5)要求 DBMS 提供对多媒体信息管理中特殊的事务管理 (6)要求 DBMS 对长寿事务的并发控制和故障恢复 2.多媒体 DBMS 的体系结构 多媒体 DBMS 的体系结构大致有四种实现方案; (1)在传统 DBMS 基础上实现 由它的原语实现一个多媒体 DBMS 的应用前端机。它提供 数据、文字、图形、图象等应用接口。图 1-4-1 是此方案的结构 图。这种体系对于已有的 DBMS 的用户是可行的,但经过多层41 映射,系统的操作效率回大大降低。 (2)多个 DBMS 协调方案 此方案是分别为每种媒体的信息建立特殊的、 专门处理该种 媒体数据的 DBMS, 然后在上层设计一个协调管理的 DBMS, 以 便一体化各专门 DBMS。用户在此协调 DBMS 上使用多媒体数 据库。图 1-4-2 表示了这种体系。这种方案下协调工作复杂,基 础功能冗余,效率也不会高。用 户 接 口 记录型 数据 字符 文字 声音 图形 图象传统 DBMS 图 1-4-1 传统 DBMS+多媒体的信息处理 用 户 接 口 协调管理系统 DBMS常规 DBMS文字处理 DBMS图形 图象 DBMS声音 DBMS图 1-4-2 多个 DBMS 的协调体系(3)多媒体 DBMS 方案42 此方案重新设计或改造传统 DBMS,使它能统一管理记录 类、文字型、工程型、图形图象型、声音型的多媒体数据库。如 图 1-4-3 所示。这种方案当然较为理想,因为设计的目标明确, 系统效率、性能可以达到预想的结果。但代价是较大的。用 户 接 口 多媒体 DBMS记录型 数据文字型 信息图形 图象声音图 1-4-3 多媒体 DBMS 体系(4)存储核心层+应用层多媒体 DBMS 体系 此方案是德国凯撒劳滕大学的 HAERDER 和斯图加特大学 的 REUTER 提出的,以数据库核心为系统为基础,将一个多媒 体 DBMS 分为两层,上层为应用层,实现多媒体数据描述和操 作;下层为公共存储服务层,物理存储各种语义表示的数据。这 一方案如图 1-4-4 所示。这种体系有许多优点,例如可扩充性, 效率较高。常规应用 文字处理 图形图象 声音公共存储服务器层43 图 1-4-4 存储核心层+应用层多媒体 DBMS 体系3.多媒体数据库与传统数据库的比较 (1)在用户接口方面,多媒体 DBMS 与传统 DBMS 相比, 前者是语义更充实、结构能力更强、完整性约束更丰富的数据模 型。 (2) 多媒体数据库的逻辑数据模型与内部存储和表示技术更 严格地隔离。 (3)多媒体数据库表示中性客体的存储结构更加多样化,利 用诸如分片、划组、多重聚集等更精细的技术。 (4)多媒体数据库采用诸如多属性搜索、区间搜索、相似搜 索、启发式搜索等更强有力的搜索方法。 (5)多媒体数据库引入时间并施行版本控制。 (6)多媒体数据库适应应用,支持中性事务概念。 (7) 多媒体数据库从硬件功能划分和配置上充分利用复杂操 作的并行性。五、工程数据库工程数据库是数据库领域内另一有着广泛应用前景和巨大 经济效益的分支。近些年在国际上对它的研究十分活跃,而且在 某些国家已经产生了相当的经济效益。 所谓工程数据库是指在工程设计中, 主要是 CAD/CAM 中所 用到的数据库。由于在工程中的环境、要求不同,工程数据库与 传统的信息管理中用到的数据库有着很大的区别。 1.工程数据库的应用环境 在工程设计中有着大量的数据和信息要保存和处理。 例如零 件的设计模型、图纸上的各种数据、材料、工差、精度、版本等 各种信息需要保存、管理和检索。管理这些信息最好的技术自然44 是数据库。 一个 CAD 系统主要包括四大软件模块;DBMS、图形系统、 方法库及应用程序。图 1-4-5 中是工程数据库的应用环境。从图 中可以看出,在 CAD 系统中任一运行都离不开数据库。无应用程序方法库图形系统DBMSDATABASE图 1-4-5 工程数据库的应用环境论是交互设计、分析、绘图或数据控制信息的输出,所有这些工 作都建立在这个公共数据库上。数据库是 CAD 系统的核心,是 CAD 系统的信息源,是联接 CAD 应用程序、方法库及图形处理 系统的桥梁。在工程数据库中,存放着各用户的设计资料、原始 资料、规程、规范、曲型设计、标准图纸及各种手册数据。 2.工程数据库的特色 (1)设计者是一个临时用户; (2)主要数据库是图形和图象数据; (3)数据库规模庞大; (4)设计处理的状态是直观的和暂时的;45 (5)设计的多次版本信息都要予以保存; (6)事务是长寿的,从设计到生产周期较长; (7)数据要求有序性; (8)数据项可多达几百项。 这些特色决定了工程数据库与传统数据库的应用要求有着 许多不同之处。六、空间数据库目前,很多计算机应用系统都以一维、 二维和三维空间中的 对象为基础。我们简称描述一维、二维和三维空间对象的数据为 空间数据, 称以空间数据为处理对象的计算机应用为空间数据应 用。最早的空间数据应用是计算机辅助机械设计和几何应用。最 近,空间数据应用的范围已经扩展到了机器人、计算机视觉、图 象识别、地理信息处理等领域。空间数据应用对数据库系统提出 了新的空间数据管理要求。这些要求包括空间对象的表示、空间 数据的存取方法、空间对象查询语言和查询优化等。 地理信息系统和地图制图应用主要具有三个特点: (1)需要处理的数据量大; (2)需要空间和非空间两类数据; (3)需要记录空间对象随时间而演变的历史数据。 地理信息系统和地图制图应用需要处理的空间对象多数都 是二维点、线、多边形和其他基本几何图形。这些对象一般都不 是正规的几何图形。 地理信息系统和地图制图应用需要图形图形 叠加、图形图象的特征处理等特殊操作。七、时态数据库在实际应用中,数据往往随时间而变化。我们称随时间而变 化的数据为时态数据。很多数据库应用都涉及到的时态数据。这 些应用不仅需要存取数据库的当前状态, 也需要存取数据库随时 间变化的情况。46 管理时态数据的数据库系统需要对时间语义提供三方面的 支持:时间点、时间间隔、与时间有关的关系。传统数据库管理 系统在时态数据的表示上有两种局限性。第一种局限性是;不保 存数据库改变的历史。 每一个数据更新操作都删除了更新前的事 实。数据库仅仅保存某个领域的当前状态,而不能保存这个领域 的历史状态。第二种局限性是;数据一进入数据库就立即生效。 在很多应用中,数据的录入时间(即数据进入数据库的时间)和 数据可以被利用的时间是不同的。 为了克服这两种局限性,我们需要新的数据模型。这种数据 模型必须具有如下能力: (1)能够准确地表示时态数据的时间语 义 ;(2)能够区分随时间变化的信息和与时间无关信息并分别表 示之。除了数据模型方面的要求以外,时间数据库应用在查询语 言、存取方法、物理组织等数据库管理系统的各个方面都需要新 的技术。八、实时数据库实时数据库是用于实时应用的数据库, 如股票市场监控系统 中的数据库、工业工程控制系统中的数据库、雷达跟踪与控制系 统中的数据库、卫星接收处理中的数据库等。用于实时数据库管 理的数据库系统称为实时数据库系统。 实时应用的实时性使得实 时数据库系统中的事务具有严格的时间约束,如起始运行时间、 结束时间等。 实时数据库系统的正确性不仅依赖于数据处理的结果, 而且 还依赖于结果产生的时间。 实时数据库系统与传统数据库系统和 实时系统既有很多相似之处也有很多不同之处, 这三者的主要区 别如下:传统数据库 不考虑单个事务 的响应时间 实时系统 忽略数据库的 一致性 实时数据库 把事务的时间约束 处理和数据库完整47 性处理有机地结合为一体实时数据库系统并不是数据库系统和实时系统的简单合并。 实时数据库系统的核心问题是如何把事务的时间约束处理和数 据库完整性处理有机地结合为一体。 我们需要深入地研究实时数 据库系统的一系列新问题,如实时数据库的物理组织、实时事务 的模型、实时事务的调度策略、并发控制和恢复的协议与算法、 查询处理算法等。 所有这些问题的核心是保证最小化违背时间约 束事务的数量。§1.5 空间数据挖掘技术及应用一、空间数据挖掘的产生与发展1.空间数据挖掘的概念 空间数据挖掘(Spatial Data Mining,SDM) ,是指从空间 数据库中提取隐含的、 用户感兴趣的空间和非空间的模式和普遍 特征、空间数据与非空间数据之间的普遍关系的过程。 2.空间数据挖掘的特点 与传统数据挖掘的不同: (1) 传统数据挖掘处理的是数字和类别, 而空间数据则是一 些更为复杂的数据类型,例如:点、线、多边形等对象; (2) 传统数据挖掘通常具有显式的输入, 而空间数据挖掘的 输入则常常是隐式的; (3) 在传统数据挖掘中,有一个至关重要的前提假设:数据 样品是独立生成的。而这一假设在空间分析中是不成立的。事实48 上,空间数据之间是高度自关联的。 3.空间数据挖掘的产生 产生空间数据挖掘的推动力: (1) 空间信息正在逐步成为各种信息系统的主体和基础。 它 有着比一般关系数据库和事务数据库更加丰富和复杂的语义信 息,包含着更丰富的知识。 (2) 在地学领域,随着卫星和遥感技术的广泛应用,日益丰 富的空间和非空间数据收集和存储在大空间数据库中, 海量的地 理数据在一定程度上已经超过了人们处理能力, 同时传统地学分 析难以胜任从这些海量的数据中提取和发现地学知识。 因此,迫切需要增强 GIS 分析功能,提高 GIS 解决地学问题 的能力。 数据挖掘与知识发现的出现很好地满足了地球空间数据 处理的需要,推动了传统地学空间分析的发展。 4.空间数据挖掘的发展现状 武汉大学李德仁教授最早(1994 年)关注到从 GIS 数据库 中发现知识的问题, 提出从 GIS 数据库可以发现包括普遍的几何 知识、空间分布规律、空间关联规则、空间聚类规则、空间特征 规则、空间区分规则、空间演变规则和面向对象的知识目前,国 际上最著名且有代表性的通用 SDM 系统有: GeoMiner,Descartes 和 ArcViewGIS 的 S_PLUS 接口。 以上 SDM 系统的共同优点是把传统 DM 与地图可视化结合起 来,提供聚类、分类等多种挖掘模式,但它们在空间数据的操作 上实现方式不尽相同。 Descartes 是专门的空间数据可视化工具,它和 DM 工具 Kepler 两者联合在一起才能完成 SDM 任务。 GeoMiner 是在 MapInfo 平台上进行二次开发而成,系统庞49 大,造成较大的资源浪费。 S_PLUS 的局限在于,它是用一种解释性语言(Script) ,功 能的实现比用 C 和 C++直接实现要慢得多,所以只能使用与非常 小的数据库应用。二、空间数据挖掘方法及应用1.空间关联分析 即空间关联规则发现,其形式:A =》B[s%, c%] A 和 B 是空间和非空间谓词的集合,s%表示规则的支持度, c%表示规则的可信度。 例: is_a(X,”school”)∧close_to(X,”sports_center”) =&close_to(X,”park”) [0.5%, 80%] 此规则表明 80%靠近体育中心的学校同时也靠近公园,并且 有 0.5%的数据符合这一规则。 构成空间关联规则的谓词有,距 离信息: close_to (临近) 、 far_away (远离) ; 拓扑关系: intersect (交) 、overlap(重叠) 、disjoin(分离) ;空间方位:left_of (左边) 、west_of(西部) 空间关联规则的挖掘需要在大量的空间对象中计算多种空 间关系,代价极高。所以应采用逐步求精的挖掘优化方法 (Koperski) : (1)通过空间查询从初始空间数据库中获得和任务相关的 空间数据库; (2)使用一 些有效空间挖掘算法计算对象之间的空间联 接,从而获得一个候选谓词集合; (3)对(2)中所得到的谓词集合中的每一个谓词计算其支 持度,并且将那些支持度小于最小支持度的谓词删除; (4)对谓词集合进行进一步精化以决定准确的空间关系; (5)以(4)所得的候选集作为输入,生成空间关联规则。50 前期采用的粗略挖掘算法必须满足超级覆盖特性 (superset coverage property) :即它保持了潜在的答案: ? 允许假正测试(false positive test) ,即可以包括一 些不属于结果集的数据集; ? 不允许假负测试(false negative test) ,即不能排除 一些潜在的答案。 例如,挖掘与空间谓词 close_to 有关的空间关联规则: (1)使用一定的近似空间计算算法:如用最小边界矩形结 构(仅涉及两个空间点) ; ( 2 )计算放宽后的空间谓词,如 g_close_to ,它包括 close_to,touch 和 intersect 的结果。 2.聚类分析 聚类(clustering)就是将数据对象分组成为多个类或簇 (cluster) ,在同一个簇中的对象之间具有较高的相似度,而不 同簇中的对象分簇中的对象差别较大。 聚类分析是统计学的一个分支,与规则分类不同的是,聚类 算法无需背景知识, 能直接从空间数据库中发现有意义的空间聚 [46] 类结构。主要聚类方法的分类 : (1)划分方法: 给定一个 n 个对象或元组的数据库, 一个划分方法构建数据 的 k 个划分,每个划分表示一个簇(即 k 个组 ),k≤n。同时要 求: ? 每个划分至少包含一个对象 ? 每个对象必须属于且只属于一个组。 给定要构建的划分的数目 k,划分方法首先创建一个初始划 分。然后采用一种迭代的重定位技术,尝试通过对象在划分间移 动来改进划分。一个好的划分的准则是:在同一个类中的对象之51 间尽可能“接近”或相关;而不同类中的对象之间尽可能“远 离”或不同。 流行的启发式方法有:① k-平均算法;② k-中心点算法。 它们都是采用一种迭代的重定位技术, 尝试通过对象在划分间移 动来改进聚类效果。由于这类方法适用于发现大小相近的球状 簇,故常用在设施选址等应用中。 (2)层次的方法:对给定数据对象集合进行层次的分解。 主要有两种: 凝聚的方法:自底向上的方法,一开始将每个对象作为单独 的一个组,然后相继地合并相近的对象或组,直到所有的组合并 为一个(层次的最上层) ,或者达到一个终止条件; 分裂的方法:自顶向下的方法,一开始将所有的对象置于一 个簇中。在迭代的每一步中一个簇被分裂为更小的簇,直到最终 每个对象在单独的一个簇中,或者达到一个终止条件。 (3)基于密度的方法: 只要临近区域的密度 (对象或数据点的数目) 超过某个阈值, 就继续聚类。对给定类中的每个数据点,在一个给定范围的区域 中必须至少包含某给数目的点。这样的方法可以用来过滤“噪 声”孤立点,发现任意形状的簇。 3.分类方法 空间分类发现的规则在模式识别、基于内容的查询、图象分 类等应用中具有重要应用。 数据分类(data classification)是一个两步过程: (1)建立一个模型,描述预定的数据类集或概念集(或称 作分类器) 。 要构造分类器,需要有一个训练样本数据集作为输入。训练 集由一组数据库记录或元组构成,每个元组是一个由有关字段52 (又称属性或特征)值组成的特征向量,此外,训练样本还有一 个类别标记。 训练样本形式:(v1,v2,…vn, c);其中 vi 表示字段值,c 表示类别。 (2)使用模型进行分类。 分类器的构造方法有统计方法、机器学习方法、神经网络方 法等等。机器学习方法包括决策树法和规则归纳法,神经网络法 主要是 BP 算法。 决策树方法的分类稳定性优于神经网络方法。 4.统计方法 空间统计学(spatial statistics)是依靠有序的模型描述 无序事件, 根据不确定性和有限信息分析、 评价和预测空间数据。 空间统计学是基本的数据挖掘技术,特别是多元统计分析 (如判别分析、主成分分析、因子分析、相关分析、多元回归分 析等) 。举一实例,问题是某地区气象观测站的最优设置:某地 区内有 12 个气象观测站,为了减少开支,计划减少气象观测站 的数目。已知该地区 12 个气象站的位置,以及 10 年来测得的年 降水量,考虑减少哪些观测站可以使所得的降水量的信息足够 大? (1)模型的假设条件: ① 该地区的地理特性有一定的均匀性,而不是复杂多变的 地理特性; ② 相近地域的气象特性具有较大的相似性和相关性,可以 近似为一种线性关系; ③ 在距离较远的条件下,由于地形、环境等因素而造成不 同区域的年降水量相似的可能性很小,可以忽略,不同区域年降 水量的差异主要与距离有关。53 (2)建模分析 在原始数据中,若有 n 个观测站可以反映同一规律,可认为 这 n 个观测站相关性好,相似性好,可以去掉其中的 n-1 个观测 站,只保留一个,以这个观测站得到的观测值作为所去掉的 n-1 个观测站的代表,反映相似区域的气象规律。在减少观测站后, 所保留下的观测站仍能为预报工作提供足够的信息。 (3)建立数据模型 主要根据是: 任意两站的距离及平均降水量、 年平均降水量、 允许误差等; 可以得出:一个站代替另一站的最小距离、只需设的站数、 须保留的哪几个站点。 (4)最终结果 应保留的观测站为 8 个。 5.趋势分析 空间趋势指的是离开一个给定的起始对象 O 时,非空间属 性的变化情况。例如,当离城市中心越来越远时经济形势的变化 趋势。空间趋势分析的结果可能是正向趋势、反向趋势,或者是 没有趋势。一般而言,要在空间数据结构和空间访问方法之上分 析空间趋势需要使用回归和相关的分析方法。三、GIS 中数据挖掘的过程1.根据一定的主题要求及相关背景知识,从现有的分布式 空间数据库中提取数据并进行分析和处理,形成空间数据仓库; 2.根据确定的任务,选择合适的数据挖掘算法,包括合适 的数据模型和参数, 从空间数据仓库中挖掘用户所需要的知识信 息;3.对挖掘的知识进行评价,首先对其进行一致性检查,以 确定本次挖掘的知识与以前挖掘的知识是否相互抵触。其次,判 断受挖掘的知识是否满足要求, 以决定是否重复挖掘或者反复挖54 掘,从而获取更加有效的知识信息; 4.对挖掘所得到的知识信息,通过特定的生动形象的可视 化表达工具,以用户能够全面理解的方式呈现给用户。四、GIS 与空间数据挖掘的集成模式1.松散耦合式-外部空间数据挖掘模式 这种模式基本上将 GIS 作为一个空间数据库看待, 在 GIS 环 境外部借助其它软件或计算机语言进行空间数据挖掘,其与 GIS 之间采用数据通讯的方式联系。 2. 嵌 入 式-内部空间数据挖掘模式在 GIS 中将空间数据挖掘 技术融合到空间分析功能中去。 3.混合型空间模型法 是前两种方法的结合。即尽可能利用 GIS 提供的功能,最大 限度的减少用户自行开发的工作量和难度, 并保持外部空间数据 挖掘模式的灵活性。五、空间数据库挖掘的研究趋势1.算法的效率 空间数据的复杂性和数据的大量性,TB 数量级的数据库出 现,必然增大发现算法的搜索空间,增加了搜索的盲目性; 提高算法效率成为空间挖掘算法在实际}

我要回帖

更多关于 关系代数的基本运算 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信