本书是模式识别和场景分析领域奠基性的经典著作。在第2版中, 除了保留第1版中关于统计模式识别和结构模式识别的主要内容以外, 还新增了许多新理论和新方法, 其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。本书还为模式识别未来的发展指明了方向。书中包含许多实例, 各种不同方法的对比, 丰富的图表, 以及大量的课后习题和计算机练习。
本书第1版《模式分类与场景分析》(Pattern Classification and Scene Analysis)于1973年问世,在逾越四分之一世纪以后我们重写了第2版。写作的初衷依然不变,即尽可能对模式识别中的各个重要课题,尤其是对基本原理进行系统性介绍。我们相信这会为相当多有待解决的专门问题,诸如语音识别、光学字符识别或信号分类等,提供必需的基础。本书第1版的许多读者经常问我们为什么要把“模式分类”与“场景分析”结合在一本书里写。在当时,我们所能做的回答是,分类理论的确是模式识别学科中最重要的与领域无关的(domainindependent)理论,而场景分析是那个年代仅有的并且重要的应用领域。况且,根据1973年的研究水平,完全有可能把两个内容集中在一本书中阐述清楚而不显肤浅。在随后的这些年中,模式识别的理论和应用领域已经迅速扩展,使得上述观点再也站不住脚。因为必须要做出选择,所以我们决定在本版中只介绍分类理论,而把有关应用的课题留给其他专门书籍来解决。自1973年以来,对第1版提出的许多问题开展了大量的研究,并且取得了长足的进步。仅仅是计算机硬件的发展已经大大超过了学习算法和模式识别的步伐。第1版提出的一些突出问题目前已获圆满解决,然而另外一些却依然让人灰心。模式识别系统所显现的重大作用,使该领域的研究方兴未艾,并且激动人心。
当我们撰写本书第1版时,模式识别还只是相当专门的学科,但从其目前丰富的应用领域来看,它已变得十分博大。这些应用包括:笔迹和手势的识别、唇语技术、地学分析、文件检索以及气泡室中的亚原子轨迹判读。它为大量人机界面问题提供核心算法,比如笔输入计算。第2版的篇幅正说明了其现有理论的广博。虽然我们预计本书的绝大多数读者都对开发新的模式识别系统感兴趣,但也不排除有少部分人专注于深刻理解现有的模式识别系统。这当中最显著的莫过于人类和动物的神经认知系统。虽然研究模式识别的生物学起源已明显超出本书的范围,但是,由于对自然界中的模式识别能力感兴趣的神经生物学家和心理学家也越来越多地依赖于先进的数学和理论的帮助,因此这部分专家也必将从本书中获益。
尽管已有很多优秀的书籍集中讨论了某一部分技术,我们仍然强烈地感觉需要像本书这样采取某种不同的讨论方法。也就是说,本书并非集中在某些专门技术(如神经网络)上,相反,我们对一类特定的问题——模式识别——开展研究。本书讨论了多种可行的技术。学生和实践者常常需要知道某种技术是否适用于他们的特定需求或者开发目标,许多专门研究神经网络的书籍未必会讨论其他的技术(诸如判定树、最近邻方法或者其他分类器)以提供比较和选择不同方案的依据。为了避免出现这种问题,我们将在本书中对比讨论各种分类技术,并讨论各自的优势和缺点。
所有这些发展要求改写本书的第1版,以获得一个统一的更新的版本。这一版我们不仅丰富了内容,并且在以下几方面进行了改进。
新的材料书中包含很多最近才发展起来并被实践证明有用的模式识别的新技术,比如神经网络、随机方法以及有关机器学习理论的问题,等等。虽然本书仍然以统计技术为主,但是为了保持完整性,我们也加进了句法(结构)模式识别的内容,以及许多“经典”的技术,如隐马尔可夫模型(HMM)、模型选择机制、组合分类器等。
丰富的例题本书包含许多例题,这些例题通常使用很简单的数据,避免冗长单调的计算,但是又足够复杂,使得能够清楚地解释关键知识点。例题的作用在于增强直观认识,并帮助学生解答课后习题。
算法列表凭借算法可以最清楚地解释所讲述的模式识别技术。本书提供了很多算法。算法只是相应的完整计算机程序的一个基本骨架。我们假定每位读者都熟悉算法采用的伪码形式,或者可以通过上下文来理解
。加星号的节有些节加了星号,表明有些专门化,通常是一些补充材料,但它们一般不影响对后续不带星号的节的理解,所以在初次阅读时可以跳过。
上机练习这些练习并不限制采用哪种计算机语言或系统,学生可以根据情况选择适合自己的语言或系统。
习题增加了一些课后习题,并按提出问题的章节组织。本书的习题另有答案手册,可供教师选用。
关于本书教辅资源,只有使用本书作为教材的教师才可以申请,需要的教师可向约翰·威立出版公司北京代表处申请,电话01084187869,电子邮件ayang@wileycom。——编辑注
每章小结每章小结中含有该章中出现的重要概念和知识点。
增强的图表为了更好地展示概念,我们花了很大的力气来增强本书中的图表,以解释正文中的要点。部分图表经过了大量精心的计算和细致的参数设置。相关的Adobe Acrobat格式的文件可以登录http://wwwwileycom/products/subject/engineering/electrical/software supplemelecenghtml获得。
附录学生们未必拥有所必需的数学基础,这一点也不令人奇怪。为此,在书后附录中补充了必要的数学基础知识。我们力求通篇使用清晰的表示法来解释关键特性,同时又保持可读性。附录中的符号列表能够帮助那些愿意仔细钻研预先使用符号的章节的读者。
本书包含足以适合两学期教学的高年级本科或研究生课程的内容,当然要是仔细挑选也适合一学期使用。一学期课程应当包括第1~6章、第9章和第10章(大部分来自第1版的内容,仅仅增加了神经网络和机器学习),加星号的各节可讲可不讲。
由于研究和发展速度如此之快,每章末尾的文献和历史评述就显得十分有必要,尽管有些简略。我们的目的是帮助读者有重点地选择参考文献来阅读,而并不是记录整个历史发展过程和感谢、赞美或表扬某些研究者。参考文献中有的重要文献可能未必在正文中提及,读者可根据标题自行选阅。
如果没有以下研究机构的帮助,我们是不可能完成本书的。第一个也是最重要的一个当属理光发明公司(Ricoh Innovations,DGS & PEH)。在动荡和严酷的工业竞争环境中,以及对产品和创新的无休止的需求压力之下,该公司能够支持像本书这样长期和广泛的教育研究项目,反映出这里有了不起的环境和氛围,以及少有的和明智的领导集体。感谢理光发明公司研究发展部主任Morio Onoe在我们开始写作时给予的热情支持。同样要感谢在写作本书时为我们提供临时住所和帮助的圣何塞加州州立大学,斯坦福大学电气工程系、统计学和心理学系,加州大学伯克利分校,国际高等科学研究院,尼尔斯·玻尔研究所,圣塔·菲研究所。
非常感谢斯坦福大学的研究生Regis Van Steenkiste、Chuck Lam和Chris Overton在图形准备方面提供的巨大帮助,Sudeshna Adak在解答习题中的帮助。感谢理光发明公司的同事Kathrin Berkner、Michael Gormish、Maya Gupta、Jonathan Hull和Greg Wolff的多方面帮助,图书馆工作人员Rowan Fairgrove帮助找到了很多难找的文献,并确认了许多文献作者的名字。本书的很多内容来自斯坦福大学和圣何塞加州州立大学的讲义,从研究生那里得到的反馈使我们受益匪浅。许多教员和科研同人为本书提供了很好的建议,并纠正了很多疏误。特别要感谢Leo Breiman、David Cooper、Lawrence Fogel、Gary Ford、Isabelle Guyon、Robert Jacobs、Dennis Kibler、Scott Kirkpatrick、Benny Lautrup、Nick Littlestone、Amir Najmi、Art Owen、Rosalind Picard、J.Ross Quinlan、Cullen Schaffer和David Wolpert,他们对本书进行了评论。各领域的著名专家审阅了本书各章,他们是Alex Pentland(1)、Giovanni Parmigiani(2)、Peter Cheeseman(3)、Godfried Toussaint(4)、Padhraic Smyth(5)、Yann Le Cun(6)、Emile Aarts(7)、Horst Bunke(8)、Tom Dietterich(9)、Anil Jain(10)和Rao Vemuri(附录),括号中的内容是他们审阅的章。他们富有洞察力的评语对本书多方面的改进都有帮助。不过,我们对仍然存在的错误负责。本书编辑George Telecki给了我们很大的鼓励和支持,而且没有抱怨我们一拖再拖。他和Wiley公司的其他员工都非常乐于帮助我们,给我们提供了许多专业支持。最后非常感谢Nancy、Alex和Olivia Stork对我们沉迷写作的理解和忍耐。
David G. Stork
Richard O. Duda
Peter E. Hart
2000年8月
理查德·O.杜达, 圣何塞州立大学电气工程系荣休教授, 以其在声音定位和模式识别方面的工作而闻名。皮特·E.哈特, 加州理光发明公司创始人、总裁。大卫·G.斯托克, 加州理光发明公司首席科学家, 斯坦福大学电气工程与计算机科学系客座教授。