《语义指纹著者姓名消歧理论及应用》提到的语义指纹是一种信息指纹,它将文献文本特征表示为固定位数(如64位或128位)的二进制指纹,保留了文本的语义特征且具有很好的降维效果。将语义指纹应用到姓名消歧是一种新的尝试,不仅可以实现良好的消歧效果,而且可以实现较高的消歧效率。
《语义指纹著者姓名消歧理论及应用》共分7章,第1章对姓名消歧进行了综述,第2章介绍了姓名消歧的主要方法,第3章介绍了姓名消歧相关国内外评测会议情况,第4章介绍了研究者标识系统,第5章介绍了语义指纹姓名消歧的相关理论,第6章介绍了基于语义指纹的著者姓名消歧,第7章介绍了基于语义指纹的专利发明人姓名消歧,第8章进行了总结和展望。
《语义指纹著者姓名消歧理论及应用》可以作为姓名消歧、科学合作网络、科技监测等研究的参考书。
狭义上讲,科学合作网络(Scientific Collaboration Network)是指以论文或专利数据中的合著关系为基础构建的社会网络。论文的作者、专利的发明人在本书统一称为著者或作者。科学合作网络中,节点是著者,边是著者之间的合著关系(Coauthorship)。虽然也有研究国家或地区间合作的科学合作网络,但本研究限定其为著者合著关系构建的网络。科学合作网络中的合著关系是一种强社会关系,合著者一般认识,往往是同一个机构、同一个项目、同一个科研工作中的“同事”,或者通过其他合著者间接认识,所以它在揭示科研工作者的关系、发现科研合作社区、提升学术信息检索质量、评价科研人员的能力、提供学术推荐和科研合作建议、服务科研论文和项目评审等方面有着重要的应用,从而受到了不少研究人员的关注。
在对科学合作网络进行研究的过程中,我们发现构建的科学合作网络由很多不连通的子网络构成,其中通常存在一个作者数量很多的“中心网络”和很多作者数量较少的“边缘网络”。文献调研中发现,虽然不少研究者已经注意到构建的科学合作网络是由很多不连通的子网络构成的,但并未就其进行深入研究。科学合作网络的不连通问题会在一些实际应用产生错误的结果,影响其应用效果。为此,本项目拟对不连通问题的原因、不连通问题对实际应用的影响进行分析,探索提高科学合作网络连通性的方法。基于不连通是因为数据不全面的假设,对中英双语言体系下的跨数据库姓名消歧问题进行研究,在此基础上,对采用关系扩展方法提高科学合作网络连通性的方法进行研究。基于关系扩展法成本高、效率低等不足,对采用链接预测算法提高科学合作网络连通性的方法进行研究。通过对科学合作网络不连通问题的研究,探索提高连通性的方法,希望为科学合作网络的深入研究和应用提供新的理论或方法的指导。
在科学合作网络研究中,著者姓名消歧是普遍认可的一个重要步骤,也是一个关键步骤。来源于传统图书馆权威控制(Authority Control)思想的人工消歧固然是一种较为可靠的方法,但该方法效率较低,人为因素可能造成消歧效果充满不确定性,使其难以满足文献数据量激增和数字图书馆服务及时化的需求。因此,采用自动化的姓名消歧技术是一种更为现实的解决方案,也是当前的研究热点和重点。自动姓名消歧技术是自然语言处理的基本问题之一,最初是作为实体共指现象来研究的,后来在一些会议和评测竞赛的推动下,姓名消歧作为一个单独的研究问题被提出来。提出的众多自动化消歧技术大体上可以落入无监督和有监督的机器学习的范畴。虽然很多算法被提出来以解决这个问题,但迄今为止不少研究者认为它依然是学术界的一大难题。此外.当前的自动化处理技术多研究静态数据环境下的姓名消歧,大多需要较大的运算量,较少考虑真实的、动态的数字图书馆情景下的消歧。
韩红旗,中国科学技术信息研究所副研究员,硕士生导师。主要研究领域包括文本挖掘、复杂网络分析、知识工程、知识管理等。现已发表学术论文40余篇,参编专业图书7部,申请发明专利3件、软件著作权5件,参加国家高水平科研项目20余项,获省部级三等奖1项。目前主持国家自然科学基金面上项目“科学合作网络的不连通问题研究”,作为主要参与人参与国家自然科学基金项目“面向科技监测的实体识别与关系抽取研究”和“基于论文和专利资源的技术机会发现研究”的研究。
第1章 姓名消歧综述
1.1 姓名歧义现象
1.2 姓名歧义带来的挑战
1.3 著者姓名歧义问题
1.4 研究意义
1.5 国内外研究现状
1.5.1 姓名消歧研究的来源
1.5.2 网页人名消歧的研究现状
1.5.3 著者姓名消歧的研究现状
1.6 本章小结
第2章 著者姓名消歧方法分类及研究综述
2.1 著者姓名消歧方法分类
2.2 人工著者姓名消歧方法
2.3 基于规则的著者姓名消歧方法
2.3.1 基于规则和阈值的姓名消歧方法
2.3.2 基于相似度打分表的姓名消歧方法
2.4 基于机器学习的著者姓名消歧方法
2.4.1 基于监督学习的姓名消歧方法
2.4.2 基于无监督学习的姓名消歧方法
2.4.3 基于半监督学习的姓名消歧方法
2.5 基于语义指纹的著者姓名消歧方法
2.6 基于唯一标识的著者姓名消歧方法
2.7 其他著者姓名消歧方法
2.7.1 基于社会网络的姓名消歧方法
2.7.2 基于网络知识资源的姓名消歧方法
2.8 现有方法对比分析
2.9 本章小结
第3章 姓名消歧相关的评测
3.1 WePS网页人物搜索评测
3.1.1 WePS
3.1.2 WePS
3.1.3 WePS
3.2 PatentsView专利发明人姓名消歧评测
3.2.1 数据
3.2.2 评价指标
3.2.3 竞赛结果
3.3 TAGKBP命名实体消歧评测
3.4 中文姓名消歧评测
3.4.1 2010年中文人名消歧评测
3.4.2 2012年中文人名消歧竞赛
3.5 本章小结
第4章 研究者标识系统
4.1 背景
4.2 国内外现状与本研究实施技术路线
4.2.1 国内外现状
4.2.2 实施技术路线
4.3 研究者标识系统案例
4.3.1 ResearchID
4.3.2 ORCID
4.3.3 研究者名称解析系统
4.4 研究者信息系统整合案例
4.4.1 Researcher.ID与0RCID
4.4.2 研究者名称解析系统与ORCID
4.5 中国研究者标识系统的应用设计
4.5.1 中国研究者标识系统框架设计
4.5.2 中国研究者标识系统与ORCID整合设计
4.5.3 中国研究者标识系统建设需要注意的问题
4.6 本章小结
第5章 语义指纹姓名消歧的基础理论
5.1 信息指纹
5.2 哈希函数
5.2.1 Rabin哈希函数
5.2.2 SDBM哈希函数
5.2.3 MD5哈希函数
5.2.4 SHA-1哈希函数
5.2.5 哈希函数对比
5.3 语义指纹介绍
5.3.1 语义指纹的概念
5.3.2 语义指纹的研究现状
5.3.3 语义指纹的应用
5.3.4 主要语义指纹算法
5.4 主要文本相似度计算方法
5.4.1 基于向量空间模型的相似度计算方法
5.4.2 基于字符串匹配的相似度计算方法
5.4.3 文本相似度计算方法比较
5.5 主要聚类算法
5.5.1 K-means聚类
5.5.2 层次聚类
5.5.3 图聚类
5.5.4 DBSCAN算法
5.5.5 聚类算法对比
5.6 本章小结
第6章 基于语义指纹的论文著者姓名消歧
6.1 引言
6.1.1 研究背景
6.1.2 研究意义
6.1.3 主要研究内容
6.2 方法
6.2.1 方法的原理
6.2.2 PDF2TXT
6.2.3 指纹生成器
6.2.4 指纹比较器
6.2.5 认领决策器
6.2.6 作品指派器
6.2.7 争议仲裁器
6.3 评价指标
6.4 实验结果
6.4.1 实验数据集构建
6.4.2 数据预处理
6.4.3 姓名消歧特征选择及独立特征姓名消歧实验
6.4.4 基于语义指纹的综合特征姓名消歧实验
6.5 本章小结
6.5.1 技术内涵
6.5.2 可能的应用
6.5.3 研究限制
6.5.4 未来研究方向
第7章 基于语义指纹的专利发明人姓名消歧
7.1 引言
7.1.1 研究背景
7.1.2 研究意义
7.1.3 主要研究内容
7.2 专利发明人姓名消歧方法
7.2.1 总体架构
7.2.2 数据获取
7.2.3 数据规范化
7.2.4 特征提取
7.2.5 语义指纹生成
7.2.6 分块策略设计
7.2.7 参数估计
7.2.8 实验步骤
7.2.9 小结
7.3 评价指标
7.4 专利发明人姓名消歧实验
7.4.1 数据处理
7.4.2 实验结果及讨论
7.4.3 小结
7.5 本章小结
7.5.1 主要研究结论
7.5.2 研究局限性
7.5.3 未来研究方向
第8章 总结及展望
8.1 总结
8.2 展望
参考文献