基于聚类算法的图书馆书目推荐服务 https://www.chnlib.com https://www.chnlib.com/LunWen/2017-02-02/94167.html 潘小凤(南京化工职业技术学院图书馆,江苏 南京 210048)[摘 要]介绍了数据挖掘中聚类算法的定义、功能及常用算法,并根据南京化工职业技术学院的实际情况,构建数据源,设计基于聚类算法的图书馆书目推荐服务。[关键词]图书馆 数据挖掘 聚类算法[分类号]G250.7目前国内图书馆信息化水平有了较大提高,积累的业务数据成几何级数增长,数据库中存在的大量信息为数据挖掘提供了前提条件。但如何开发利用这些闲置的数据,分析内部关联关系,将隐含在其中的有潜在利用价值的数据进行重新组合,转化为有用的信息和知识,值得我们

基于聚类算法的图书馆书目推荐服务


  • 时间:2017-02-05 13:49:17
  • 来源:本站发布
  • 作者:潘小凤

潘小凤

(南京化工职业技术学院图书馆,江苏 南京 210048)

[摘 要]介绍了数据挖掘中聚类算法的定义、功能及常用算法,并根据南京化工职业技术学院的实际情况,构建数据源,设计基于聚类算法的图书馆书目推荐服务。

[关键词]图书馆 数据挖掘 聚类算法

[分类号]G250.7

目前国内图书馆信息化水平有了较大提高,积累的业务数据成几何级数增长,数据库中存在的大量信息为数据挖掘提供了前提条件。但如何开发利用这些闲置的数据,分析内部关联关系,将隐含在其中的有潜在利用价值的数据进行重新组合,转化为有用的信息和知识,值得我们深入探讨。

1 数据挖掘在图书馆个性化服务中应用的现状

数据挖掘(又称知识发现)是一种探索性数据分析技术,借助这项技术,能够围绕个性化服务对读者行为、文献资源利用等进行分析,以提高数字资源的使用效率以及师生对图书馆个性化服务的满意度。

国内数据挖掘技术在读者个性化服务中的应用研究成果颇为丰富,通过对师生读者信息、借阅查询信息和网站访问信息等进行挖掘,例如建立个性化服务模型、为参考咨询提供依据以及在“云图书馆”中的应用等;国外相关研究则体现在基于图书馆个性化服务的算法、用户分类、文献检索及推荐、管理与决策支持、应用开发[1]这几方面。

尽管基于数据挖掘的图书馆个性化服务研究成果不少,但仍存在诸多不足。

①对“数据孤立子”研究还不够。目前对数据主要采取降噪或者删除无关属性等方法,把原本可利用的数据丢弃。“数据孤立子”产生原因很多,部分原因在于系统设计的缺陷,或者用户业务熟悉程度不够,或者特殊的业务场景。对于孤立子数据可以具体情况具体分析,通过信息反馈等手段补齐数据;也可以考虑完善数据库设计,从数据挖掘角度出发,在不增加用户负担的情况下,尽可能多地收集信息,通过不断修改而达到完善。

②数据挖掘算法的效率、成本和可扩展性问题。数据挖掘是直接面向海量数据库系统和大型文件的,这类数据库通常有大量属性和海量的数据记录,一般数据表之间包含复杂的关系,这就必然导致在数据挖掘过程中其搜索的维数和搜索空间的量激增,也增加了诸多不确定性和出现错误模式的可能性。提高算法的效率、具有规模收缩性是在实际应用中遇到的一个重要挑战[2]。

③实践层面研究成果不足。个性化数据挖掘需要懂图书馆业务、懂挖掘算法、掌握数据挖掘技术的人来实现,高校图书馆此类人才相对不足,实践创新能力不足。

2 数据挖掘的聚类算法

图书馆数据挖掘是从图书馆的大型数据库和网站信息中分析、发现并提取有用的信息,目的是帮助图书馆工作人员寻找业务数据间潜在的联系,发现被忽略的要素,而这些信息对提供个性化服务非常必要[2]。

从国内外目前的研究进展来看,“现有的数据挖掘方法和技术可以分为6大类:①归纳学习方法;②仿生物技术;③公式发现;④统计分析方法;⑤模糊数学方法;⑥可视化技术”。在图书馆个性化服务的挖掘关系较为密切的算法有:分类、聚类、关联、偏差分析、时序模式、预测等。

其中,聚类算法(Cluster algorithm)存在模式(Pattern)概念是一个度量的向量,或为多维空间中的一个点,而聚类算法由若干模式构成;聚类的基础为相似性,相同聚类的模式比其他聚类的模式存在一定的差异。

所谓聚类就是对象进行集合,并组成具有相似性的对象组(类)或簇的过程。即生成的类是一组数据对象的集合,同一类中的对象相似,不同类中的对象相异,通过聚类可发现数据集中的数据分布特征。

图书馆业务数据中,通过聚类方法能从用户基本信息中发现不同类型的人群,并且可以用来刻画不同人群的基本特征。聚类算法还可以应用在数据挖掘算法的预处理环节,对聚类后的数据进行其他的研究和处理。

聚类分析的主要方法有:分割聚类、层次聚类、基于密度聚类、基于网格聚类和基于模型聚类。而分割聚类算法通过给定一个有N个元组或者记录的数据集,把对象按照最相似特征值划分到不同的类,通过反复迭代对产生的类进行不断调整,最终达到最优目的。具有代表性的两大类计算方法如下:①k-means算法。其主要特点是在完成每一次的对象划分后,以每个类的所有对象特征值的平均值作为该簇新的中心,直到所有的类不再变化。②k-medoid算法。每个类的中心以最接近聚类中心的对象来表示,k-medoid的典型算法有PAM、CLARANS等。分割聚类在大小和密度相似的情况下,能取得较好的聚类效果[3]。

回到顶部