基于内容的多媒体信息检索在数字图书馆中的应用 https://www.chnlib.com https://www.chnlib.com/LunWen/2017-02-03/117286.html 关键词:内容;多媒体;信息检索;数字图书馆;应用摘 要:本文论述了基于内容的多媒体信息检索在数字图书馆中的应用,指出了存在的问题及其发展趋势,以使数字图书馆中的多媒体信息得以有效管理与充分开发利用。中图分类号:G252 文献标识码:A 文章编号:1003-1588(2009)05-0079-04 The application of content-based multimedia information retrieval in digital libraries CHEN L

基于内容的多媒体信息检索在数字图书馆中的应用


  • 时间:2017-02-07 21:14:33
  • 来源:本站发布
  • 作者:陈丽君

自动语义识别和标引是基于内容的图像信息检索领域一个新的研究方向。在理想状态下,自动语义识别和标引能够发现一幅图像中包含的语义特征并给它分配一组元数据,因此允许用户通过文本的方式检索图像信息。然而,如何从图像的物理特征中自动提取语义特征,是个难题,需要人机交互、机器学习、神经网络等方面的知识。此外,计算机处理器和人脑之间的语义差距是开发一个性能良好的自动语义识别和标引系统的主要障碍。Wang的AUPR项目(http://alipr.com)是此领域的一项研究成果。通过网络界面,用户可通过几种不同的方式检索图像信息:可进行基于文本的检索和向系统提供反馈信息检索类似图像:也可上传一幅图像,系统通过对该图像进行语义分析,自动产生一系列的标引或标签,然后在数据库中检索与所上传图像具有相似视觉特征的图像。在自动标引过程中,如果用户感觉系统自动给出的标签不太合适.也可为该图像输入其他合适的标签来描述该图像。

基于内容的图像信息检索技术未来的发展趋势是图像检索人机结合:高层语义与低层视觉特征建立某种联系,需要一些学习机制,如神经网络、遗传算法及聚类算法等;面向web,图像数据需要成熟的搜索引擎;高维数据的索引:图像内容的主观感知;图像特征映射与图像基寻找:交叉领域和多媒体的融合等。3.2基于内容的音频信息检索在数字图书馆中的应用

基于内容的音频信息检索指通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似,通过检索语义来达到音频检索的效果。音频检索首先是建立音频和特征数据库,对音频数据进行特征提取,将相同类型的音频数据装入数据库的原始音频库部分,把特征装入特征库部分,然后进行音频分割、识别和音频检索。相应地.基于内容的音频检索技术就包括音频信号特征提取、音频分割和识别、音频检索等。

国外研究机构对音频检索进行了多方面的研究,例如:GuohuiLi等提出了使用小波方法进行音频检索的研究:IBM Almaden研究中心的MalcolmSlaney提出了音频例子和语句可互相转换的MPESAR系统:ChengYang、GeorgeTzanetakis等用不同的算法实现了具有音乐检索功能的系统:EloiBatlle等提出了基于HMM的音频检索系统:JohnH.L.Hansen提出了用于NGSW快速检索算法等。

国内早期在音频检索方面的研究并不多,最早的研究成果是一套基于内容的音频信息检索与分类系统ARS。但近几年来发展迅速,例如:台湾清华大学开发的基于语音识别的语音检索系统Sovide:上海交通大学开发的基于内容的音乐检索系统:中科院开发的“嵌入式语音识别系统”:罗骏等人提出的基于拼音图的语音关键词检索系统。国家863智能计算机专家组为语音识别技术研究专门立项,在一定程度上推动了语音方面的研究。近年来,我国语音识别技术的研究水平已经基本上与国外同步,由此也推动了音频检索研究的迅速发展。

基于内容的音频信息检索技术面临的挑战主要集中在:直接压缩域音频检索;基于高层听觉感知模型的音频信息检索;音频类别的确定;基于情感的分类研究等方面。3.3基于内容的视频信息检索在数字图书馆中的应用

基于内容的视频信息检索指通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段一镜头,作为检索的基本单元,在此基础上进行代表帧的提取和动态特征的提取,形成描述镜头的特征索引;依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据,按照用户要求返回给用户。因此,其处理技术包括视频结构的分析、视频数据的自动索引和视频聚类。 哥伦比亚大学的Chang et aL于1997年开发的Vid-eQ系统(www.ctr.columbia.edLJVideoQ)是最早的基于内容的视频信息检索系统之一。该系统是全自动的面向对象基于内容的视频信息检索系统,它扩充了传统的基于关键字或主题导航的检索方法,允许用户使用视觉特征和时空关系来检索视频。其最突出的特点是可根据用户对物体的特征、运动以及物体中相互关系的描述来查找相关镜头。该系统有以下几个特征:集成文本和视觉搜索方法.自动地对视频对象进行分割和追踪,提供包括颜色、纹理、形状和运动在内的丰富视觉特征库,通过因特网交互查询和浏览。目前Vid-eQ视频库有超过3000段视频,每段都被压缩成三层结构保存。

回到顶部