1 引言
随着数字档案馆的建设和发展,档案工作者和社会群体越来越多地使用音视频档案,这意味着对音视频档案的整理和利用提出了更高要求。然而,目前在整理音视频过程中,著录往往仅限于一些简单的主题、责任者、文件格式等条目信息,不能够涵盖音视频档案的核心要素,更谈不上全部信息内容,也无法实现真正意义上的数据化。用户通过档案系统搜索音视频档案,只能得到有限的简单的著录信息,无法真正了解其内容,还需要一一打开音视频文件进行观看和收听,这无疑给给声像档案的整理和利用带来了极大的不便。这使得基于AI技术的音视频文件中的人脸识别、语音识别等智能应用的研究和构建刻不容缓。
2 音视频档案整理利用的现状
在目前国内各省市档案馆在音视频档案管理的整理、利用方面,普遍存在以下主要问题:
1.音视频文件整理过程中,档案数据庞大,且需要打开文件逐一进行听取或观看才能区分内容;大量音视频相同属性封装格式编码、码率等重复填写;对音视频文件的整理还停留在人工视听阶段,一边看一边听一边录,比如各档案馆对采集的地方新闻联播,就通过这种办法进行条目著录,不仅效率低、内容采集不全,还费时费力。
2.在音视频文件著录时,往往仅限于著录一些简单的主题、责任者、文件格式等条目信息,而且题名这类著录项至少需要完整观看或听取一遍才能判定,处理效率低、速度慢,著录的准确度和详细程度也都有待提升。
3.音视频档案检索速度慢,检索内容不准确、不全面,检索方式单一。传统的档案检索往往只能对系统中的结构化信息进行检索,查全率和查准率都不尽如人意。对于照片、视频、音频等多媒体文件进入档案数据库后,传统检索功能只能通过标题、元数据及其他人工著录的信息检索,却无法检索音视频档案的内容信息。例如,查找特定人物的视频档案时,存在只能通过人工查阅进行定位、分类、整理的困难。
4.在音视频档案利用实践中,很多时候无法根据这些有限的著录信息找到录音录像档案中的重要信息或片断,而通过人工全面观看进行查找的效率又过于低下。
随着AI技术的发展,音视频档案内容数据检索与高效整理利用已成为可能。基于AI的人脸识别和比对采用基于人工智能的高效人脸检索算法,达到错误拒绝率FAR和错误接受率FRR的平衡,上传人脸照片速度快,支持各种图片格式,能快速并精确的检索出相关人脸照片和视频;基于AI的语言识别运用基于人工智能的语音识别算法,识别速度快,拥有较低的句错率和字错率,能自动将识别到的视频信息标注到声像档案的字段,对识别的内容进行智能分词,也能对视频进行分段标注,方便查找利用。
基于人工智能技术的人脸比对和语音识别,可以给音视频档案管理利用工作带来技术创新,为音视频档案高效整理、便捷利用提供可行的解决方案。
3 人工智能技术在音视频档案整理利用中的应用研究
3.1总体架构
3.2技术研究
(一)声像档案人脸提取和结构化
利用深度学习人工智能算法提取人脸的特征数据、属性数据,将声像档案中的人脸数据提取后结构化并汇聚整合,建立档案人脸库。档案管理者也可通过对比档案人脸库,编辑标识人物姓名、身体特征信息,完成声像人物标注,形成描述统一、内容完备的人脸库。建立人脸库后再归档该人物声像档案可实现自动识别归类,比如还原某位优秀共产党员历史时只需搜索该人脸或者姓名、身份等信息,该人物在库中的所有相关声像档案立刻展现。
(二)声像档案的人脸检索与识别
在档案数据的检索利用上,馆藏声像档案系统可通过人脸库进行“1:N”、“M:N”的人脸检测,加速声像文件内容的快速检索利用,为政府和社会大众提供更高效、优质的信息共享利用服务。
1:N 检索是在海量的人脸库中找出当前用户的人脸数据并进行匹配。1:N具有动态比对与非配合的特点,动态对比是指通过对动态视频流的截取来获得人脸数据并进一步比对的过程,而非配合性是识别过程非强制性与高效性的表现,识别对象无需到特定位置便能完成识别工作。
M:N 检索则是通过计算机对声像档案场景内所有人进行面部识别并与人脸库进行比对的过程,是动态人脸比对,使用效率非常高,但其必须依靠海量的人脸数据库才能运行。
(三)音视频档案的语音识别
语音识别涉及的领域包括:数字信号处理、声学、语音学、计算机科学、心理学、人工智能等,是一门涵盖多个学科领域的交叉科学技术。音视频档案语音识别就是让系统通过识别和理解过程,把语音信号转变为相应的文本信息,可自动提取文本信息进行档案信息的智能标注和视频的分段标注,可和OCR识别的文本档案一起进行大数据分析,这一技术的采用将会大大提高声像档案的利用率,提升档案工作人员的工作效率。
语音识别的技术原理是模式识别,其一般过程可以总结为:预处理---特征提取---基于语音模型库下的模式匹配---基于语言模型库下的语言处理---完成识别。
(四)音视频档案新型存储模式和自动著录
声像档案系统打破了音视频文件单一存储模式,实现音视频档案的有序存储。针对传统的目录+原文的存储方式,声像档案系统新增了人物信息存储,通过预置相关人物人脸数据,在后台视频处理时进行比对,输出视频人物信息标注,打造“视频+音频+文字+人脸+目录”创新存储模式。
利用音频转写技术及文本分析技术,对音视频档案自动提取关键信息,按照数字声像档案著录规则,实现文件格式、音视频名称、时长、入点、文件大小等基本信息的自动著录,减少人工劳动量并提高工作效率。
(五)音视频档案自动分段和标注
声像档案系统可根据预先设置的规则与条件,自动将音频、视频拆分成主题不同的片段,能够以人物、文字内容、关键帧、场景事件等多种标准分割为不同的单元片段。利用音频转写技术及文本分析技术,实现对音视频档案数据化结果的内容要素的自动提取、人工标注、完成部分著录项的著录,同时还具备视频打点、拆条,实现字幕与音视频同步播放等功能。
系统还同时实现了对视频进行人像数据提取,标注人物信息,人物信息自动定位视频片段,输入文本中的文字或人脸图像时,能够跳转播放到相对应的音视频位置,实现文本或图像与音视频匹配应用。再次对视频图像进行结构化处理,结构化存储,为后期档案查询利用奠定基础,最终形成一套声像档案智慧管理模块,方便音视频档案的快捷归档利用。
3.3实践应用
(一)一体化智能检索
面对海量的声像文件,依托智能语音识别转写、人脸识别、视频图像分析、OCR识别等核心人工智能技术,针对图像、扫描文件、音频、视频内容无法高效检索的问题,实现智能化的“以图搜图、文字搜图、以字搜音、分帧查询”等一站式检索,高效帮助信息资源快速利用,真正盘活馆藏声像档案。
(1)融合检索:能够将与特定人物的相关的视频、音频、照片、文档一并检索出来,并进行分类统计。
(2)视频检索:通过人脸信息检索出所有符合该人脸特征的图像或视频帧,快速定位并播放,人脸检索的效率以及全面性都不是目录检索所能比拟的。
(3)音频检索:利用语言识别技术,可以检索出包含特定关键词的音视频的内容。
(4)全文检索:支持检索关键字在对应视频或录音中出现的内容,使得检索覆盖面更广,不遗漏任何一个有可能发挥价值的声像档案。
人脸检索
视频检索与自动分段标注
(二)一人一档
“一人一档”功能主要基于人脸数据进行分析,随着“人脸库”的建立,技术的革新与升级,更多的数据将汇集起来,为每一个人物建立一个“档案”,档案包括涉及相关人物的所有档案文本、视频、相片等信息,以时间轴的形式展现。“一人一档”将加速档案文件内容的检索利用。
每一个人物建立一个“档案”
以时间轴的形式展现
(三)多模态知识图谱
知识图谱将文本、音频、视频、图片等信息一并检索出来并结构化呈现彼此的关联关系,依靠大数据技术、图文挖掘技术以及大模型处理,对知识数据进行统一存储并进行深度提取与推理,将档案数据治理成知识。结合了多种信息模态的知识图谱,可用于组织、管理和检索档案数据,并提供一个更加丰富、直观和互动的档案数据检索和利用方式,对于高校科研、教学类等应用场景具有很大帮助。
知识图谱
4结语
综上所述,人工智能正在成为音视频档案领域的的一个重要驱动力,通过OCR识别、语音识别、人脸识别、智能分词和结构化等技术,研究声像档案人脸提取和结构化、M:N的人脸检索与识别、音视频档案语音识别、音视频档案新型存储模式和自动著录、音视频档案自动分段和标注等内容,给音视频档案整理利用工作带来技术创新,并实践应用于一体化智能检索、一人一档、多模态知识图谱等,帮助准确、高效地进行声像档案检索和整理利用工作。
在高校档案工作中,学籍档案的利用率是最高的,若将记录学生学习生活的音视频材料融入到学籍档案中,可以提供比纸质档案更为丰富和直观的信息,并且基于AI的音视频档案的智能检索、一人一档等应用可以对学生音视频资料进行检索和管理,使用户能够快速获取所需信息。另一方面,音视频档案AI管理应用可减轻档案馆老师们的业务工作量,档案馆老师们有更多精力放在学术科研和档案编研开发利用上,进一步提高档案的利用率。