基于模态特定和共享生产对抗网络的跨模态检索方法
成果名称 | 基于模态特定和共享生产对抗网络的跨模态检索方法 | |||||||
成果联系人 | 吴飞 | 职称 | 副教授 | 所在单位 | 自动化学院、人工智能学院 | |||
联系电话 | wufei_8888@126.com | |||||||
技术成熟度 | 技术分类 | |||||||
核心专利号 |
| |||||||
所属学科方向 | 一级学科 | 计算机科学与技术 | 二级学科 | 计算机应用技术 | ||||
应用行业 | 互联网 | |||||||
项目概况:
由2020年下半年互联网网络信息中心发表的第46次《中国互联网络发展状况统计报告》可知:2020年的上半年我国网民规模达9.4亿,互联网普及率达到67%,当今社会已经全面进入了大数据时代。电商直播、短视频软件以及新闻网站等每时每刻都在产生海量的数据,这些数据通常具有数据量大、数据源广泛、数据增长速度快、数据模态种类多等特点。以互联网新闻为例,通常包括文字介绍,照片,视频和音频的报道。文本、图像、视频、音频等多模态数据虽然数据形式不同,但反映的是同一信息,人们可以从多个角度去高效地获取同一信息的多个不同方面。 随着数据量的增大,用户获取这些多模态信息的成本也在增加,信息检索受到越来越多人的关注。用户不仅仅需要单一模态数据之间地检索,检索需要更加灵活多变,例如从文本模态去检索视频模态的数据。跨模态检索指的是输入任意一种模态的查询数据,检索并输出与被查询数据语义相关联的其它模态的数据,更加符合大数据时代的要求。 图1. 图像-文本跨模态检索示意图
| ||||||||
关键技术:
现有跨模态检索方法大多侧重于模态共享信息的挖掘,将不同模态的数据映射到一个公共空间中,以获得公共的表示,而没有考虑模态特定信息的挖掘和利用。针对该问题,本研究团队提出了一种新的跨模态检索方法,即模态特定和共享生成对抗网络。该项工作的意义在于:(a)采用两个前馈网络学习每个模态的模态特定特征,然后使用一个公共子网络学习模态共享特征。学习的模态特定特征表示与共享特征表示相结合以进行检索。(b)网络训练采用对抗学习机制。生成模型用标签信息对模态间和模态内的相似性进行建模,并确保特定和共享特征之间的差异;判别模型对模态共享特征的模态属性进行分类,以提升模态不变性。(c)在多个公开的多模态数据集上的实验结果(检索精度)表明,该方法的性能优于相关的研究工作。该项成果发表于Pattern Recognition期刊。 图2. 模态特定和共享生成对抗网络架构图
| ||||||||
应用领域和市场前景: 随着互联网多模态数据的大量出现和传播,“管不住”和“用不好”两大问题也日益突出。“管不住”是指多模态大数据中隐藏着大量涉恐、涉暴等有害信息,极大地危害着国家安全和社会稳定,目前还缺乏有效的自动的分析与识别技术。“用不好”是指现有技术主要是单模态分析与识别,仅针对信息有限的单模态数据,难以对多模态数据进行有效利用。如何让计算机看懂世界,实现对互联网多模态大数据的有效监管与利用,是目前急需解决的重大问题。所设计模型能够有效提升跨模态检索精度,可用于涉及多媒体计算的多种应用场景。
| ||||||||
合作方式(技术转让,技术开发,技术服务,技术咨询,技术入股):
技术开发 技术服务 |