信息安全研究 ›› 2019, Vol. 5 ›› Issue (11): 988-992.

• 内容安全与人工智能专题 • 上一篇    下一篇

图像内容自动描述技术综述

邓旭冉1,李灵慧2,唐胜2,张勇东2   

  1. 1. 中国科学技术大学
    2. 中国科学院计算技术研究所
  • 收稿日期:2019-11-08 出版日期:2019-11-15 发布日期:2019-11-20
  • 通讯作者: 李灵慧
  • 作者简介:邓旭冉 博士研究生,主要研究方向为多媒体内容分析与安全. kjj3chu@sina.com 李灵慧 博士研究生,主要研究方向为多媒体内容理解. lilinghui@ict.ac.cn 唐胜 副研究员,博士生导师,主要研究方向为多媒体内容理解. ts@ict.ac.cn 张勇东 研究员,博士生导师,主要研究方向为多媒体内容理解. zhyd@ict.ac.cn

A Survey of Image Captioning Technology

  • Received:2019-11-08 Online:2019-11-15 Published:2019-11-20

摘要: 图像内容自动描述是计算机视觉和自然语言处理领域的一个重要任务,在生活娱乐、智慧交通以及帮助视觉障碍者理解视觉内容等领域有着广泛而重要的应用价值.相比于图像分类和目标检测等感知任务,图像内容自动描述是一种更高级别、更复杂的认知任务,对帮助分析和理解图像有着重要的意义.旨在对现有的图像自动描述技术进行全面的综述.讨论图像内容自动描述中常用的数据集和评价指标,以及现有图像自动描述技术的性能、优点和局限性.

关键词: 图像内容描述, 卷积神经网络, 循环神经网络, 注意力机制, 深度学习

Abstract: Image captioning is an important task in the field of computer vision and natural language processing. It has a wide and important application value in our life and entertainment, intelligent transportation and helping people with visual impairment. Compared with other perception tasks such as image classification and object detection, image captioning is a higher level and more complex cognitive task, which has a great significance to help analyze and understand images. In this paper, we aim to give a comprehensive overview of the existing image captioning techniques. Here we discuss the data sets and evaluation metrics commonly used in image captioning, as well as the performances, advantages and limitations of existing image captioning techniques.

Key words: image caption, CNN, RNN, attention, deep learning