近日,计算机学院硕士研究生三篇论文(两篇一作,一篇主要参与)被人工智能与计算机视觉领域的CCF A类顶级会议CVPR 2023录用,彰显了计算机学科在研究生学术创新能力培养方面的成效。
在论文“Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering”中,研究了如何利用“外部知识”进行跨媒体推理的挑战性问题。GPT-3、ChatGPT等大规模语言模型内部蕴含了丰富的知识,如何将其作为隐式知识库来进行推理是跨媒体研究的挑战性问题。本文提出的Prophet方法提出一种 “答案启发”的通用跨媒体推理框架,通过在大模型上游引入一个可学习的任务相关视觉问答小模型,来更好地激发大模型的潜力。该论文第一作者为媒体智能实验室硕士研究生邵镇炜同学,通讯作者为余宙教授。邵镇炜同学患有“进行性脊肌萎缩症”,肢体一级残疾,没有生活自理能力,生活和学习需要母亲全程照顾。他常年坚持与病魔抗争,同轮椅为伴,克服因身体缺陷带来的种种不便,并努力追求卓越。2017年以644分的成绩被杭州电子科技大学计算机科学与技术专业录取,大学期间获得2018年中国大学生自强之星、2020年度国家奖学金和浙江省优秀毕业生等荣誉。2021年通过研究生推免的方式加入媒体智能实验室攻读硕士研究生。
邵镇炜同学生活照
通用跨媒体推理框架
论文《Masked and Adaptive Transformer for Exemplar Based Image Translation》提出了一种新颖的基于示例的图像翻译框架,主要关注跨域间建立准确的语义对应关系,以学得示例风格图像生成。该工作提出了“masked and adaptive transformer” 结构来学习对应关系以执行上下文感知的特征增强。在对比学习约束和全局风格注入的引导下,可生成高质量风格图像。该论文第一作者为计算机学院智能可视建模与仿真实验室(iGame-Lab)2021级硕士研究生蒋畅,通讯作者为高飞副教授,论文的合作者包括硕士生马彪、林裕浩,西安电子科技大学王楠楠教授和杭电iGame实验室负责人徐岗教授。
论文《ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed Videos》构建了目前最大的面向复杂长视频的问答数据集,通过人工标注“细粒度”视频场景图,在1万个长视频上自动生成了14亿问答样本,过滤平衡后最终形成1300万样本,比现有最大的视频问答数据集(斯坦福大学的AGQA)大一个数量级,在问答细粒度方面优势明显。论文第一作者为余宙教授,通讯作者为俞俊教授,硕士研究生郑力祥同学参与了本文的主要工作。
CVPR(Computer Vision and Pattern Recognition)是人工智能与计算机视觉领域最高级别的国际顶级学术会议,也是中国计算机学会(CCF)推荐的A类国际学术会议,每年六月召开一次。会议于6月18日-22日在加拿大温哥华召开,今年CVPR共收到了创纪录的9155篇投稿论文,录用2360篇论文,录用率约为25.78%.
ANetQA框架
Masked and Adaptive Transformer图像翻译效果图
【实验室介绍】:
计算机学院媒体智能实验室(MIL)现有全职教师8人,博士/硕士研究生100余名,负责人为俞俊教授。围绕人工智能、多媒体、计算机视觉的核心研究方向,近五年实验室发表高水平期刊会议100篇,其中IEEE/ACM 会刊和CCF A类会议40余篇,10余篇入选ESI高被引论文,4次获得IEEE权威期刊/会议最佳论文奖。团队主持国家重点研发计划、国家自然科学基金重点项目、科技创新2030重大项目课题在内的20余项国家级项目。因在相关领域的突出贡献,研究成果分别获2020年度浙江省自然科学一等奖和2018年度教育部自然科学二等奖。
计算机学院智能可视建模与仿真实验室(iGame-Lab)现有全职教师7名,博士/硕士研究生60余名,负责人为徐岗教授。近年来以数字经济中的智能制造、虚拟仿真与数字几何处理为研究主线,致力于面向智能制造与虚拟现实的高精度数值仿真、数字几何计算关键理论与方法、深度学习与三维视觉相关研究,取得了一系列创新性研究成果。相关研究得到国家自然科学基金重点/面上项目、国家数值风洞重大工程项目、国家重点研发计划项目、浙江省重点研发计划项目以及之江实验室课题资助。