计算机学院俞俊教授团队两篇论文被多媒体领域顶级会议ACM Multimedia 录用

近日，计算机学院俞俊教授团队的两篇论文被多媒体领域的CCF A类会议ACM Multimedia 录用为长文。ACM Multimedia是多媒体领域的国际顶级学术会议，也是中国计算机学会（CCF）推荐的A类国际学术会议，本届为第29届会议。

论文ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration提出一种模态内间知识协同引导的多模态预训练模型，通过构建模态内间细粒度关联的统一场景图结构，并从中抽取包含跨模态知识子图结构。在此基础上，设计一种知识引导的“结构化遮盖重构”机制，有针对性地进行知识引导的信息遮盖重建，通过对模态内紧密相关上下文进行信息屏蔽以增强模型的跨模态语义关联效果，有效解决现有多模态预训练方法训练难以实现细粒度语义对齐的难题。提出的ROSITA方法在3类不同的多模态任务6个数据集上验证了方法的有效性。

该项研究由杭州电子科技大学（第一单位）、阿里巴巴达摩院、合肥工业大学合作完成。该论文第一作者为硕士研究生崔雨豪，在校期间2次获得国家奖学金，并荣获2021年度杭电“十佳大学生”荣誉称号（全校唯一入选研究生），通讯作者为其指导教师余宙副教授，作者名单中还包含了俞俊老师等。

论文Effective De-identification Generative Adversarial Network for Face Anonymization提出一种基于去身份生成对抗网络的人脸图像身份隐私保护方法，通过将期望的人脸语义结构和风格信息翻译为匿名图像，有效解决现有方法难以平衡隐私保护水平和图像可用性难题。人脸图像身份隐私保护的目的在于有效地去除图像的身份隐私信息并保留数据的可用性，在现实场景中具有诸多应用，例如隐私数据发布以及预防视觉伪造等。在日常生活中，常用模糊化或者打马赛克的方式去除身份信息，但这种方法隐私保护能力有限而且损坏了图像内容。随着深度学习技术的发展，在生成对抗网络的帮助下，基于人脸合成的图像匿名方法有很大的发展潜力。然而，已有方法往往忽略数据处理后的可用性。本文提出了一种联合人脸语义结构和风格信息的匿名化方法，主要利用所提出的生成器和对抗判别器的组合在隐私保护约束下完成匿名人脸合成，能够有效提高模型的去识别能力并保持数据的可用性。与同类方法相比，取得了优异的效果。

该项研究的第一作者为媒体智能实验室匡振中副教授，第二作者为硕士研究生刘回归，通讯作者为俞俊教授。

计算机学院媒体智能实验室（MIL）现有全职教师20余人，博士/硕士研究生100余名，围绕人工智能、多媒体、计算机视觉的核心研究方向，近五年实验室发表高水平期刊会议100篇，其中IEEE/ACM 会刊和CCF A类会议40余篇，10余篇入选ESI高被引论文，4次获得IEEE权威期刊/会议最佳论文奖。团队主持国家重点研发计划、国家自然科学基金重点项目、科技创新2030重大项目课题在内的20余项国家级项目。因在相关领域的突出贡献，研究成果分别获2020年度浙江省自然科学一等奖和2018年度教育部自然科学二等奖。