人工智能学院邀请外籍专家开展“多模态表征学习：图像、文本和音频的语义空间对齐及其在教育中的应用”学术讲座

新闻中心

当前位置：首页 >> 新闻中心 >> 综合新闻

综合新闻

人工智能学院邀请外籍专家开展“多模态表征学习：图像、文本和音频的语义空间对齐及其在教育中的应用”学术讲座

浏览：5370 时间：2025年12月13日

本网讯（人工智能学院通讯员施莉莉）12月12日，学校人工智能学院大数据技术专业特邀来自阿拉伯的Baha Ihnaini博士开展主题为“多模态表征学习：图像、文本和音频的语义空间对齐及其在教育中的应用”的学术讲座，吸引了人工智能学院专任教师及大数据国际学历留学生近百人参加。
本次讲座全面阐述了“多模态学习”这一人工智能前沿领域，该技术通过整合视觉、文本和听觉数据，实现更接近人类的感知与推理能力。Baha Ihnaini博士系统介绍了多模态表征学习的理论基础，涵盖嵌入技术、编码器架构、语义相似性及对比学习等核心概念，并深入探讨了如何在不同模态间实现语义空间的跨模态对齐。
该课程还涵盖主流多模态数据集、现代编码器架构（如卷积神经网络、循环神经网络及Transformer模型，BERT语言模型等），以及基于共享嵌入空间的实用对齐技术。通过动手编程演示，学员们运用CLIP等前沿模型，深入探索了跨模态相似性分析。
Baha Ihnaini博士还重点介绍了多模态技术的实际应用场景，涵盖图像-文本对齐、音频字幕生成、假新闻检测、推荐系统及文本生成图像等。特别强调了教育领域的应用，包括智能辅导系统、个性化学习、课堂数据分析、残障学生无障碍支持，以及增强现实/虚拟现实（AR/VR）教学环境。
讲座的最后，师生围绕多模态人工智能的前沿趋势展开讨论，涵盖基础模型、统一多模态Transformer以及教育医疗领域的未来发展方向。这场讲座为对人工智能、机器学习和教育技术感兴趣的学生和教师提供了深刻启发与实用见解。