微信公众号
手机网站
就业/招聘小程序
咨询电话: 010-66083178(工作日8:30-17:00) 请登录 注册
联系我们
联系人:王秀秀
010 -66083178
www.qxwq.org.cn 
北京市西城区广安门
内广义街5号广益大厦
大赛作品详情

作品名称:语影随形——基于改进的时空网络模型的唇语识别系统
学校名称:广东科技学院
参赛队伍:干就完了
参赛学生:温泽彬 聂坤 唐杰  
指导老师:李卫国  

详细说明

针对传统唇语识别存在识别准确率低、实时性差、可视化差等问题,本团队开发了语影随行-基于改进的时空网络模型的唇语识别系统。该系统应用了 YOLOv7 目标检测算法、改进的 TSM-ResNet50模型和轻量级Flas框架三种关键技术,实现了唇语识别的高准确度、高实时性以及唇语识别 We可视化等优势。本系统能够通过摄像头或上传本地视频进行检测,快速准确地定位唇部位置,并检测识别出唇部动作,实现唇语识别结果的可视化。

本产品在前期主要进行公益推广,与特殊教育学校及残联协会达成合作意愿,免费提供给需要通过唇语来获取信息的人群,提升听障人士的学习交流能力。产品中期主要扩大市场规模,采用分销渠道策略,使用社会化营销、推广策略、针对市值和数值共享营销等推广策略,建立全方位的销售服务体系,并采用会员制度和广告等方式进行盈利。公司注册资本 50 万人民币,计划融资 50 万人民币,投资方可通过注册资金拥有本企业 5%的股份并成为公司股东。对投资回报进行分析可知,在 2 年零 1 个多月的时候就可以收回投资,并从以后开始获取纯利。公司进入稳步发展阶段后,可以将投资重点放在创新上,获得更高的收益。

由于传统的唇语识别技术没有充分考虑结合唇语视频中的时间、空间信息,不能进行高效的唇语识别,因此存在唇语识别实时性差、准确度低、可视化差等痛点问题。针对上述痛点问题,本项目设计并实现了一款基于改进的时空网络模型的唇语识别系统,以提供一种准确、实时的唇语识别解决方案。具体而言,本项目首先对视频数据进行预处理, 采用 YOLOv7 算法进行唇部检测, 然后设计了 TSM-ResNet50 时空网络模型进行时空建模。其中,TSM-ResNet50模型结合了时间移位模块(Temporal Shift Module, TSM)和残差网络 ResNet-50 架构,专门用于处理视频和其他时间序列数据。它通过在 ResNet-50 的基础上集成TSM,旨在提高对视频中时间信息的捕获能力。同时,为了进一步提升模型的性能,本项目引入了门控循环单元 (Gate Recurrent Unit,GRU)网络和注意力机制两种深度学习技术,对 TSM-ResNet50 进行改进,以提升网络的长期时序建模能力,让网络将更多的注意力放在更重要的唇部特征上,以此实现了高准确度、高实时性、低计算成本的唇语识别。此外,项目还采用了 B/S 架构,利用轻量级Flask 框架,实现了唇语识别的可视化。通过上述解决方案,使得本系统有效支持离线和在线实时视频中的唇语识别。

找人才
千校人才小程序
找工作
万企岗位小程序
一键咨询
注册简历
查询
资料下载
返回顶部