最近,以ChatGPT为代表的大语言模型在多轮对话等任务上展现出强大的性能,大型语言模型似乎已成为通向通用人工智能的必经之路。然而,模型量级与“智能”之间的关系仍然不得而知,普遍观点认为模型越大性能越强。但是随着模型变大,模型推断所需的显存和时间也成倍增长,计算代价十分高昂。以LLaMA-7B为例,翻译一条100字左右的文本需要近7s,而使用相同的设备配置,不到1B的机器翻译模型可在1s内以相同精度翻译长达数百字的篇章。因此,在保证模型精度的前提下,探索降低计算代价的高效方法是十分必要的。那么,高效方法具体有哪些?又将如何降低模型内存占用和计算代价?
本期报告将从传统静态模型压缩方法和动态模型加速方法两个角度进行讲解,对大型语言模型相关的高效方法进行总结。报告主要包括两部分内容,第一部分为剪枝、量化等模型压缩方法,该类方法以更小的静态模型实现与大模型相似的推断性能;第二部分以早退、混合专家等条件计算方法为主,该类方法使用动态激活的方式,仅激活部分大模型以降低模型的计算代价。
本期报告将于8月31日线上举办,届时由来自东北大学自然语言处理实验室的单韦乔为我们带来《模型压缩与高效神经网络》报告,具体流程如下:
本次直播将分为两部分进行,第一部分为报告分享环节,第二部分为Q&A环节。在直播过程中,小伙伴可以把问题发送到直播间中,并在Q&A环节与本期嘉宾深入探讨;未被回复的问题也可私信留言,在直播结束后我们会进行解答。
本系列直播作为公益知识分享活动,由东北大学自然语言处理实验室、小牛翻译联合推出,感谢AI科技评论、PaperWeekly、机器之心、并行科技对本次直播的大力支持,本次直播向所有听众免费开放,无需注册和报名缴费。
参会观众可以在【视频号(ID:小牛翻译云平台)、微博(ID:小牛翻译)、哔哩哔哩(ID:小牛翻译)、知乎(ID:小牛翻译云平台)、机器翻译学堂(https://school.niutrans.com/live)】观看直播,关注【机器翻译学堂、小牛翻译云平台视频号】即可观看直播回放。
诚邀所有关注自然语言处理与大模型技术发展的朋友走进直播间,2023年8月31日(周四)18:30,我们期待与您的相遇!