大模型时代下，普通科研人怎么办？

作者：3D视觉工坊发布时间：2023-05-24

众所周知，随着ChatGPT的爆火，AI全面进入大模型时代，NLP、CV大有统一之势，回顾发布的各种大模型，Google BARD，openAI的GPT，Meta的SAM，百度的文心一言等等，这些基本都是有实力有技术的大公司引领着来研究的，但是作为一名普通的高校科研工作者，我们大多数基本上是没有这么多资源算力去开发这样的大模型的，但是大模型在各个方向效果精度几乎是碾压，导致很多领域方向就消失了，很多研究生也是很焦虑，可能在申的论文以及毕业答辩时肯定会comment你的性能差距大模型这么多，还有研究的必要吗？

所以，大模型时代下，作为一名普普通通，没有很多资源算力的科研人如何继续研究呢？

本文作者：一杯红茶 | 来源：微信公众号「3D视觉工坊」

最近在arXiv上刷到一篇文章，也许能提供一些思路。

论文名称：

AV-SAM: Segment Anything Model Meets Audio-VisualLocalization and Segmentation

在公众号「3D视觉工坊」后台回复「原论文」，即可获取该论文pdf。

主要内容：

首先，Segment Anything Model（SAM）大模型是Meta提出的一种CV大模型，在1100万张图像中的10亿个masks上进行训练，并且在各种分割任务上具有很强的零样本性能，它在打破分割边界方面取得了重大进展，极大地促进了计算机视觉基础模型的发展，这个视觉基础模型由三个主要组件组成：图像编码器、提示编码器和掩码解码器。

SAM的项目地址：https://github.com/facebookresearch/segment-anything

我们普通科研人如果想重新设计训练这样一个大模型显然不现实，那么这篇论文的作者另辟蹊径，虽然大模型的泛化性很好，在很多任务上做的不错，但是不可能面面俱到，往往是大而不精的，这篇论文就利用已经预训练好的SAM大模型去做更具体的下游任务——视听定位和分割。

视听定位和分割：

视听定位和分割是以热图或掩模的方式预测视频中单个声源的位置。

所以，这篇arXiv的论文提出了一个简单而有效的基于SAM大模型的视听定位和分割框架，即AV-SAM，它可以生成与音频相对应的发声对象掩码。具体而言，利用SAM中预先训练的图像编码器的视觉特征，把它和音频特征逐像素视听融合来聚合跨模态表示，然后将聚合的跨模态特征输入到提示编码器和掩码解码器以生成最终的视听分割掩码。

欢迎关注微信公众号「3D视觉工坊」，加群/文章投稿/课程主讲，请加微信：QYong2014，添加时请备注：加群/投稿/主讲申请

Methods

实验：

在VGG-Sound中使用144k对的子集进行训练，并在Flickr SoundNet测试集上用250对声音对象的视听对测试模型。

使用在ImageNet上预训练的ResNet50通过特征图的双线性插值来生成伪掩码。

对于输入视觉帧，分辨率调整为1024×1024。对于输入音频，使用长度为3s的对数频谱图，采样率为22050Hz。

使用轻量级的ResNet18作为音频编码器，并使用SAM发布的权重初始化视觉模型。该模型使用128的batch size，学习率为1e−4的Adam优化器进行了100个epochs的训练。

与SAM相比，在两个基准的所有指标方面都取得了最佳结果。

这表明了逐像素视听融合对聚合跨模态输入的重要性。

同时进行了消融研究以证明SAM冻结和微调预训练重量的效果。

在表2中冻结/微调每个模块（掩码解码器、提示编码器、图像编码器）参数。

可以观察到，对掩码解码器进行微调会增加视听分割的结果，表明视听掩码解码器在从聚合的跨模态特征生成准确掩码方面的优势。同时微调提示编码器也提高了视觉声源在所有指标方面的分割性能。

总结：

本篇是一篇基于大模型来做研究的文章，针对大模型在视听定位和分割上不够鲁棒准确的问题，设计模块去聚合跨模态表示，显著提高了在这一具体任务上的性能。这也许可以给我们普通科研工作者一些启发，如果我们不能重新研究设计训练大模型情况下，我们可以在有限的资源算力下用大模型做一些具体的下游任务，扩展大模型的应用点，用他们已经预训练好的模型权重去做更具体的任务，原始的大模型不可能面面俱到，其中很多点还是可以去做的。思考大模型如何在自己的研究方向上发挥它的价值，如何融合进自己的研究。

关注知乎「3D视觉工坊」（https://www.zhihu.com/people/qiyong1993）,及时获取每日3D视觉行业最前沿学术研究。

点击加入「SLAM」（https://mp.weixin.qq.com/s/MKi8k8P3PQqPsgCnpryjSQ）技术交流群

相关资讯

大模型时代，开发者怎么办

随着ChatGPT的出圈，基于大模型开发的应用也不断涌现，不管是不是相关方向的从业人员，在这一年多总能听到很多新名词，从LLM、Prompt、RAG到Fine-tuning、Agent。

ChatGPT 提示词

qingwave 2024-08-08

悟空知享 2023-04-08

大模型时代下，普通科研人怎么办？

推荐体验

相关资讯

大模型时代，开发者怎么办

GPT-4的时代下，程序员们该怎么办？

人工智能“奇点”在即？普通人该怎么办？

红帽张家驹：大模型出现幻觉怎么办

ChatGPT来袭，怎么办？

近期资讯

如何在生活中实现高效同步：沟通与理解的智慧探讨

华电电力科学研究院有限公司取得电压互感器二次压降测试系统专利，能够高效且低成本对变电站中大量电压互感器二次压降进行测试

如何有效管理电话黑名单，保护隐私与安全的实用指南

如何有效更新手机系统以提升性能与安全性？

如何在微博中增强互动性，丰富社交体验与建立友谊

如何将PDF文件轻松转换为可编辑的Word文档的实用指南

济南泛华电气取得用于检定避雷器监测装置的高压精密电流源装置专利，便于升高电压满足检定需求

广东省安心加科技有限公司取得一种建筑造价测距仪专利，提高测距仪本体的使用寿命

同诚工程咨询集团取得工程造价激光测距仪固定装置专利，能够将激光测距仪本体牢牢夹持限位

日精光电取得用于距离传感器的镜片组专利，减小距离传感器自身重量

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响