【AI/ChatMika】随笔(二)

作者：High_Logic发布时间：2024-10-13

一直在研究怎么让LLM学会与屏幕交互，但不是很成功。

首先，怎么让模型点击屏幕呢？在早期ChatMika中，我直接让模型返回点击坐标。

显然效果很差。毕竟就算是人类，也无法准确说出图片中某个物体的坐标。

最近我做了一个简单的辅助类，可以显著增加Gemini-1.5-flash点击屏幕的准确率。

于是，Mika可以玩一些静止的游戏了，例如国际象棋。

还可以让她打开浏览器，在地址栏输入Google的网址，搜索感兴趣的内容，滑动滚轮翻页等。

实现这些仅涉及提示词工程。Gemini API提供了OpenAPI Schema来限制模型的返回格式。

但是，我很快意识到了一个问题，即LLM模型没有增量学习的能力。

例如，Mika看着“卷心菜投手”说它是“倭瓜”，我纠正Mika：“这是卷心菜投手”。

在本次聊天记录上下文中，她或许能够记得这株植物。但是一旦没有了聊天记录，她还是会认错。

因此，LLM永远无法学会玩PVZ，因为它连植物都认不全，除非，我每次将全部历史聊天记录发给LLM（显然，这是效率很低且极不稳定的做法）。

那么，能否通过一些外部模块，让LLM“看起来”具备一些视觉学习能力呢？

算法概述

我的设想是利用一个预训练的ViT（视觉Transformer）模型来处理输入图像，并从中提取特征向量。这些特征向量需要被映射到一个固定维度的特征空间，以便进行相似度比较。

同时，我们会维护一个“记忆库”，用于存储多个特征向量及其对应的标签。其中，一部分特征向量被称为“原型向量”（Proto Vecs），每个原型向量代表某一类实体的典型特征。

补充

该算法主要依赖于ViT模型提取图像深层特征的能力。
ViT模型可以被替换为CLIP模型，具体哪个模型更好需要通过实际测试来确定。

几分钟后：我刚刚在想什么来着，还是去打Galgame吧。

相关资讯

随笔-救援（二）

银河宇宙联邦第Z-495-15-4号星系。联邦独立指挥官欧阳昀正在太空基地的总指挥室中进行着例行检查。每个太空基地中都有一个人工智能管理日常琐事，并且在指挥官做重大决策等时提供建议，人工智能能以全息投影的方式与指挥官互动。同时，为了防止指挥官在太空中滋生心理疾病，指挥官可以选择1~2名人员陪同。而欧阳昀的搭档，是他在吉奥尔军事学院里的深交，蒋文涵。欧阳昀听完了人工智能简的汇报，准备去看看有没有什么委托任务。他一边翻着委托单，一边环顾了一圈总指挥室，随意的问：“今天耳根子怎么这么安静？简，蒋文涵呢？不会还在

人工智能

歐陽秀 2023-03-26

人设随笔（二次元向）

图片由AI绘图软件Stable Diffusion绘制AI绘图中的一些明显错误请无视￣ω￣=

Stable Diffusion

Luc_Re 2023-12-22

人设随笔（二次元向）——信长

图片由AI绘图软件Stable Diffusion绘制AI绘图中的一些明显错误请无视￣ω￣=

Stable Diffusion

Luc_Re 2023-12-24

人设随笔（二次元向）——弹正

图片由AI绘图软件Stable Diffusion绘制AI绘图中的一些明显错误请无视￣ω￣=

Stable Diffusion

Luc_Re 2023-12-23

人设随笔（二次元向）——利休

图片由AI绘图软件Stable Diffusion绘制AI绘图中的一些明显错误请无视￣ω￣=

Stable Diffusion

Luc_Re 2023-12-24

近期资讯

“诺奖周”开启前，深圳开了这样一场会

培养“战略科学家”

城市进化论 2024-10-11

178-WiFi窗户控制器视频

178-WiFi窗户控制器演示视频： [链接]

欣薇电子 2024-10-11

176-GSM垃圾桶视频

176-GSM垃圾桶暂无

欣薇电子 2024-10-11

暴雪回归远超预期，中年玩家的高光时刻

网易都不相信暴雪仍能带来这样的成绩。

眸娱 2024-10-11

家电以旧换新来到双11赛段，什么样的大容量超薄洗衣机值得换？

家电以旧换新即将进入“双11”时间，多重补贴叠加新品上市，是入手大家电的好时机。不过，这一轮“以旧换新”已经不侧重“从无到有”，而是追求“从有到优”，因为本轮针对的主要是黑白大家电和厨房大家电，普及率已经相当高，换新就更侧重新意，所以，“汰旧”容易，“换新”还得多用点时间选选。这次，丁科技网就今年以来了解到的有新体验的产品，给大家说说洗衣机。今年洗衣机产品的发展有三个特点，一是容量10kg及以上产品是品牌主打，二是洗烘一体机、洗烘套装、洗烘护集成机这类洗烘结合产品是布局重点，三是超薄化、嵌入式是产品外观设

钉科技 2024-10-11

风投女王“逃离”休闲零食赛道？

主攻下沉市场、主打极致性价比，传统零食品牌面对量贩零食店的崛起，有面临战略决策。

新消费日报 2024-10-11

177-WiFi智能厨房系统视频

177-WiFi智能厨房系统暂无

欣薇电子 2024-10-11

【AI/ChatMika】随笔(二)

推荐体验

相关资讯

随笔-救援（二）

人设随笔（二次元向）

人设随笔（二次元向）——信长

人设随笔（二次元向）——弹正

人设随笔（二次元向）——利休

近期资讯

“诺奖周”开启前，深圳开了这样一场会

178-WiFi窗户控制器视频

176-GSM垃圾桶视频

暴雪回归远超预期，中年玩家的高光时刻

家电以旧换新来到双11赛段，什么样的大容量超薄洗衣机值得换？

风投女王“逃离”休闲零食赛道？

177-WiFi智能厨房系统视频

这些常见人名你能都读对吗3

越来越受不了的骚扰电话，都是谁在打？

从“日赚十万港元”到“日亏百万港元”，港股投资者还淡定吗？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响