1993年,深度学习历史上激荡人心的一幕出现了。
在美国新泽西州的霍姆德尔贝尔实验室里,机器学习成功识别出了一串手写数字——201-949-4038。这是贝尔实验室研究员、卷积神经网络之父杨立昆(Yann LeCun)的办公电话号码。
贝尔实验室当年进行的手写数字机器识别测试
借助卷积神经网络在光学字符识别(OCR)上的突出能力,手写文字识别系统很快在美国邮政系统、银行等领域落地。无论是字迹潦草的信件,还是个性化的手写支票,通过扫描仪,机器都能很快识别,且速度、准确率惊人。
一个从图像中提取文本的「扫一扫」,推开了人类效率升级之门。自此,人工智能技术的每一次重大进步,几乎都伴随着AI识别工具能力边界的突破。
这些突破或让我们节约更多时间,或让信息更易于获取和传播。归其一点,解放生产力。尤其在当下这个被科技按下加速键的时代,「无效率,不自由」正成为众多个体需要面对的现实。
以主导当前科技进程的生成式AI浪潮为例,据高盛研报测算,在生成式AI发展的10年内,每年可以将生产力提高超1.5%。最为显著的一点,技术正让诸如文档数字化、文本识别类功能变得更为强大,AI类效率工具开始进入一个寒武纪——
今年8月,Meta AI推出开源的OCR神器Nougat,针对学术领域数学公式难以转到PDF等痛点,提供解决方案。
这项服务堪称学术党的福音。作为使用频次第二高的便携式文档格式,PDF承载了2.4%的信息量。但在处理科研论文等专业性材料时,遇到复杂的数学公式,PDF会经常出现识别出错、信息丢失的情况。而Nougat基于Transformer的模型,研发了具有理解复杂科学文档并将其转换为结构化标记语言能力的灵活工具,方便教育人士、科研工作者有效访问和处理学术论文。
对了,Nougat与杨立昆也有一定关联。作为Meta首席科学家,杨立昆正是Meta AI的灵魂人物之一。
一年前还被Open AI打得措手不及的谷歌,则在新近发布的AI大模型Gemini上展示了多模态能力在文本识别上的惊艳表现。公开演示中,Gemini甚至不用从图像中提取文本,就能直接进行OCR处理,包括识别凌乱的手写文本。例如Gemini直接识别和计算几何图形,辅助学生做数学作业。
在国内,大模型加持下的AI识别也在加速与效率工具的融合,如扫描、修图等应用场景中都有一批工具类神器冒头儿,比如刚刚晋升为「阿里四小龙」之一的夸克。自从今年11月升级为阿里集团四大战略级创新业务之后,夸克的动作布局格外受外界关注。而在夸克旗下产品中,扫描是AI识别落地的主要场景,也是近期动作频频的一个业务。
在今年8月率先在扫描行业落地大模式技术应用之后,近日夸克扫描王又宣布全新升级,增加原图文档化编辑、图像智能修复、纸质表格转化为Excel并可在线计数等信息服务能力。
这意味着用户与文本的信息交互方式进一步被延展。
今年年初,高盛首席软件分析师Kash Rangan的团队提出过一个观点——办公工具的变革将成为生成式AI最广泛的应用。
截至目前,全面接入GPT-4的Office全家桶——Microsoft 365 Copilot仅对部分企业客户开放预购,因为其入门门槛很高——30美元/每月、300个账户起订。这意味着,大部分打工人暂时无法直接体验到AI对办公效率的提升。尤其国内用户,不确定性更大。
事实上,今年以来,包括Microsoft 365 Copilot在内,很多大型办公协作产品的王炸效果均停留在演示或测试阶段,不过我们仍可以透过夸克扫描王这类办公学习「小组件」的升级迭代方向,管窥AI对办公领域的改造进程,或者说,看看办公效率还能怎么卷。
如果仅看OCR识别功能,大厂产品如Office lens、Google Lens、微信、QQ、iPhone备忘录等,都有内置免费服务,能满足最基础的扫描需求;而专用工具的优势则在于产品功能更加细分、解决的个性化痛点更多,信息服务能力相对更为全能。
当然在研究一款产品的升级路径之前,有必要先看其用户定位。大学生、年轻白领的定位,直接影响AI技术在夸克扫描王这个产品上的辐射方向。
在夸克扫描王的智能化升级中,最吸引我们的有以下三点——
一是屏幕扫描提取转PDF功能:在许多会议场景中,为了记录现场投屏的PPT内容,参会者要对着屏幕一顿狂拍,但以照片形式存在的信息,如果不及时整理,很容易躺在相册里吃灰,就像书架上那些从未拆封的书籍,它们的存在只能证明我们有一瞬间是想要进取的。不易读取的文本方式,间接增加了信息分享的难度。
升级后的夸克扫描王则提供了一种新的体验——用户随手拍屏幕并上传,便可生成完整的会议记录文件,也可以选择导出PDF,然后一键转发。这个过程中,软件会自动裁剪PPT,去除摩尔纹、人头遮挡等信息「杂质」。
二是表格扫描提取转Excel、文档扫描提取转Word:前者是纸质表格直接拍照,一键生成Excel,手写数字也能精准识别;后者不仅能多页连续扫描,还可以在扫描图片上对文字内容、字体样式进行编辑和修改,且自动识别手写字迹、复杂数学公式。
这两个功能都对应着清晰的应用场景:纸质表格转Excel可以帮助采购、财务等整理进货单据;图片文字识别,可用于重要文献、书籍的资料整理;扫描件再编辑功能衍生出来的「去水印」、「加水印」可用于修图;「去手写」则可让学生重复利用旧试卷,做知识点的巩固练习;「电子签名」则能直接应用于商务合同签约。
三是重要纸质材料的电子化、自动分类整理。比如发票、病历、证件、合同等日常经常用到但又容易丢失、损毁或者急需时却不在手边的文件。搁以前,这些重要材料如果无法提供,只能重新开具,既耽误时间又耗费人力;新功能的出现,某种程度上相当于为用户提供了一个可随身携带的「电子保险柜」。
这些产品功能的升级,离不开夸克大模型的底层支撑。自从搭载全栈自研、千亿级参数的夸克大模型后,夸克扫描王开始在AIGC+扫描的路上加速迭代。公开数据显示,其手写字符识别与复杂公式识别的准确率均达到 99%的行业最高水准。
在借助AI技术夯实扫描能力、图像能力、内容识别和版式理解能力矩阵的同时,夸克扫描王的进化也让我们看到,大模型如何定义新一代的AI识别工具。
传统扫描行业往往止步于扫描服务,因为其业务内核是「扫描」;但新一代AI识别工具的内核是「信息服务」,扫描后的文档整理归类、修改编辑、去手写、屏幕拍照的去摩尔纹、滤镜效果优化等,均是围绕无缝的信息可访问性进行的能力优化。
通过不断弥合机器学习与人类理解之间的沟壑,AI识别工具有望成为年轻人学习及工作效率提升的全能助手。
当然这种肉眼可见的效率提升有时会让人感慨万千。写出《故国人民有所思》和《人有病,天知否》两部重磅作品的作家陈国华,给自己取了「陈徒手」的笔名,因为他在写作中用到的史料均来自早年间手抄的档案馆资料。从1990年代开始,陈老师一天手抄七八千字,数十年间,积累下数百万字资料。
如果技术进步更早发生,这个世界所沉淀下来的精神财富的厚度大概会有所不同。
回到追求效率的圆心。既然技术演进与效率工具的能力扩张呈正相关,接下来的AI识别工具将会有哪些发展趋势?
我们认为,其中有一点是明确的,借助多模态,AI识别工具的应用边界势必会进一步拓展,亦会创造更多新的用户需求。
目前业内的一个共识是,多模态AI将是大模型的终极形态。在这一领域,谷歌Gemini来势汹汹,OpenAI的GPT-4也不甘示弱。通过人工智能巨头的轮番秀肌肉,我们已然看到即将到来的多模态AI时代,将如何重塑生产力。
具体到AI识别领域,借助多模态能力,文档图像智能分析与处理可以更好地处理跨模态信息,将文本、视频、图片等不同形式的信息进行融合,从而实现更加全面、深入的信息分析与后续服务。
这意味着只要深度学习持续进化,AI识别工具的进化和扩圈将是无尽的,因为扫描的定义和用户需求都在不断更新。
事实上,OCR技术出现之初,人们很难想象这项技术未来会在物流、自动驾驶、财会、教育、办公等领域产生多么深刻的影响;就像20世纪初出现读取印刷字符并将其转换为电报代码的机器时,人们也无法想象100年后,一款叠满buff的扫描神器可以有多逆天。
对于效率工具而言,无尽扩圈意味着更多的应用场景、更高的使用频次、更高的用户粘性,当然也更有可能成为垂类杀手级应用。
当前业内都在期待大模型领域Super App的出现,但爆款应用的破圈大多有个前提——高频使用。高频的抵达路径只有一个,产品有能提供强大且独特的用户价值。
有从硅谷考察归来的投资人发现,AI技术虽然很重要,但这一轮创新浪潮中,更看重技术与产品的匹配,应用层主要拼的是产品能力。
尤其AI识别工具所处的OCR领域,底层技术都是开源代码,算法主要是模式识别和特征提取,真正拉开差距的还是产品对用户人群的定位以及对用户需求的满足程度。
比如前述的夸克扫描王——其实对很多人来说,整个夸克产品矩阵都是陌生的,但这个产品在年轻人中拥有极高声誉,因为其一开始就定位于年轻人的高效扫描AI助手。国内权威第三方数据机构QuestMobile此前调研显示,夸克扫描王在00后、90后人群占比超过54%,居行业第一。
在年轻群体中的高渗透,理论上会进一步助力产品拓展未来的发展空间,因为大量、多元的用户行为数据是一款产品提升服务能力和用户价值的前提。比如夸克扫描王相关负责人在此前接受采访时曾分享过一些重要的产品发现,比如年轻用户对于扫描应用的需求近年来呈现出多样化、个性化与品质化的新趋势。
不出意外的话,这些探索也将为扫描行业提供新的发展思路。毕竟,这是一个效率为王的时代。