当前位置：首页|资讯

2.4K star的GOT-OCR2.0：端到端OCR 模型

作者：AI研习所发布时间：2024-09-23

GOT-OCR2.0是一款新一代的光学字符识别（OCR）技术，标志着人工智能在文本识别领域的重大进步。作为一款开源模型，GOT-OCR2.0不仅支持传统的文本和文档识别，还能够处理乐谱、图表以及复杂的数学公式，为用户提供了更加全面和高效的解决方案。

产品功能及特点

多语言支持：GOT-OCR2.0主要支持中文和英文字符识别，并能够通过进一步的微调扩展到更多语言。这种灵活性使其适用于国际化应用，满足不同用户的需求。
场景文本识别：该系统能够处理自然场景中的文本识别任务，例如街道标志、广告牌上的文字等。这一功能使得GOT-OCR2.0在各种实际应用中表现出色。
文档OCR：GOT-OCR2.0能够处理文档中完整页面的文字识别，无论是纯文本文档，还是含有表格、公式等复杂内容的文档。这一功能极大地方便了文档数字化和信息管理。
格式化文本OCR：该系统支持将光学文档中的文本直接转换为Markdown、LaTeX等格式，保持复杂文档的原始排版和格式。这使得后续编辑和排版工作更加高效。
动态分辨率处理：GOT-OCR2.0采用动态分辨率技术，支持对超高分辨率图像（如大幅海报、拼接PDF页面）进行OCR处理，确保在图像过大时仍能保持较高的识别准确性。
多页OCR：该系统能够批量处理多页文档，例如长篇PDF文件或包含多张图片的OCR任务，显著提升了处理效率。这对于需要大量文档处理的用户尤为重要。公式、表格与图表识别除了基本文本识别，GOT-OCR2.0还能够识别和处理文档中的数学公式、化学分子式、表格及图表等复杂结构，并将其转换为可编辑格式（如LaTeX或Python字典格式），满足更专业的需求。
格式化输出：该系统支持生成多种格式化输出，包括Markdown、TikZ、SMILES、LaTeX等，以结构化方式输出识别到的字符，例如表格、数学公式和分子结构等，使得信息传递更加清晰。
性能与架构：GOT-OCR2.0采用了集成的vision encoder和decoder设计，能够同时处理多种类型的OCR输入，从而极大提高信息传递效率。其模型大小仅为1.43GB，相较于其他AI模型而言较小，但性能却非常强大，特别适合需要处理高复杂度OCR任务的用户。该模型还引入了local attention机制，有效解决了全局注意力机制在高分辨率图像中的内存消耗问题。

高性价比GPU资源：https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_tongyong_toutiao

识别效果展示

截屏文本识别/文档识别/乐谱识别/图表识别

OCR2.0评测

总结

GOT-OCR2.0作为AI 2.0时代的重要产品，通过端到端设计、一体化架构和对多场景复杂内容的识别能力，为用户提供了精准、高效的OCR解决方案。无论是在文档数字化、场景文本识别还是复杂数据处理方面，它都展现出卓越的性能，是开发者和研究人员不可或缺的工具。

推荐体验

相关资讯

GPT-OCR识别工具

偶然遇到这个需求，查看了 github 都是 JS 的，搓了个 python 的 GPT-OCR ，基于 OpenAI GPT 模型和 Tesseract OCR 引擎来实现。开启之初只是个人使用，开源上去有需要的话就方便直接获取。 Tesseract 识别中文精度需要自行训练。地址： https://github.com/m1m1cat/GPT-OCR 内置了使用描述视频，基础使用基本都满足github如果有用请点个小星星，如果有好的想法，可以fork以后自行添加

来自喵王国的哈士奇 2023-05-05

21k star! 开源 ChatGPT 客户端 - Lobe Chat 自部署教程

Lobe Chat 是一个开源、现代化设计的 ChatGPT/LLMs 聊天应用与开发框架，支持语音合成、多模态、可扩展的插件系统，支持在多平台上一键部署

宇航不会写代码 2024-03-01

手写表格OCR识别并与大模型ChatGPT交互？

这是一张手写表格，姓名做了脱敏处理。现在需要对其识别，并分析。直接粘贴剪切板中的表格原始图片，在网页中ctl+V进行识别。识别结果列用分隔符'|'，可以直接粘贴到excel，进行数据列分隔。为了美观期间，也可以用prompt，将结果转化为MD格式。接着对其分析。如果采用python pandas 及 matplotlib进行分析可视化，请从不同角度分析，给出代码及结果？这就是大模型带来的生产力提升，小编没有在jupyter中验证代码，所以就不配可视化图标了。玩转大模型，联系小编进群学Python并不难，会

ChatGPT 提示词编程

civilpy 2023-09-01

元戎启行牵手英伟达上车端到端模型

端到端模型会重塑物理世界的人工智能技术，终结一个以'规则驱动’为主导的原始人工智能时代，开启一个以'深度学习’为引擎的通用人工智能时代。”周光说：“在端到端模型下，我们的系统会变得更简洁、优美。周光表示，…

英伟达人工智能深度学习

禾颜阅车 2024-04-13

新势力集体拥抱“端到端”

这正是端到端模型的核心，它和Sora都在试图让AI拥有人类一样的发散和逻辑能力。智己汽车联席CEO刘涛同样认为，Sora进一步印证了端到端路线的正确性，目前智己汽车也正在全力推动端到端架构落地，创造“更像人”…

汽车产经网 2024-03-24

近期资讯

罐头食品，还能出圈吗？

罐头，好像有了回暖的趋势。

全食在线 2024-09-19

超强o1模型智商已超120，1小时写出NASA博士1年代码，最新编程赛超越99.8%选手

AI在1小时内写出博士论文代码

新智元 2024-09-19

上线秒空，年入百亿元的东方树叶、瑞幸们，盯上的都是“上瘾生意”

食品饮料行业不缺让人上瘾的生意。

FBIF食品饮料创新 2024-09-19

天珺！保利建工海淀永丰案名出炉！又一“天字系”产品序列落位

何为「天珺」？

未来城不落 2024-09-19

Nature：探秘世界最快超算的一天

美国Frontier超算助力前沿科学研究

新智元 2024-09-19

DeepMind再迎挑战者，ESM作者带队6个月超越AlphaFold 3，代码权重全开源

Chai Discovery发布超越AlphaFold 3的模型Chai-1。

新智元 2024-09-19

古建扎堆的山西，藏了个“三体”之都

兼具人文历史与科幻气质的小城——阳泉。

新周刊 2024-09-19

燃油车加速退场，5年后你可能没地方加油

天平已倒向新能源车

新能源观察家 2024-09-19

硅谷戴上AI“紧箍”

加州通过AI法案，监管选举假新闻及肖像权。

36氪的朋友们 2024-09-19

60%参考文献被撤稿，Nature绷不住了

学术论文引用撤稿文献问题频发，需整治。

新智元 2024-09-19

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1