多模态大模型Monkey发布升级版

金融岛推荐阅读：

[返回金融岛首页] [免费注册] [登录]

主题：多模态大模型Monkey发布升级版

2024-03-25 07:42:48

功能： [发表文章] [回复] [快速回复] [进入实时在线交流平台]

头衔：金融岛总管理员

昵称：花脸

发帖数：71478

回帖数：2176

可用积分数：17768546

注册日期：2011-01-06

最后登陆：2025-08-21

主题：多模态大模型Monkey发布升级版

科技日报
3月23日，记者从华中科技大学获悉，由该校联合武汉金山办公软件有限公司研究人员开发的Monkey多模态大模型已被人工智能领域国际顶级会议CVPR 2024接收，且该大模型曾在大模型开源开放评测体系——“司南”多模态大模型排行榜中名列开源模型榜首。Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布。

据悉，Monkey突破了通用文档理解能力边界。它在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集，以及国际上规模最大的文档图像智能数据集OCRBench上取得显著突破，通用文档理解性能大幅超越现有模型。

据介绍，多模态大模型是一类可以同时处理和整合多种感知数据的AI架构，在众多场景有广阔的应用潜力。凭借丰富的世界知识和出色的对话能力，多模态大模型能如同人类一样深入理解和感知世界。

TextMonkey能帮助人们理解结构化图表、表格以及文档数据。它可将图像内容转化为轻量级的数据交换格式，方便使用者记录和提取。它也能帮助或代替人类在智能手机上执行各种任务，自主操控智能手机应用程序，无需接触后端。

研发团队表示，TextMonkey可以模拟人类视觉认知。这使它能识别高清文档图像中各部分的关联，并可灵敏地鉴别出图像内关键要素。同时，基于对用户多样化需求的深入理解，TextMonkey通过文本定位技术强化了答案准确性，提升了模型的解释性，减少了模型的幻觉，提高了在处理各类文档任务时的表现。

当前，随着各大企业加速数字化转型，对文档与图像进行多模态结构化分析及内容提取变得尤为重要。无论是处理随意拍摄的图片、电子文档，还是图表分析报告，快速、自动化、精确的数据处理对提升企业生产效率意义重大。研发团队表示，模型有望全面提升通用文档理解能力，推动自动化办公、智慧教育、智慧金融等领域发展。

【免责声明】上海大牛网络科技有限公司仅合法经营金融岛网络平台，从未开展任何咨询、委托理财业务。任何人的文章、言论仅代表其本人观点，与金融岛无关。金融岛对任何陈述、观点、判断保持中立，不对其准确性、可靠性或完整性提供任何明确或暗示的保证。股市有风险，请读者仅作参考，并请自行承担相应责任。

当前 1/1 页： 1 上一页下一页 [最后一页]

关于我们&公司介绍上海大牛网络科技有限公司域名：www.jrdao.com www.jrd8.com

上海大牛网络科技有限公司联系方式：leshj@tom.com 021-67630917 沪ICP备10214494号-1 沪ICP备10214494号-2 沪公安网备:31011702007325

友情链接：投资者关系平台金融界新浪新华网上证交易所

结构注释

结构注释