国科网

2024-12-26 22:46:20  星期四
立足国科融媒,服务先进科技
Claude3给GPT4上了一课!Open AI最强对手深夜炸弹,附全图解析!

点赞

0
发布时间:2024年03月05日 浏览量:413次 所属栏目:人工智能 发布者:田佳恬

出品 | 51CTO技术栈(微信号:blog51cto)

深夜,OpenAI最强对手Anthropic一口气发布了三个SOTA新品,其中包括:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。业界惊呼:Claude 3带来了一系列的新的行业基准。

其中,Opus寓意史诗级乐章,Sonnet是十四行诗,Haiku是俳句,三行短诗。

据悉(图9),Haiku是AI市场上速度最快且最具成本效益的型号。它可以在不到三秒的时间内阅读 arXiv上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

图8,对于绝大多数工作负载,Sonnet的速度比Claude 2和 Claude 2.1快2倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和2.1相似,但智能水平更高。

Opus 是目前Anthropic最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性,引领通用智能的前沿。

以上三个Claude 3模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的更强的能力。

此外,Claude 3 系列拥有近乎完美的记忆能力和超长文本窗口,将提供 200K 上下文窗口。而且能够接受超过 100 万个tokens的输入,后续会按客户需求逐步放开。

整体上看,Claude3,有三个震撼之处:

1.领域专家的基准。分别选择了金融/医学/哲学三个专家领域来作为测试基准,英伟达Research Manager Jim Fan称“建议所有的LLM都遵循这一点,以便不同的下游应用程序知道会发生什么”。

2.拒绝率分析。LLM对许多“无辜问题”做出了过于谨慎的回答成为了一种流行病,Claude一直致力于安全的AI研究,并做出了该方面的努力。

3.与其他领先模型相媲美的复杂视觉功能。可以处理各种视觉格式,包括照片、图表、图形和技术图表,PDF、流程图或演示幻灯片皆可。

实际测评如何?
一位网友分别让GPT4、Claude3编写一个登陆界面的代码,实际运行测试效果(图13)显示,后者在App界面设计方面更加出色。

图1图1

图2图2

图3图3

图4图4

图5图5

图6图6

图7图7

图8图8

图9图9

图10图10

图11图11

图12图12

图13图13

图14图14

图15图15

分享说明:转发分享请注明出处。

    热点图讯
    最新图讯
    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司