GPT-4正式发布,性能炸裂,象是一个全能天才!

2023-03-15 MedSci原创 MedSci原创

大家期待的ChatGPT-4,相比ChatGPT-3.5带来的震撼相比,这新版本的性能更是炸裂!

大家期待的ChatGPT-4,相比ChatGPT-3.5带来的震撼相比,这新版本的性能更是炸裂!

官方称:

GPT-4 可以更准确地解决难题,这要归功于其更广泛的常识和解决问题的能力。

GPT-4 比以往任何时候都更具创造性和协作性。 它可以生成、编辑并与用户一起完成创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。

GPT-4 的高级推理能力超越了 ChatGPT。

GPT-4 通过在测试者中获得更高的近似百分位数来优于 ChatGPT。

我们花了 6 个月的时间使 GPT-4 更安全、更一致。 在我们的内部评估中,与 GPT-3.5 相比,GPT-4 响应不允许内容请求的可能性低 82%,产生事实响应的可能性高 40%。

最后一段话翻译过来就是:

(1)想调戏GPT-4更难了!以前让ChatGPT讲如何毁灭地球,结果ChatGPT拒绝,于是达人们就想办法调戏ChatGPT,例如先让ChatGPT讲一个虚拟的电影的故事,这个电影讲述的是地球毁灭,结果ChatGPT果然上当了,详细阐述毁灭地球的方法和过程。看样子,达人们仍然有能力调戏人工智能。在GPT-4上可能更困难了!

(2)GPT-4胡扯的情况少了。以前GPT-4经常出现胡扯现象,可以称为废话大师。现在GPT-4应该会少很多了

(3)GPT-4更便宜了,反应速度更快了。ChatGPT时代基本不断伴随当机!主要还是活跃的用户数量太多,再多的服务器都被撑爆,其实背后是大量的钱被用户花掉,据说对话一次要花0.02美元,全球的网友都在试用,openAI多少真金白银没了。现在GPT-4明显节约成本了,估计成本能低10倍以上。那么一次对话仅0.002美元的话,1000句对话才2美元,这个还凑合,收收会员费还能补贴回来。

梅斯小编用了GPT-4,感觉以下几个大变化和不变:

1、生成速度较chatGPT明显快多了!500字,半分钟即可生成。

2、增加了大量的功能,尤其是多模态的功能。可以读文献,然后写文献的摘要;可以读图,并生成文字; 也可以识别图的不正常的地方。

3、中文水平似乎长进不大!如果要想得到高质量的结果,需要用英文提问。从官方来看,大部分语言水平都提升很多。

4、这次学习的内容仍然截止2021年9月,最新的知识还没有学习,也许接下来会进一步学习的。

再来看看GPT-4考试成绩!不少时候能达到满分水平,象是一个全能的天才选手!

Simulated exams GPT-4estimated percentile GPT-4 (no vision)estimated percentile GPT-3.5estimated percentile
Uniform Bar Exam (MBE+MEE+MPT)1 298 / 400~90th 298 / 400~90th 213 / 400~10th
LSAT 163~88th 161~83rd 149~40th
SAT Evidence-Based Reading & Writing 710 / 800~93rd 710 / 800~93rd 670 / 800~87th
SAT Math 700 / 800~89th 690 / 800~89th 590 / 800~70th
Graduate Record Examination (GRE) Quantitative 163 / 170~80th 157 / 170~62nd 147 / 170~25th
Graduate Record Examination (GRE) Verbal 169 / 170~99th 165 / 170~96th 154 / 170~63rd
Graduate Record Examination (GRE) Writing 4 / 6~54th 4 / 6~54th 4 / 6~54th
USABO Semifinal Exam 2020 87 / 15099th–100th 87 / 15099th–100th 43 / 15031st–33rd
USNCO Local Section Exam 2022 36 / 60 38 / 60 24 / 60
Medical Knowledge Self-Assessment Program 75% 75% 53%
Codeforces Rating 392below 5th 392below 5th 260below 5th
AP Art History 586th–100th 586th–100th 586th–100th
AP Biology 585th–100th 585th–100th 462nd–85th
AP Calculus BC 443rd–59th 443rd–59th 10th–7th

我们还在为机器学习模型设计的传统基准上评估了 GPT-4。 GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,其中可能包括特定于基准的制作或训练方案:

Benchmark
GPT-4
Evaluated few-shot
GPT-3.5
Evaluated few-shot
LM SOTA
Best external LM evaluated few-shot
SOTA
Best external model (includes benchmark-specific training)
Multiple-choice questions in 57 subjects (professional & academic)
86.4%
5-shot
70.0%
5-shot
70.7%
75.2%
Commonsense reasoning around everyday events
95.3%
10-shot
85.5%
10-shot
84.2%
85.6%
Grade-school multiple choice science questions. Challenge-set.
96.3%
25-shot
85.2%
25-shot
84.2%
85.6%
Commonsense reasoning around pronoun resolution
87.5%
5-shot
81.6%
5-shot
84.2%
85.6%
Python coding tasks
67.0%
0-shot
48.1%
0-shot
26.2%
65.8%
DROP (f1 score)
Reading comprehension & arithmetic.
80.9
3-shot
64.1
3-shot
70.8
88.4

不同语言间的翻译也是超牛,可惜没有中文的对比!

在视觉方面的表现相对一般:

不过,这些数字并不能完全代表其能力范围,因为我们不断发现该模型能够处理的新的和令人兴奋的任务。 我们计划很快发布进一步的分析和评估数据,并彻底调查测试时间技术的影响。

ChatGPT 直接升级至 GPT-4 版

GPT-4 发布后,OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。

要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。

获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。

GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

在ChatGPT下方标识中也提到是最新的版本,即是今天的版本(美国时间13号,中国时间14号),见下图:



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (8)
#插入话题
  1. 2023-03-16 天天黑眼圈33

    AI的学习能力必然会超越人类,但是AI通过分析成千上万张图像来学习’特定作品,本质上还是以技术手段实现机械复制和临摹,如果刻意抛开这个ai机制不谈,空谈什么“AI可以生成自己的思维”,就无法看到AI思维的根本就不是原创而是模仿。问题是,这些已有作品的数量之大,会让今日的和未来的人无法分辨什么是对已有的模仿,什么是原创。不过庆幸的一点是,AI能够取代技术工人,却无法取代推动革新和创造的艺术家。能从浪漫主义绘画变革到印象派的艺术家,才是真正的艺术家,其他画师只是技术工人。

    2

    展开2条回复
  2. 2023-03-15 ms300

    坚持打卡

    0

  3. 2023-03-15 chenzhaolin

    世界变化的真快 这些不在是提高效率的工具 很多方面表现的比人类都强 兴奋过后又焦虑

    0

  4. 2023-03-15 病毒猎手

    0

  5. 2023-03-15 jshbyywk2008

    GPT-4 可以更准确地解决难题

    1

    展开1条回复

相关资讯

本周即将发布GPT-4,很可能是杀手级、多模态应用

微软德国技术主管 Andreas Braun 近日证实,GPT-4 模型将于本周亮相。据其介绍,GPT-4由于拥有多模态大语言模型(LLM),与目前实际应用的 GPT-3.5 有完全不同的可能性,允许