5月14日凌晨，OpenAI举办春季线上直播，发布了最新AI旗舰模型GPT-4o

chatGPT网址2024-07-1157

先做个广告：如需代注册帐号或代充值GPT4.0会员，请添加站长客服微信：pingzi7749

5月14日凌晨，OpenAI举办春季线上直播，发布了最新AI旗舰模型GPT-4o。并且将向免费向用户开放！这意味着，你我都可以通过ChatGPT来体验到OpenAI 最先进的技术。

GPT-4o 中的“o”是单词"Omni"的首字母。指的是 GPT-4o 的多模态，这个单词中文直译过来是“全能”。

发布会只短短不到30分钟，而国内各大媒体对GPT-4o的评价基本是：“不可思议”、“颠覆认知”、“炸翻AI圈”......

发布会之前，OpenAI CEO山姆·奥特曼发布了一个推文，给GPT-4o的发布埋下了伏笔：

除了让人联想起十多年前的科幻电影里斯嘉丽约翰逊饰演的人工智能系统OS1。

“her“意味着：

果然，谜底揭晓。GPT-4o 多模态大模型的发布，让人机交互方式的进一步革新了，不仅能处理对话的微妙细节，如自然语言理解、环境噪音过滤等以往对AI模型造成的挑战，还通过内置转录、智能分析和文本转语音等功能，大大降低交互延迟。

对情绪的感知是颠覆人们认知的一大亮点，ChatGPT 不仅能识别人的情绪，还能在对话中适时提出建议。此外还能按要求来改变说话的语气，从机械冰冷到幽默温柔都信手拈来，这点和电影”Her“里呈现出来的很接近。

除了语音之外，GPT-4o还改进了 ChatGPT 的视觉能力，可以进行实时的视频交互。这是另一大亮点。

用国内某大模型搜索GPT-4o的革新和突破点，给出了以下几个答案：

1.端到端的设计：GPT-4o采用了端到端的设计，将输入和输出的处理统一在一个神经网络中，极大提升了处理速度。这种设计方式使得模型能够直接从音频、图像和文本输入中学习，并生成对应的输出，显著提高了处理速度和效率。

2.多模态能力：GPT-4o具备强大的多模态能力，可以处理和生成文本、图像、音频的任意组合。这种能力不仅改善了模型的适应性，还为创建更为丰富和互动的应用程序打开了大门。GPT-4o在语音识别和生成方面达到了新的水平，能理解和生成具有特定情感和语调的语音，提供更加自然的交互体验。

3.速度优化：GPT-4o在速度上取得了显著的优化。据称，其速度是前代模型的两倍，而成本却降低了一半。这种性能与成本的双重优势，使得GPT-4o在市场上更具竞争力。GPT-4o能在232毫秒内响应音频输入，与人类的反应时间相媲美，为用户带来了接近实时的交互体验。

4.广泛的应用前景：GPT-4o的多模态功能使其在客户服务和支持中的应用变得更加有效。企业可以利用这一技术提供更加个性化和互动的客户体验。此外，GPT-4o在娱乐、教育、医疗等领域也有广泛的应用前景，如智能助手、虚拟教师、健康咨询等。

下面，来看看这么强大的AI大模型背后的算力吧。

2024年4月25日，英伟达向该公司移交了全球第一台DGX H200——目前地表最强的人工智能芯片系统，并且由老黄亲自交付。

有了H200，GPT-4o它能不香吗？

曾经跟国内很多大模型供应商聊过，算力是个极大的挑战，文本训练就已经让算力吃紧了，加上音频和视频，两个模态的数据量比文本的又大太多了。

解决了算力瓶颈，多模态大模型的脚步就会快很多。

ps，有理由期待下今年的谷歌I/O大会，整个AI圈都在盯着，对比GPT-4o，Gemini究竟会怎么进化到什么程度。

全面指南，如何在中国大陆购买并使用GPT-4