2024年在人工智能领域出现了不少值得关注的发布和进展,以下是根据时间线索,对一些亮点突破进行了总结:
Google 宣布推出Gemini Pro 1.5多模态语言模型,该模型能够解析多达一百万个词,以及解析视频和图像。该模型正在逐步向等待名单上的开发人员发布。
OpenAI 宣布推出可制作长达一分钟的视频的Sora模型。该模型目前尚未向公众发布。
Anthropic 宣布推出其大型语言模型的新版本Claude 3。该版本部署了 3 种不同大小的模型,其中最大的模型性能优于 GPT-4。
X 公司发布了其语言模型Grok-1.5V的升级版,该模型集成了高级图像识别功能。在该公司展示的测试中,该模型在图像识别和分析方面的表现优于其他模型。
Mistral 公司将其新模型Mixtral 8x22B开源。这是开源模型中最强大的模型,它包含 1410 亿个参数,但采用了一种更经济的方法。
微软开源了Phi-3-mini模型。该模型的参数精简版本为 3.8B,因此也可以在移动设备上运行,并且具有与 GPT-3.5 类似的功能。
初创公司Reka AI推出了一系列 3 种大小的多模态语言模型。这些模型能够处理视频、音频和图像。大型模型具有与 GPT-4 类似的功能。
苹果公司以OpenELM 的名义全面开源了一系列小型语言模型。这些模型有四种权重,参数数量在 2.7 亿到 30 亿之间。
OpenAI 宣布推出GPT-4o 模型,该模型具有完整的多模态功能,包括接收和创建文本、图像和音频。该模型表现出令人印象深刻的以高响应速度和自然语言说话的能力。该模型的效率是 GPT-4 Turbo 模型的 2 倍,并且对英语以外的语言具有更好的能力。
Google 宣布其产品中有大量 AI 功能。主要包括:将 Gemini 1.5 的 token 上限提高到 200 万,以加入等待列表,发布更小更快的Gemini F星空智能科技lash 1.5 模型。发布最新的图像创作模型Imagen 3、音乐创作模型Music AI和视频创作模型Veo。并宣布推出具有多模式功能的Astra 模型,用于实时音频和视频接收。
微软宣布推出用于专用计算机的Copilot+,可通过用户活动的屏幕截图全面搜索用户历史记录。该公司还开源了尺寸最小、功能强大的 SLM:Phi-3 Small、Phi-3 Medium和包含图像识别功能的Phi-3 Vision 。
Meta 推出了Chameleon,一种可以无缝呈现文本和图像的新型多模式模型。
谷歌宣布推出AI Overview,旨在对谷歌搜索中的相关信息进行总结。
苹果宣布推出Apple Intelligence,这是一套将被集成到公司设备中的人工智能系统,它将结合不同规模的人工智能模型来执行不同的任务。
Anthropic 发布了Claude Sonnet 3.5模型,该模型比其他模型具有更出色的能力且资源占用率更低。
Google 宣布推出Gemma 2开源语言模型,参数大小分别为 9B 和 星空智能科技27B。此外,该公司还向开发人员开放了上下文窗口功能,最多支持 200 万个 token。
OpenAI 发布了一款名为GPT-4o mini的微型模型,以低成本提供高性能
Meta 开源了llama 3.1 模型,尺寸为 8B、70B 和 405B。大型模型具有与最佳闭源模型相同的功能
Google 开源Gemma 2 2B模型。该模型展现出比大型模型更出色的能力。
“黑森林实验室”发布了名为Flux的图像生成模型的权重,其性能表现优于同类闭源模型。
微软推出了三个版本的小型语言模型Phi 3.5,每个版本都展现了相对于其尺寸的令人印象深刻的性能。
法国人工智能公司 Mistral 推出了Pixtral12B,这是其首个能够同时处理图像和文本的多模式模型。
OPENAI 向其订阅用户发布了两款下一代 AI 模型:o1 preview和o1 mini。这些模型在性能上表现出显著的提升,特别是在需要推理的任务中,包括编码、数学、GPQA 等。
阿里巴巴发布了Qwen 2.5模型,大小从 0.5B 到 72B 不等。这些模型展现出与更大模型相当的能力。
谷歌发布了其人工智能工具NotebookLM的更新,使用户能够根据自己的内容创建播客。
Meta 推出了Movie Gen,这是一种根据文本输入生成视频、图像和音频的新型 AI 模型。
初创公司 Rhymes AI 发布了Aria,这是一个开源的多模式模型,其功能与同等规模的专有模型相似。
Janus AI是一种能够识别和生成文本和图像的多模态语言模型,由 DeepSeekAI 开源发布。
Google DeepMind 和麻省理工学院推出了Fluid,这是一种文本到图像生成模型,在 105 亿个参数的规模上具有业界领先的性能。
Anthropic 宣布推出一款可通过公开测试版 API 进行计算机使用的实验性功能。
文本转图像模型Recraft v3已正式发布,在同类模型跑分中排名第一。
OpenAI推出了Search GPT,允许用户直接在平台内进行网络搜索。
阿里巴巴发布了新模型QwQ 32B Preview,该模型集成了响应前的推理能力。该模型与 OpenAI 的 o1-preview 模型竞争,有时甚至超越后者。
阿里巴巴开源模型Qwen2.5 Coder 32B,其功能可与编码领域领先的专有语言模型相媲美。
Suno将其 AIpowered 音乐生成器升级到v4,引入了新功能和性能改进。
谷歌推出了两个实验模型,gemini-exp-1114和gemini-exp-1121,目前以增强的性能引领竞技场聊天机器人。
OpenAI 发布了视频生成模型SORA,以及面向高级订阅者的O1和O1 Pro完整版。此外,该公司还推出了GPT4o的直播视频模式。
谷歌发布了实验模型Gemini-Exp-1206,该模型在聊天机器人排行榜上名列第一。
Google 发布了Gemini 2.0 Flash测试版。该模型在基准测试中处于领先地位,性能优于上一版本Gemini Pro 1.5。此外,Google 还推出了实时语音和视频模式,并宣布该模型内置了图像生成功能。
谷歌推出了Veo 2,这是一款测试版视频生成模型,能够生成长达两分钟的 4K 视频。该模型在人工评估中的表现优于SORA 。此外,谷歌还更新了Imagen 3,提高了图像质量和真实感。
微软开源了Phi4模型,其尺寸为 14B,展示了其尺寸如此之小却功能如此强大的特点。
谷歌推出了名为PaliGemma 2的多模式开源模型,与现有的Gemma模型相集成。
阿里巴巴发布了QVQ-72B-Preview,这是一种能够分析图像的前沿思维模型,具有SOTA级别的性能。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
美国经济凛冬将至?一季度GDP或萎缩2.8% ,今年前两月裁员已超22万人,消费者“末日囤货”,政府面临关门危机
近期,亚特兰大联储GDPNow模型对美国经济的预测出现断崖式下滑,其对美国2025年第一季度实际GDP增长的估计为-2.8%,低于2月28日的-1.5%。
菲律宾在我国南海海域非法坐滩军舰浓烟滚滚,系菲船员在船上燃烧生活垃圾,严重威胁附近海域生态环境。
北京一别墅由9000万元降价到1500万元?业内:不可能,应该是“降了1500万元”
【央视首次曝光!歼-20发射新型导弹 “超视距”打掉3架“敌机”】歼-20搭载某新型空空导弹,在超视距空战演习中一次击落3架“敌机”。
江西一90后数学老师离职后在校门口卖火鸡面:学生见我比上课积极,遇到家长还是尴尬
江西金溪市一所小学的孩子们放学后,惊喜地在学校门口看到了一个熟悉的身影。小陈告诉记者,自己曾是一名数学老师,在学校做了三年合同教师,合同到期后便离开了岗位。
近日,网上热传菲律宾在我国南海海域非法“坐滩”军舰浓烟滚滚的视频,引发着火与消防演习的猜测。经获取独家视频与多方探寻得知,实际是菲律宾船员在船上燃烧生活垃圾。
在这个只有5.7万居民、4万多合格选民的岛上,一场自治议会选举吸引了全球媒体的关注,各路记者前往首都努克的街头探访,规模不大的格陵兰大学也收到海量采访请求,以至于在学校主页上抱歉地告知“无法满足所有需求”。
14日,中央纪委国家监委网站发布消息,连打两虎:宁夏回族自治区政协原党组书记、主席齐同生严重违纪违法被开除党籍。
1940年代,平·克劳斯贝和鲍勃·霍普主演了始于1940年的《新加坡之路》的系列电影。剧情通常很相似,平和鲍勃这两个能言善辩的骗子或歌舞搭档,总是会陷入某个国家的困境,平通过将鲍勃卖为奴隶,或将他送去参与某种异教仪式的牺牲等方式摆脱困境。
一个帅气迷人的AIGC商业博主 AI 前沿资讯ℹ️宝藏库 你需要了解的AI科技前沿资讯在这里阅读