刷到一条最近挺火的消息,在校学生使用AI视频工具搞了个AI视频短片《电火花之舞》,在MIT的全球AI电影黑客马拉松中拿了“最佳叙事奖”。 这片子靠着超走心的情感表达和细腻的画面直接把...
刷到一条最近挺火的消息,在校学生使用AI视频工具搞了个AI视频短片《电火花之舞》,在MIT的全球AI电影黑客马拉松中拿了“最佳叙事奖”。
这片子靠着超走心的情感表达和细腻的画面直接把评委给征服了,在海外社交平台上也炸开了锅。
网友们一边惊叹它那突破性的艺术表现力,一边在相关话题下疯狂点赞AI视频工具的进化之快,效果炸裂,评论区刷爆。
看了一下,这个被疯狂点赞的AI视频工具正是MiniMax旗下的——海螺AI
现在不管是视频生成的效果,还是全球用户的访问量,都说明了海螺AI在AI视频赛道领跑者的技术实力。
而且就在获奖两周前,这家伙跟MiniMax家另一款出海产品Talkie一块儿被a16z(硅谷那家扛把子风投机构AndreessenHorowitz)选进了全球AIWeb产品Top50和AI应用Top50榜单。
海螺AI力压可灵和OpenAI的Sora稳居全球AI视频赛道头把交椅。
这一系列的亮眼成绩,再次把这个被低估了的国产大模型公司MiniMax推到了大家眼前。
今天,来挖挖MiniMax这家低调的国产AI公司。
早在25年1月,MiniMax就接连发布了一系列涵盖各个领域的大模型。
在视频赛道,MiniMax推出了S2V-01视频模型,通过单图主体参考架构,只需输入一张图片,即可实现视觉细节的精确动态还原,同时具备高自由度和组合性。不用等待太长时间,就能生成高可用的效果。
还有I2V-01-Director、T2V-01-Director共同组成01-Director系列模型,「镜头控制」模型让普通用户也获得了全新的创作自由,让普通人如专业导演一样,自如控制镜头语言。
在语音赛道,MiniMax推出了T2A-01系列语音模型,支持声音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。
模型具备智能情感系统,能捕捉语音中的情感细微差别,使语音更生动。用户可选择自动情绪检测或手动控制,获得完美表达。
支持17种以上语言,能自然呈现地区特色口音。还可以通过高级参数控制自定义音调、速度和情感基调,添加专业效果。
年初发布的MiniMax-01系列开源模型,包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。
在发布之初就在海外引起了一波热议。被海外科技媒体、投资人及研究员认为:是一个来自中国的可以与OpenAI“掰手腕”的顶尖开源模型。
MiniMax-Text-01开源模型
①参数规模:4560亿总参数,单次激活459亿,支持400万Token上下文(相当于全系列《哈利波特》的3倍)。长文本处理能力是GPT的32倍Claude-3.5的20倍。
风险投资公司MenloVentures的VC@deedas说:这个开源的模型比GPT4o便宜10倍,效果与SOTA模型相当,在4Mtoken上下文中实现了“大海捞针”!
②架构突破:全球首次大规模应用线性注意力机制(LightningAttention),计算复杂度从传统Transformer的二次方降至线性。
Transformer的二次计算复杂度,随着token长度增加,算力需求就会迅速飙升,这就导致模型能处理的输入长度很有限。
但偏偏长文本处理能力又是AI发展的一个刚需。虽然我们可以靠硬件升级稍微缓解一下,但根本问题还是没解决。
现在很多人都在关注一种基于Transformer改进的“稀疏注意力机制”,MiniMax认为这种方法本质上还是对完整注意力(fullattention)的一种有损逼近,而线性注意力机制则可以做到无损优化。
想要了解MiniMax押注的⾮共识线性注意力⽅向更多相关的信息,建议听一下这个播客,了解更多MiniMax在架构突破上的探索。
③性能对标:在MMLU(通用知识测试)、IFEval(指令遵循)等核心任务中,追平GPT-4o和Claude-3.5-Sonnet,长文本衰减率优于谷歌Gemini。
MiniMax-VL-01开源模型
MiniMax-VL-01在MiniMax-Text-01的基础上,使用了303M参数的ViT(视觉Transformer)作为视觉编码器,并通过一个随机初始化的两层式MLP(多层感知机)投影器来执行图像适应。
使得模型能够将图像转换为语言模型可理解的token形式,该模型能够进行图文匹配、图像描述生成和视觉问答等任务。
在多个基准测试中,MiniMax-VL-01的表现与其他顶尖模型媲美,甚至在某些指标上达到最佳。
MiniMax创始人闫俊杰1月17日在《晚点》访谈中谈到了关于大模型技术突破、开源的思考,有助于重新理解国产大模型的破局之道。
闫俊杰说:“不能套用上一代做移动互联网产品的方法论来思考AI产品,模型才是产品出现的驱动力。”
好的AI产品、用户的增长是源自好的模型,本质是技术驱动。而DeepSeek和海螺AI的爆火以及实现用户飞速增长就是这一观点很好的印证。
闫俊杰还说:“我们认为真正有价值的事,不是当前做得怎么样,而是技术进化速度。而开源会加速技术进化。”所以MiniMax积极拥抱开源”
在AI行业卷的飞起的当下,MiniMax的道路显得尤为独特而珍贵,以技术创新为核心驱动力,持续攻坚多模态技术和模型迭代,将“创新”融入到发展脉络的每个阶段。
S2V-01、MiniMax-01以及T2A-01-HD等高质量模型的推出,既让中国在AI技术创新上站住了脚,也让海螺AI等产品在国际市场中获得了更多可能性和更好口碑。
三年时间里,MiniMax用坚持和专注为自己赢得了行业地位,也为中国AI企业树立了“唯有把技术做深、做透,才能在未来走得更远”的最好注脚。
2025,中国AI加油,MiniMax加油。