“水晶鞋效应”席卷AI圈,哪些模型穿得上?硅谷报告给开发者提个醒
发布时间:2025-12-12 14:49 浏览量:2
文 |姑苏九歌
编辑 |姑苏九歌
最近硅谷那边丢出了份重磅报告,《StateofAI,AnEmpirical100TrillionTokenStudywithOpenRouter》,研究了2024年11月到2025年11月OpenRouter平台上300多个AI模型的使用情况。
AI圈这一年的变化,比前三年加起来还猛。
今天就带大家看看,这些藏在百万亿Token背后的新趋势,到底会怎么影响咱们未来用AI。
以前大家提起开源AI模型,总觉得是闭源模型的"平替",性能差点意思,但胜在免费。
现在不一样了,开源模型已经找到自己的生态位,跟闭源模型形成了互补。
就像咖啡圈里,有人爱喝连锁品牌的稳定口感,有人就好小众精品的独特风味,AI圈也开始出现这种"百花齐放"的局面。
中国开源模型的表现尤其亮眼,报告里有组数据挺有意思,国产开源模型每周使用量占比,从最开始的1.2%一路涨到最高30%,平均下来也有13%。
这个数字可能看着普通,但你要知道,其他地区的开源模型平均份额也就13.7%,咱们基本追平了国际水平。
这背后,DeepSeek、Qwen这些团队功不可没,不过以前一家独大的局面也在变,越来越多新玩家挤了进来。
聊到模型大小,这一年的变化能写本"逆袭爽文"。
以前模型要么是"快而弱"的小模型,要么是"强而贵/慢"的大模型,像两个极端。
现在不一样了,"又快又足够强"的中型模型成了香饽饽。
报告里把模型按参数分成三类,大型(700亿+)、中型(150-700亿)、小型(
我问过身边搞开发的朋友,他们现在选模型,第一看响应速度,第二看能不能搞定手头的活儿,至于参数是不是全球最大,反而没那么重要。
就像Qwen2.5-Coder-32B、MistralSmall3这些中型模型,既不会让用户等得着急,处理一般的编程、写报告也够用了,自然成了不少人的首选。
聊完模型本身,再说说AI能干的活儿,这才是真的"脱胎换骨"。
以前咱们用AI,最多让它写个短文、回个邮件,现在不一样了,复杂推理成了主流。
报告里说,推理相关的Token用量,从年初几乎可以忽略不计,涨到现在超过一半。
GrokCodeFast1、Gemini2.5Pro这些模型,在推理赛道杀得火热,谁能更快更准地解出数学题、分析数据,谁就能圈粉。
工具调用功能,也从"奢侈品"变成了"标配"。
年初的时候,也就GPT-4o-mini、Claude3.5这些少数模型支持,现在呢?年中开始,越来越多模型加入了这个功能,生态一下子热闹起来。
Claude4.5Sonnet、GLM4.5这些,靠着工具调用能力圈了不少企业用户。
这趋势挺明显,以后模型要是不支持工具调用,可能连上桌的资格都没有。
AI的使用方式,这一年里简直是"基因突变"。
以前是"写短文",现在是"解难题",以前提示词就几句话,现在能写小作文,输入输出都翻了好几倍。
最关键的是,AI的角色变了,从陪聊的"聊天机器人",变成了能自己干活的"自动Agent"。
我见过最夸张的例子,有程序员用AI自动生成代码、调试bug,全程不用自己敲几行,还有人让AI扮演游戏角色,自己当"导演",AI能根据剧情自己接台词、做动作。
报告里说,编程和角色扮演成了AI的两大主要用途,尤其是编程,用量从11%涨到了50%以上,简直是坐了火箭。
说到用户行为,编程和角色扮演这两个场景特别值得说道。
编程场景最稳定,用量一路涨,现在超过一半的查询都跟编程有关。
以前Claude系列在编程领域几乎是"一家独大",现在OpenAI、谷歌还有不少开源模型都追了上来,竞争越来越激烈。
角色扮演就更有意思了,在开源模型里占了52%的用量,中国和西方的开源模型各占一半,算是平分秋色。
我身边有朋友是DeepSeek的忠实用户,说它家的角色扮演模型"特别懂梗",用起来有感情,不像有些模型干巴巴的。
这种用户粘性,可能就是开源模型能在角色扮演领域站稳脚跟的原因。
报告里还提了个"水晶鞋效应",挺形象的。
说的是新模型发布就像灰姑娘的水晶鞋,合不合脚(能不能解决用户痛点)很重要。
有的模型比如Claude、GPT-4oMini,一发布就找准了用户需求,稳稳留住了人,有的模型像Gemini2.0Flash,用户试了试觉得"不对味儿",转头就走,还有DeepSeek这样的,用户走了又回来,上演"回旋镖"。
不过这效应就像昙花一现,只在刚发布那会儿管用,所以模型更新快不快,比完美更重要。
最后聊聊市场格局的变化,亚洲用户的付费意愿涨得厉害,从13%翻倍到31%,北美份额第一次跌破50%。
语言方面,英语还是老大,占82%,简体中文排第二,近5%。
价格方面也挺反常识,模型降价10%,用量只涨了0.5%-0.7%,看来用户不是单纯看价格,还是看值不值。
这份报告也不是万能的,它只统计了开发者和API调用的数据,像咱们平时用的App、网页直接访问的流量没算进去。
但就算这样,也足够说明问题了,AI正在变得更多元、更能干、更懂用户。
以后的AI圈,可能没有绝对的霸主,只有找准自己位置的玩家。
不管是开源还是闭源,中型还是大型,能解决用户真问题的,才是最后的赢家。