昨天 @grass 和 @inference_net 发布了一个 12B 视频注释模型,成本比封闭模型便宜 15 倍,并且超越或匹配 GPT-4.1 和 Claude 4 Sonnet 的性能。 这真是太疯狂了,尤其是它是基于 Grass 的网络上 100 万个视频帧进行训练的。 我也非常期待这个网络的产品化。 想象一下,随着 Grass/Inference 继续合作,Grass 抓取整个互联网的前进状态来训练模型,这些模型会变得多么优秀。 想象一下🌱
Inference
Inference8月15日 02:02
介绍 ClipTagger-12b。 这是一个最先进的视频注释模型,与 @grass 合作训练。 ClipTagger-12b 提供与 Claude 4 和 GPT-4.1 相媲美的视频注释能力,成本低17倍。 了解更多:
5.55K