热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Cristóbal Valenzuela
cofounder ceo @runwayml
在完全不相关的新闻中,Gen-4 现在制作你的视频需要三个月,而不是 20 秒。该模型还将通过使用一种古老的、被遗忘的日本技术,逐个像素地仔细放置在屏幕上来生成每个像素。我们将每秒生成的价格提高到 5,000 美元。

Cristóbal Valenzuela17 小时前
这种感觉实际上是一种相当常见且经过研究的认知偏差,称为努力启发式或劳动错觉:人们在认为付出了更多努力或时间来产生某个结果时,会更看重这个结果,即使结果是相同的。当价值难以确定时,评估者缺乏该主题的专业知识,或者你所评判的事物对你来说完全是新的时,这种情况经常发生。


7.05K
这次控制是最后的。但它正在到来。

Cristóbal Valenzuela2024年11月14日
我经常谈论人工智能中的控制。但我意识到,有时人们认为我指的是“更好的提示”。所以这里是我对控制的理解:我们正在反向解决图形问题。
计算机图形的历史遵循着一个明确的进程:首先是控制,然后是质量。建立正确的抽象——曲线、三角形、多边形、网格——以便让我们能够在屏幕上准确绘制我们想要的东西,花费了几十年的时间。这些基本构建块没有太大变化,因为它们被证明是正确的。从埃德·卡特穆尔的手到现代游戏引擎,我们控制像素的核心原则保持了惊人的稳定性。这些基础不仅是为了控制而出现的,也是描述和渲染复杂场景的高效方式。
渲染质量是最后的边界。1987年使用第一版Renderman建模的立方体遵循与今天在Blender中建模的立方体相同的几何原则。截然不同的是渲染——照明、材料、阴影和反射使其感觉真实。行业花费了几十年时间来缩小不真实的谷底,构建越来越复杂的渲染系统以接近照片级真实感。当然,许多图形创新同时改善了控制和质量,图形进步的历史比“控制然后质量”要复杂得多。
但这个顺序并不是任意的。图形管道本身强制执行这一点:几何定义了我们想要绘制的内容,着色器决定了它的外观。即使是实时引擎也遵循这种模式——首先建立细节级别控制,然后在这些限制内提高渲染质量。
人工智能完全颠覆了这一进程。
今天的生成模型实现了与传统管道相媲美或超越的照片级渲染质量,实际上通过大规模训练学习了整个图形堆栈——从几何到全局照明。它们打破了建模和渲染之间的传统分隔,创建了一个端到端的系统,可以从高层描述中生成惊人的图像。
缺失的是控制。
虽然我们可以在几秒钟内生成照片级场景,但我们缺乏几十年图形研究所提供的精确控制。我们无法轻松调整几何形状,微调材料,或以艺术家期望的细致程度操控照明。传统图形的确定性特性——每个参数都有可预测的效果——已被概率模型所取代。
这就是逆图形问题:我们在解决控制之前解决了渲染。我们的模型可以创建惊人的图像,但缺乏使计算机图形如此强大的基本抽象——在任何细节级别进行精确、意图明确的更改的能力。
这并不是一个永久的限制。正如计算机图形最终解决了渲染问题,人工智能也将解决控制问题。问题不在于是否,而在于如何。我们正在寻找控制生成模型的正确抽象——相当于革命性计算机图形的曲线、三角形和多边形。我认为解决方案可能看起来不同。对于神经网络而言,原生的控制新原语可能是正确的答案,而不是试图将传统图形概念强加到这个新范式中。尽管我也认为结合传统图形与人工智能的混合方法值得探索。
目标仍然是提供与计算机图形作为创意表达基础工具所带来的相同水平的可预测性和精确性。这是最终目标,但更好:实时、便宜,并且具有尽可能直观和通用的精确控制。
这次控制排在最后。但它正在到来。
4.56K
是的!您可以在聊天模式下同时生成多个视频。

Alin Cristian Tiganus (eyes2AI)8月7日 04:44
我原以为 @runwayml 的聊天模式只允许一次生成一个。结果我错了。现在,除了使用 Turbo,我可以同时进行两次生成,也许只是我个人的感觉,但在聊天模式下,它似乎更好地遵循提示。我不知道,但这感觉就是对的,就像我在工作,但又没有感觉到。谢谢!
112
你只需要告诉他就行了。

Jamie8月8日 06:21
即使是你最无聊的镜头也可以通过 @runwayml Aleph 变成游乐场。添加内容。修改它。或者,给它加上一只海鸥。你所需要做的就是告诉 Aleph 你想要什么。
2.96K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可