a perspetiva de impulsionar um ecossistema de código aberto para RL foi, sem dúvida, o que me atraiu para os verificadores e @PrimeIntellect
will brown
will brown24/08, 15:40
Vou confessar que tenho uma missão muito específica em mente com este projeto. O lançamento da beta privada semi-vaga faz parte disso. O conjunto de tarefas que estamos a procurar faz parte disso. As recompensas em GPU fazem parte disso. Os shitposts fazem parte disso. Os podcasts fazem parte disso. A partilha de ideias é crucial aqui. Deixe-me explicar. Atualmente, muita da discussão em torno dos ambientes RL está focada nesta nova onda de startups cujo modelo de negócio é construir e vender ambientes para um número muito pequeno de grandes laboratórios de forma exclusiva. A mechanize é a mais barulhenta, mas há várias delas. Em vez de gastar em amostras de ajuste de instrução e anotações, os laboratórios estão ansiosos para comprar ambientes privados como seu próximo grande recurso consumível para treinamento de modelos. Este fenômeno é tanto um sério risco para a perspectiva de modelos de código aberto permanecerem competitivos, quanto uma grande oportunidade para inclinar a balança se conseguirmos mudar o centro de gravidade. Se bons ambientes forem todos caros e ocultos, os modelos de código aberto ficarão ainda mais para trás. Isso é essencialmente o que aconteceu com os dados de pré-treinamento. Mas se um ecossistema suficientemente robusto de ferramentas de código aberto para ambientes e treinamento puder emergir, então a opção de código aberto também pode ser a mais avançada. Isso é mais ou menos o que aconteceu com o pytorch. Inclinar a balança aqui é meu objetivo. Nosso objetivo. Juntei-me à Prime Intellect porque todos eram incrivelmente talentosos, estavam seriamente comprometidos com a missão de AGI de código aberto para todos e não tinham medo de dizer isso, e porque a equipe tinha uma vantagem estrutural singular que significava que poderíamos realmente dar alguns golpes reais. Vendemos computação. Construímos infraestrutura para melhorar o que você pode fazer com essa computação. Fazemos pesquisa sobre como fazer essa computação interoperar de novas maneiras. Estamos treinando modelos maiores e melhores. Temos os incentivos certos para fazer o trabalho duro e necessário. Essas peças estão todas conectadas. Não podemos fazer isso sozinhos. Ninguém pode. Vai levar startups, empresas, estudantes e professores ao redor do mundo. A pesquisa aberta atualmente não tem as ferramentas para estudar as questões que os grandes laboratórios consideraram mais cruciais para o progresso futuro. Temos que encontrar uma maneira de construir essas ferramentas. Estamos tentando facilitar isso. Todos nós precisamos melhorar em trabalhar juntos, em não reinventar a roda, em montar peças individuais em quebra-cabeças maiores. Vamos pegar o que fizemos coletivamente até agora, limpá-lo, fazê-lo funcionar em conjunto, trazer mais pessoas para a tenda e começar a jogar jogos de soma positiva. Se não conseguirmos encontrar maneiras melhores de trabalhar juntos, estamos caminhando para um futuro de IA onde coletivamente simplesmente *não sabemos o que esses modelos realmente são*, porque a cortina nunca é levantada, e tudo o que podemos realmente ver é apenas um brinquedo. Há um tipo diferente de empresa que você poderia construir neste espaço; uma que ainda permite que você venda para os grandes laboratórios, mas não exclusivamente; uma que ainda permite que você tenha seus segredos comerciais e imprima um ARR doce, mas que não nos torna coletivamente menos informados sobre o futuro que estamos construindo. browserbase. cursor. exa. modal. morph. e incontáveis outros. Vamos fazer mais disso. Você pode construir uma grande empresa fazendo ferramentas poderosas e harnesses para agentes que refletem as tarefas de alto valor que as pessoas realmente querem que os modelos façam. Tenha elementos que sejam abertos para experimentar livremente, e elementos que estejam hospedados atrás de uma API. Cobrar por uso com alguns recursos premium para empresas. Construa o melhor clone de excel em forma de LLM, ou clone de figma, ou clone de turbotax. Mude-o apenas o suficiente para evitar um processo, e então deixe os clientes privados verem a versão mais robusta contra processos. Aproveite uma competição saudável na arena e encontre maneiras de fazer parcerias onde conta. Encontre seu ângulo e seja tão bom que você possa vender para todos, seja para RL ou para uso real. Alcance a massa crítica e seja tão acessível que não vale a pena para ninguém tentar reconstruir o que você já fez. Este é o cronograma que espero que terminemos. É um mundo onde os grandes laboratórios ainda podem fazer grandes coisas, e provavelmente oferecerão as maneiras mais fáceis de gastar um pouco mais para obter um desempenho geral melhorado. Mas também é um onde os modelos de código aberto não estão muito atrás, e todos que se importam o suficiente podem basicamente ver o que está acontecendo e entender como os modelos que usamos são realmente treinados. Se você está pensando em começar ou se juntar a uma empresa focada em ambientes RL, eu o insto a pensar sobre qual cronograma você está implicitamente apostando, e refletir sobre como se sente em relação a isso.
7,41K