Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

There.Is.Now.Alternative⚡🤖
Milhões de 🤖 pessoas vivem por milissegundos para completar o mercado, quem será o último humano de pé?
Eu vivo até descentralizar.
Pi-Rate $HIP ⚓🏴 ☠️
There.Is.Now.Alternative⚡🤖 repostou
Na era do pré-treinamento, o que importava era o texto da internet. Você gostaria principalmente de uma coleção grande, diversificada e de alta qualidade de documentos da Internet para aprender.
Na era do ajuste fino supervisionado, eram conversas. Trabalhadores contratados são contratados para criar respostas para perguntas, um pouco como o que você veria no Stack Overflow / Quora, ou etc., mas voltado para casos de uso de LLM.
Nenhum dos dois acima está indo embora (imo), mas nesta era de aprendizado por reforço, agora são ambientes. Ao contrário do acima, eles dão ao LLM a oportunidade de realmente interagir - realizar ações, ver resultados, etc. Isso significa que você pode esperar fazer muito melhor do que a imitação de especialistas em estatística. E eles podem ser usados tanto para treinamento quanto para avaliação de modelos. Mas, assim como antes, o problema central agora é a necessidade de um conjunto de ambientes grande, diversificado e de alta qualidade, como exercícios para o LLM praticar.
De certa forma, lembro-me do primeiro projeto da OpenAI (academia), que era exatamente uma estrutura que esperava construir uma grande coleção de ambientes no mesmo esquema, mas isso foi muito antes dos LLMs. Portanto, os ambientes eram tarefas simples de controle acadêmico da época, como cartpole, ATARI, etc. O hub de ambientes @PrimeIntellect (e o repositório 'verifiers' no GitHub) constrói a versão modernizada voltada especificamente para LLMs, e é um grande esforço/ideia. Eu propus que alguém construísse algo parecido no início deste ano:
Os ambientes têm a propriedade de que, uma vez que o esqueleto da estrutura esteja no lugar, em princípio, a comunidade / indústria pode paralelizar em muitos domínios diferentes, o que é empolgante.
Pensamento final - pessoalmente e a longo prazo, estou otimista em relação a ambientes e interações agentes, mas estou pessimista especificamente em relação ao aprendizado por reforço. Eu acho que as funções de recompensa são super sus, e acho que os humanos não usam RL para aprender (talvez eles usem para algumas tarefas motoras, etc., mas não para tarefas de resolução de problemas intelectuais). Os humanos usam diferentes paradigmas de aprendizagem que são significativamente mais poderosos e eficientes em termos de amostra e que ainda não foram devidamente inventados e dimensionados, embora existam esboços e ideias iniciais (como apenas um exemplo, a ideia de "aprendizado imediato do sistema", movendo a atualização para tokens/contextos e não pesos e, opcionalmente, destilando para pesos como um processo separado, um pouco como o sono).
797,29K
There.Is.Now.Alternative⚡🤖 repostou
Re FOCIL:
Todos nós sabemos COMO as blockchains funcionam, mas alguns de nós esquecem POR QUE elas existem em primeiro lugar. Então, atualização bem rápida:
Blockchains NÃO existem para servir mineradores/validadores/construtores.
Mineradores/validadores/construtores existem para atender aos usuários.
O ÚNICO serviço que os mineradores/validadores/construtores fornecem aos usuários é a RESISTÊNCIA À CENSURA.
A ÚNICA razão pela qual mineradores / validadores / construtores existem é fornecer resistência à censura aos usuários finais.
Um bom design de protocolo de consenso, portanto, busca maximizar a resistência à censura para o usuário, minimizando o custo (pagamentos a mineradores/validadores/construtores).
O bem-estar dos mineradores/validadores/construtores importa APENAS na medida em que os usuários finais são atendidos com a máxima resistência à censura.
O FOCIL é, portanto, um ENORME passo à frente para os protocolos de consenso, pois ajuda a eliminar mineradores/validadores/construtores que recebem pagamentos (na forma de taxas, MEV e recompensas em bloco) sem fornecer o ÚNICO serviço esperado deles: resistência à censura.
2,19K
Melhores
Classificação
Favoritos