Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kita dapat mengatasi ini melalui eksekusi terbatas.
Membatasi panjang output, seperti batas 140 karakter di Twitter.
Atau membatasi runtime, seperti mode real-time di Linux.


10 Agu, 00.53
Saya memperhatikan bahwa karena (saya pikir?) banyak benchmarkmaxxing pada tugas cakrawala panjang, LLM menjadi sedikit terlalu agen secara default, sedikit di luar kasus penggunaan rata-rata saya.
Misalnya dalam pengkodean, model sekarang cenderung beralasan untuk waktu yang cukup lama, mereka memiliki kecenderungan untuk mulai mencantumkan dan menggerakkan file di seluruh repo, mereka melakukan pencari web berulang, mereka terlalu banyak menganalisis dan terlalu memikirkan kasus tepi langka bahkan dalam kode yang secara sadar tidak lengkap dan dalam pengembangan aktif, dan sering kembali ~ menit kemudian bahkan untuk kueri sederhana.
Ini mungkin masuk akal untuk tugas yang berjalan lama tetapi kurang cocok untuk pengembangan iterasi yang lebih "dalam lingkaran" yang masih banyak saya lakukan, atau jika saya hanya mencari pemeriksaan cepat sebelum menjalankan skrip, untuk berjaga-jaga jika saya salah mengindeks atau membuat kesalahan bodoh. Jadi saya menemukan diri saya cukup sering menghentikan LLM dengan variasi "Berhenti, Anda terlalu memikirkan hal ini. Lihat hanya file tunggal ini. Jangan gunakan alat apa pun. Jangan terlalu merekayasa", dll.
Pada dasarnya ketika default mulai perlahan-lahan merayap ke mode super agen "ultrathink", saya merasa perlu sebaliknya, dan cara yang lebih umum baik untuk menunjukkan atau mengomunikasikan maksud / taruhan, dari "hanya melihat sekilas" hingga "pergi selama 30 menit, kembali ketika benar-benar yakin".
Anda tidak perlu menggunakan konsep dengan tepat, tetapi ide-ide dari pengembangan OS real-time dapat dimasukkan sebagai kendala selama pelatihan dan evaluasi AI.
Real-time lunak mungkin sudah cukup. Kecuali jika itu kecelakaan mobil jika tidak berhasil, seperti real-time yang keras.

104,43K
Teratas
Peringkat
Favorit