Definitivamente, acho que é óbvio que você recebe novas ordens de emergência/beleza/coerência com RL. Mas, claro, isso também abre caminho para todos os tipos de danos e perdas.
Eu até acho que RL pode tornar os modelos melhores em "simular" do que os modelos base! (, por exemplo, tornando-os autocorretivos de maneira agente)
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
13 Curtidas
Recompensa
13
6
Repostar
Compartilhar
Comentário
0/400
AirdropHunterWang
· 8h atrás
o efeito rl é bom, mas é perigoso.
Ver originalResponder0
TokenVelocity
· 8h atrás
rl está a ser uma trapaça
Ver originalResponder0
WhaleWatcher
· 9h atrás
A auto-correção do modelo pode ser mais confiável do que os humanos.
Ver originalResponder0
SelfCustodyIssues
· 9h atrás
rt realmente analisa os dois lados de forma convincente, quem entende, entende.
Definitivamente, acho que é óbvio que você recebe novas ordens de emergência/beleza/coerência com RL. Mas, claro, isso também abre caminho para todos os tipos de danos e perdas.
Eu até acho que RL pode tornar os modelos melhores em "simular" do que os modelos base! (, por exemplo, tornando-os autocorretivos de maneira agente)