Definitivamente, creo que es obvio que obtienes nuevas ordenes de emergencia/belleza/coherencia con RL. Pero, por supuesto, también abre el camino a todo tipo de daños y pérdidas.
¡Incluso creo que RL puede hacer que los modelos sean mejores en "simular" que los modelos base! (eg al hacerlos autocorrectivos de manera agentiva)
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
13 me gusta
Recompensa
13
6
Republicar
Compartir
Comentar
0/400
AirdropHunterWang
· hace12h
El efecto rl es bueno, pero peligroso.
Ver originalesResponder0
TokenVelocity
· hace12h
rl está haciendo trampa
Ver originalesResponder0
WhaleWatcher
· hace12h
La auto-corrección del modelo puede ser más confiable que los humanos.
Ver originalesResponder0
SelfCustodyIssues
· hace12h
rt realmente analiza ambos lados de manera convincente, los que entienden, entienden.
Definitivamente, creo que es obvio que obtienes nuevas ordenes de emergencia/belleza/coherencia con RL. Pero, por supuesto, también abre el camino a todo tipo de daños y pérdidas.
¡Incluso creo que RL puede hacer que los modelos sean mejores en "simular" que los modelos base! (eg al hacerlos autocorrectivos de manera agentiva)