Definitivamente, creo que es obvio que obtienes nuevas ordenes de emergencia/belleza/coherencia con RL. Pero, por supuesto, también abre el camino a todo tipo de daños y pérdidas.


¡Incluso creo que RL puede hacer que los modelos sean mejores en "simular" que los modelos base! (eg al hacerlos autocorrectivos de manera agentiva)
THINK-2.82%
GET7.08%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
0/400
AirdropHunterWangvip
· hace12h
El efecto rl es bueno, pero peligroso.
Ver originalesResponder0
TokenVelocityvip
· hace12h
rl está haciendo trampa
Ver originalesResponder0
WhaleWatchervip
· hace12h
La auto-corrección del modelo puede ser más confiable que los humanos.
Ver originalesResponder0
SelfCustodyIssuesvip
· hace12h
rt realmente analiza ambos lados de manera convincente, los que entienden, entienden.
Ver originalesResponder0
IfIWereOnChainvip
· hace12h
Otra decisión que sacrifica la seguridad
Ver originalesResponder0
DataPickledFishvip
· hace12h
Solo entrenaré, no escribiré código.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)