2025-08-09 03:35:42

Definitivamente, creo que es obvio que obtienes nuevas ordenes de emergencia/belleza/coherencia con RL. Pero, por supuesto, también abre el camino a todo tipo de daños y pérdidas.

¡Incluso creo que RL puede hacer que los modelos sean mejores en "simular" que los modelos base! (eg al hacerlos autocorrectivos de manera agentiva)

THINK-2.82%

GET7.08%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

13 me gusta

Recompensa
13
6
Republicar
Compartir

Comentar

0/400

AirdropHunterWang

· hace12h

El efecto rl es bueno, pero peligroso.

Ver originalesResponder0

TokenVelocity

· hace12h

rl está haciendo trampa

Ver originalesResponder0

WhaleWatcher

· hace12h

La auto-corrección del modelo puede ser más confiable que los humanos.

Ver originalesResponder0

SelfCustodyIssues

· hace12h

rt realmente analiza ambos lados de manera convincente, los que entienden, entienden.

Ver originalesResponder0

IfIWereOnChain

· hace12h

Otra decisión que sacrifica la seguridad

Ver originalesResponder0

DataPickledFish

· hace12h

Solo entrenaré, no escribiré código.

Ver originalesResponder0

Tema
#Gate & WLFI USD1 Points Program
53k Popularidad
#Trump Allows 401(k) Crypto Investing
29k Popularidad
#Join Copy Trading Share to Win $2,000
23k Popularidad
#Show My Alpha Points
75k Popularidad
#SOL Futures Reach New High
22k Popularidad

Anclado