Qwen/Qwen2.5-Math-1.5B | 0.06666666666666667 | 0.046320555585310084 | 0.22727272727272727 | 0.02985751567338641 | 0.43 | 0.022162634426652835 | 0.24131313131313128 | 0.03278023522844978 |
Qwen/Qwen2.5-Math-7B | 0.3333333333333333 | 0.0875376219064817 | 0.2878787878787879 | 0.03225883512300993 | 0.566 | 0.022187215803029004 | 0.3957373737373737 | 0.04732789094417355 |
luckeciano/Qwen-2.5-1.5B-Simple-RL | 0.06666666666666667 | 0.046320555585310084 | 0.3333333333333333 | 0.033586181457325254 | 0.598 | 0.021948929609938612 | 0.33266666666666667 | 0.03395188888419132 |
luckeciano/Qwen-2.5-7B-Answer-Entropy-RL-0.1 | 0.16666666666666666 | 0.06920456654478331 | 0.2828282828282828 | 0.03208779558786751 | 0.728 | 0.019920483209566072 | 0.3924983164983165 | 0.04040428178073897 |
luckeciano/Qwen-2.5-7B-Answer-Entropy-RL-0.4 | 0.2 | 0.07427813527082075 | 0.3282828282828283 | 0.03345678422756776 | 0.71 | 0.02031317923174518 | 0.4127609427609427 | 0.042682699576711225 |
luckeciano/Qwen-2.5-7B-Embedding-Entropy-0.45-Missing-Response | 0.23333333333333334 | 0.07854032324531728 | 0.3383838383838384 | 0.03371124142626302 | 0.716 | 0.020186703693570854 | 0.42923905723905725 | 0.044146089455050386 |
luckeciano/Qwen-2.5-7B-Embedding-Entropy-RL-0.1 | 0.16666666666666666 | 0.06920456654478331 | 0.30808080808080807 | 0.03289477330098615 | 0.71 | 0.020313179231745197 | 0.3949158249158249 | 0.04080417302583822 |
luckeciano/Qwen-2.5-7B-Embedding-Entropy-RL-0.25 | 0.23333333333333334 | 0.07854032324531728 | 0.29797979797979796 | 0.03258630383836556 | 0.71 | 0.020313179231745186 | 0.4137710437710438 | 0.04381326877180935 |
luckeciano/Qwen-2.5-7B-Embedding-Entropy-RL-Len-Penalty | 0.36666666666666664 | 0.08948554539839962 | 0.3434343434343434 | 0.03383201223244442 | 0.748 | 0.019435727282249515 | 0.48603367003367004 | 0.04758442830436452 |
luckeciano/Qwen-2.5-7B-Len-Penalty-Baseline | 0.2 | 0.07427813527082075 | 0.25252525252525254 | 0.030954055470365897 | 0.66 | 0.021206117013673066 | 0.3708417508417508 | 0.042146102584953236 |
luckeciano/Qwen-2.5-7B-Len-Penalty-Baseline-v2 | 0.26666666666666666 | 0.0821175682735253 | 0.35353535353535354 | 0.03406086723547153 | 0.694 | 0.02062956999834541 | 0.43806734006734005 | 0.04560266850244742 |
luckeciano/Qwen-2.5-7B-Missing-Response-RL-Baseline | 0.26666666666666666 | 0.0821175682735253 | 0.2777777777777778 | 0.031911782267135466 | 0.758 | 0.019173085678337164 | 0.43414814814814817 | 0.04440081207299931 |
luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3 | 0.13333333333333333 | 0.0631242768631999 | 0.16666666666666666 | 0.026552207828215286 | 0.71 | 0.020313179231745186 | 0.33666666666666667 | 0.03666322130772012 |
luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4 | 0.3 | 0.08509629433967632 | 0.30808080808080807 | 0.032894773300986155 | 0.714 | 0.020229346329177528 | 0.44069360269360264 | 0.04607347132328 |
luckeciano/Qwen-2.5-7B-RL-AC-BigLRv3-Fast-4-v3-AdamEps6 | 0.2 | 0.07427813527082075 | 0.30808080808080807 | 0.032894773300986155 | 0.744 | 0.01953692357474761 | 0.4173602693602694 | 0.04223661071551817 |
luckeciano/Qwen-2.5-7B-Simple-RL | 0.16666666666666666 | 0.06920456654478328 | 0.32323232323232326 | 0.03332299921070644 | 0.712 | 0.02027150383507522 | 0.4006329966329966 | 0.04093302319685498 |
s-a-malik/Qwen-2.5-1.5B-Embedding-Entropy-RL-1 | 0.03333333333333333 | 0.033333333333333326 | 0.24242424242424243 | 0.03053289223393202 | 0.476 | 0.022357273881016403 | 0.2505858585858586 | 0.028741166482760584 |
s-a-malik/Qwen-2.5-7B-Embedding-Entropy-RL | 0.23333333333333334 | 0.07854032324531728 | 0.35353535353535354 | 0.03406086723547153 | 0.7 | 0.020514426225628043 | 0.428956228956229 | 0.04437187223547229 |
s-a-malik/Qwen-2.5-7B-Embedding-Entropy-RL-0.025 | 0.13333333333333333 | 0.06312427686319991 | 0.25757575757575757 | 0.031156269519646836 | 0.718 | 0.020143572847290795 | 0.3696363636363636 | 0.03814137307671251 |
s-a-malik/Qwen-2.5-7B-Embedding-Entropy-RL-0.4-last-5 | 0.23333333333333334 | 0.07854032324531728 | 0.30303030303030304 | 0.03274287914026865 | 0.684 | 0.020812359515855857 | 0.40678787878787875 | 0.04403185396714726 |
s-a-malik/Qwen-2.5-7B-Embedding-Entropy-RL-1 | 0.16666666666666666 | 0.06920456654478328 | 0.3181818181818182 | 0.033184773338453315 | 0.634 | 0.02156427685020162 | 0.3729494949494949 | 0.04131787224447941 |
s-a-malik/Qwen-2.5-7B-Embedding-Entropy-RL-last-5 | 0.26666666666666666 | 0.08211756827352527 | 0.3383838383838384 | 0.033711241426263014 | 0.696 | 0.020591649571224932 | 0.43368350168350167 | 0.04547348642367107 |
s-a-malik/Qwen-2.5-7B-Token-Entropy-RL | 0.2 | 0.07427813527082075 | 0.24242424242424243 | 0.03053289223393202 | 0.636 | 0.02153917063731769 | 0.3594747474747475 | 0.04211673271402349 |