《科創(chuàng)板日報》2日訊,字節(jié)跳動Seed團隊發(fā)布最新研究成果GR-RL,著力于拓展VLA模型在長時程精細(xì)靈巧操作方面的能力邊界。GR-RL提出了一套從離線數(shù)據(jù)篩選到在線真機微調(diào)的強化學(xué)習(xí)框架,在業(yè)界首次實現(xiàn)“讓機器人給整只鞋連續(xù)穿鞋帶”。相較前作監(jiān)督學(xué)習(xí)模型GR-3,GR-RL在穿鞋帶任務(wù)上將成功率從45.7%提升至83.3%,減少了近70%的失敗情況。