MobileGym发布:浏览器内构建轻量级安卓仿真环境,破解手机Agent训练评测困局
中科院团队近期发布MobileGym,一个完全运行在浏览器中的轻量级安卓仿真环境,旨在解决移动图形界面智能体在训练与评测中面临的“无考场、无训练场”的困境。该环境通过高交互保真度,模拟了28个App的运行时状态,并实现了完全可控的环境复位与并行化操作。
训练与评测的两难境地:模拟器与真机各有缺陷
当前,训练或评测能让AI像人一样操作手机的Mobile GUI Agent,通常需要依赖两种环境。
安卓模拟器:该环境虽然能够安装微信、支付宝等真实App,但App的风控系统对其“非常规环境”识别度极高,常导致闪退或封号。此外,模拟器资源占用大,单个实例内存消耗超过4.5GB,难以支持大规模并行训练。
真机环境:真机虽稳定且真实,但并行运算成本极为高昂,需要购置大量设备与真实账号。其核心矛盾在于,一个微信号无法克隆出多份内容、好友、余额一致的副本,使得需要从相同初始状态并行拉取轨迹进行对比的GRPO等强化学习算法变得无法实施。
“只要登的是真实账号,操作就是玩真的。真转账就是真扣钱,真购票就是真下单。更麻烦的是跑完之后想复位——哪怕只是改了个设置、点错个关注,想还原,也得靠人工、或让Agent反向操作一步一步抠回去。” — 来自研究素材
破局思路:聚焦“交互保真”,放弃底层复刻
研究团队提出一项核心思路:GUI Agent的感知方式仅依赖截图,而输出方式仅涉及点击操作。基于此,他们并未尝试复刻安卓内核或真实App服务端,而是专注于实现交互层面的“真实感”。
这意味着,只要在Agent点击后,界面能够给出正确的响应,并且状态发生符合预期的变化,对Agent而言,该环境便具备了足够的“真实性”。MobileGym正是围绕此“交互保真”概念构建的。
MobileGym:浏览器内的轻量级安卓运行时
MobileGym在浏览器中实现了完整的安卓运行时机制,包括任务栈、键盘、通知、权限流、intent路由及返回键派发等。该环境覆盖了28个App,具体名单如下:
- 日常App(12个):微信、小红书、支付宝、B站、谷歌地图、12306、腾讯会议、微信读书、Spotify、Reddit、X、eBay。
- 系统App(16个):系统工具及设置类应用。
可编程性与并行化优势
由于所有状态均在浏览器内管理,MobileGym实现了完全的可编程控制。研究团队可以随时读取、修改并复制环境状态,从而解决了真实环境中“状态不可逆、不可批量克隆”的死结。该环境支持大规模并行rollout,满足强化学习训练的基本前提。
此外,素材中指出,依赖大模型(VLM)对截图进行主观判定的传统评测方式,其误判率高达10.2%。MobileGym的仿真环境旨在提供一种更客观、可审计的替代方案。

28款应用实现独立仿真 覆盖主要APP类别
一个涵盖28个独立仿真应用的平台近日引起关注。据相关介绍,该平台中的每个App均采用独立仿真环境,且日常主要APP类别几乎全部覆盖。
独立仿真:每个应用在隔离环境中运行
所谓“独立仿真”,指的是每个应用程序在一个单独、互不干扰的模拟空间中运行,而非共享同一系统环境。这种设计旨在提升不同应用间的兼容性与测试准确性。
仿真到什么程度?直接上图感受一下——
目前该平台尚未公布具体支持的App列表及发布时间。业内人士指出,此类多应用独立仿真方案或为应用开发者提供更精准的测试场景,同时降低不同版本间的冲突风险。

微信界面高还原度复现:聊天列表、对话与底部Tab细节解析
近期,一款高度还原微信核心界面的设计方案引发关注。该方案对微信的聊天列表、单个对话界面以及底部Tab栏三个核心模块进行了精准复刻,力求在视觉与交互逻辑上实现“一比一”还原。
三大核心模块的复刻重点
该还原工作主要聚焦于用户日常使用频率最高的三个界面区域,并对其关键元素进行了处理。
聊天列表
该模块复现了微信聊天列表的典型布局,包括用户头像、昵称、最后一条消息预览以及消息时间戳等基本构成要素。列表的排列顺序与间距控制遵循了原版应用的设计规范。
对话界面
在单个对话界面中,该方案还原了气泡式对话的显示方式,区分了用户自己发送的消息和对方发送的消息,并在对话输入区域提供了表情、语音和“+”号等核心功能入口的占位。
底部Tab栏
底部Tab栏是应用导航的核心。该方案复现了“微信”、“通讯录”、“发现”、“我”四个主要标签页,并为其设计了相应的选中与未选中状态图标。
“一比一还原”意味着在视觉上对齐了原界面布局的比例、色彩体系与控件样式。
还原意图与潜在用途
从结构上看,这种高精度的界面复刻通常被用于设计规范验证、竞品分析展示,或是作为高保真原型用于产品评审。该方案本身并未对微信的功能逻辑进行实际开发,仅限于UI层面的视觉还原。
业内人士指出,此类还原工作需严格注意区分“界面展示”与“实际功能开发”之间的界限,其价值主要体现在前期设计与沟通环节。

小红书界面设计与用户操作逻辑分析
近期,小红书平台的双列瀑布流内容呈现方式、点赞交互功能以及底部导航栏设计,成为用户讨论的焦点。多位用户反馈,这一组合在操作体验上“刷起来毫无违和感”,表明其设计在视觉与动线协调性上获得了认可。
双列瀑布流:信息密度与浏览节奏的平衡
该平台采用双列瀑布流布局,即内容卡片以两列形式排列,图片和视频标题自动适应高度填充页面。相较于单列纵向滚动,双列设计能在同一屏内展示更多内容,增加信息密度。用户通过上滑即可连续加载新内容,无需频繁点击进入详情页,这种浏览节奏被部分用户评价为“流畅自然”。
点赞交互:轻量化反馈机制
点赞功能以心形图标形式存在于每篇笔记的底部。用户点击一次即完成点赞操作,无需进入评论区或额外跳转。设计上,该图标会在点赞后短暂放大并伴随颜色变化,提供即时视觉反馈。这一轻量化交互降低了用户参与的门槛,使得对内容的认可行为更加便捷。
底部导航栏:核心功能的固定入口
底部导航栏固定展示“首页”“发现”“消息”“我”等主要功能按键。用户无需返回顶部或寻找侧边菜单,仅通过单指点击即可在浏览、搜索、社交与个人中心之间切换。该导航栏始终悬浮于页面底部,确保了操作的一致性,减少了用户在深层次浏览中的迷失感。
有业内人士指出,双列瀑布流与底部导航的组合设计,本质上是将内容浏览与功能跳转拆分为独立的操作区域,从而降低认知负荷,使用户能更专注于内容本身。

腾讯会议仿真浏览器实现联网 可运行云游戏
腾讯会议在覆盖加入、预定会议及会议列表等办公功能的同时,其内置的仿真浏览器被用户证实具备真实网络连接能力。据B站评论区网友分享,通过该浏览器挂载云原神,已成功在会议场景中启动并运行游戏。
仿真环境具备完整网络交互
该现象表明,仿真浏览器并非仅用于界面模拟,而是能够访问外部服务器并加载在线应用。这意味着在办公场景下,该组件可额外用于联网内容展示或轻量级应用调用。

B站网友展示模拟器嵌套玩法:从“原神启动”到“俄罗斯套娃”
近日,B站网友通过模拟器实现的“套娃式”操作引发关注。相关截图显示,用户在仿真浏览器内启动游戏“原神”,随后又在MobileGym环境中打开了mobilegym.dev网址,形成了模拟器内部嵌套另一模拟器的视觉效果。
“套娃”操作细节
据网友实测画面,操作路径从仿真环境中的“原神”启动开始,随后切换至MobileGym工具界面,并直接访问了MobileGym自身的官方域名。这一行为导致界面层级叠加,手机界面内再次出现手机界面,被部分用户形容为“俄罗斯套娃”式嵌套。
“MobileGym里套了个MobileGym,手机里开手机,一层接一层。”
MobileGym是什么
MobileGym是素材中提及的一个移动端仿真环境工具,通常用于模拟手机运行状态或测试应用兼容性。该工具本身可作为模拟器运行,因此当在其界面内再次调用相同工具时,便形成了递归嵌套的视觉效果。
行业背景:嵌套操作的典型性与局限性
此类多层模拟操作并非首次出现。在编程测试或系统调试场景中,虚拟环境内重复调用同一进程的做法被称为“嵌套”。业内人士指出,该操作更多展示技术趣味性,在实际应用场景中可能因资源占用或性能瓶颈而难以长期稳定运行。
- “原神”是素材中提及的游戏名称,玩家可在仿真环境中启动该应用。
- 嵌套过程涉及手动输入网址操作,并非自动触发。
- 该现象对普通用户而言体验有限,更多被视为技术演示或娱乐内容。

MobileGym发布手机Agent训练评测环境 单实例仅需400MB内存 支持毫秒级快照 测试9个模型最高分58.8分
日前,一项名为MobileGym的移动端Agent环境首次公开其技术细节。该环境通过一份结构化JSON表示手机设备完整状态,实现环境状态可读、可写、可复制,并在此基础上构建了评测与训练一体化的“考练”系统。配套发布的MobileGym-Bench包含416个参数化任务模板,覆盖28个App,9个主流Agent模型在该评测中表现不佳,最高得分仅为58.8分。
9个Agent模型同台竞技 最高分不到六成
MobileGym-Bench被描述为“史上最严手机Agent考场”。其测试集包含256个任务模板,训练集另含160个模板。每个模板通过参数化实例化,可衍生出超过27000个不同实例,以此防止模型“背答案”。任务按难度分为L1至L4四个等级,等级划分基于8个参考模型的实际测试结果校准。
评测判分方式也作了调整。传统方法依赖字符串模糊匹配,容易误判;MobileGym要求Agent在界面上填写一张结构化“答题卡”,系统按字段类型(精确文本、数值、格式、选项)逐项核对,堵住了漏洞。这一设计也使GUI专用模型更易完成答题——答题卡的“填表单”形式恰好契合其能力特点。
9个知名Agent模型在MobileGym-Bench上的表现:最强模型仅取得58.8分,其余模型分数更低。
结构化JSON状态:可读、可写、可复制
MobileGym把环境的状态——App数据、系统设置、设备信息——全部表示为一份结构化JSON。这一设计解决了三个关键难题:
- 可读:程序直接读取状态做确定性校验,余额、订单、设置项一览无余,无需依赖VLM截图猜测。
- 可写:任意配置、一键重置到指定初始状态。
- 可复制:毫秒级快照,从同一状态复制出多条轨迹,一套状态拷贝即可支持GRPO训练。
环境状态还支持“零后果”重置:跑完一条轨迹后,直接用初始快照覆盖当前状态,毫秒级恢复,无需反向操作逐步复原。
同一套信号 既当评测又当训练奖励
由于环境状态可被程序精确判定,这份判定同时拥有双重身份:对评测而言是确定的成绩单;对训练而言是现成的奖励信号。同一套可验证信号,既是评测成绩单,又是训练奖励。此前AndroidWorld、MobileWorld等环境也具备这套“考练一体”能力,但只能覆盖系统工具和简单开源App,无法触及微信、支付宝这类高频日常App。MobileGym通过“仿真+结构化状态”,将可验证的考练一体延伸到了日常App上。
程序化判定节省裁判成本 单机可并行数百环境
因为整个环境就是一份结构化JSON,复制状态即克隆完整环境。单个实例仅占用约400MB内存,冷启动约3秒,一台服务器可同时开几百个并行环境。训练需要的海量rollout、评测需要的批量跑分,无需额外堆叠服务器。每条轨迹的判定由程序读状态完成,毫秒级出结果,无需调用大模型当裁判。
论文进行了一笔成本对比:若改用VLM当裁判,一次256题评测,使用GPT-5.4(此处为原始素材表述)约需158元;在96万条轨迹量级的强化学习训练中,裁判API成本可能达到约60万元。而MobileGym的程序化判定这部分成本为0。

MobileGym实现手机Agent训练向真机迁移,模拟增益迁移率达95.1%
一款名为MobileGym的手机Agent训练与评测平台近日引发关注。该平台通过浏览器仿真的“轻量级”设计,实现了256个并行实例在6分钟内完成全套评测,同时将训练资源压缩至一台服务器即可支撑96个环境实例。测试数据显示,模型在模拟测试集上的成功率从9.4%提升至22.2%,提升12.8个百分点;在真机实测中,信号任务成功率从32.2%跃升至72.9%,模拟训练增益的95.1%成功迁移到真实设备上。
评测性能:256个任务并行,6分钟出结果
MobileGym用一套高区分度的考试题评测手机Agent能力。在难度最高的L4任务上,9个模型集体失败,仅Gemini取得21.9%的成功率。团队表示,这一结果说明考题既未被刷爆,也未难到全军覆没,能够有效反映Agent的真实水平。得益于浏览器仿真的轻量化设计,256个并行实例运行完整评测仅需6分钟,大幅降低了时间成本。
训练效率:一台服务器顶一个机房
在训练环节,MobileGym同样展现出资源节约能力。此前有方案为凑齐512个安卓模拟器实例做在线强化学习,需动用10台裸金属服务器、960个vCPU、3840GB内存。而MobileGym团队使用GRPO算法微调Qwen3-VL-4B模型,一台服务器即可轻松开启96个环境实例,并行跑256个环境实例也仅需100G内存。训练后,模型在测试集上的成功率从9.4%提升到22.2%,实打实的提升。
真机验证:模拟训练的成果可靠迁移
团队将训练前后的模型搬到一台真实的红米手机上实测。结果显示,在真机信号任务上,成功率从32.2%提升到72.9%,提升40.7个百分点。这意味着95.1%的模拟训练增益成功迁移到了真机。模拟世界里练就的能力可以在真实手机上使用。
“在模拟世界里练的功夫,真机真能用。”——团队测试结论
误判率问题:程序化校验替代大模型裁判
评测过程中,团队发现让大模型看截图当裁判存在固有缺陷。此前人工复核118条真机轨迹时,Qwen3.6-Plus判错了12条,误判率达10.2%。换用更强的GPT-5.4重新判定,误判率仍为10.2%,只是判错的任务换了一批。团队指出,问题不在于模型不够强,而在于“让大模型看截图当裁判”这条路本身靠不住。MobileGym改用程序化状态校验,从源头杜绝了这类误判。
USE指标:捕捉Agent“顺手作恶”
MobileGym还引入了一个独有指标——USE(意外副作用)。该指标通过精确对比任务前后的全环境状态,能够发现Agent在执行任务过程中是否顺手点击了关注、修改了设置、发送了多余消息等任务之外的改动。实测发现,即便成功率相近的开源模型,“作恶”概率也可能相差近2倍。论文还专门测试了转账、注销、大批删除等高风险操作,发现前沿模型Gemini 3.1 Pro被指令驱动后几乎“无脑”高成功率执行,缺乏安全刹车。MobileGym的“零后果+一键重置”沙箱,为AI安全对齐研究提供了理想试验田。
定位:不只是另一个榜单,而是一套基础设施
MobileGym的野心并非制造另一个更大的手机Agent榜单,而是将日常App的训练与评测收进同一个可验证、可大规模并行的仿真世界。同一套状态既是评测的成绩单,也是强化学习的奖励;同一台机器既是考场,也是训练场。当行业还在为如何可靠地训练和评测手机Agent头疼时,这支国产团队已经铺好了地基。
