首页 / 科技 / MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局

MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局

摸鱼不慌管理员 2026-06-29 02:02:46

MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局第1张

中科院团队近期发布MobileGym，一个完全运行在浏览器中的轻量级安卓仿真环境，旨在解决移动图形界面智能体在训练与评测中面临的“无考场、无训练场”的困境。该环境通过高交互保真度，模拟了28个App的运行时状态，并实现了完全可控的环境复位与并行化操作。

训练与评测的两难境地：模拟器与真机各有缺陷

当前，训练或评测能让AI像人一样操作手机的Mobile GUI Agent，通常需要依赖两种环境。

安卓模拟器：该环境虽然能够安装微信、支付宝等真实App，但App的风控系统对其“非常规环境”识别度极高，常导致闪退或封号。此外，模拟器资源占用大，单个实例内存消耗超过4.5GB，难以支持大规模并行训练。

真机环境：真机虽稳定且真实，但并行运算成本极为高昂，需要购置大量设备与真实账号。其核心矛盾在于，一个微信号无法克隆出多份内容、好友、余额一致的副本，使得需要从相同初始状态并行拉取轨迹进行对比的GRPO等强化学习算法变得无法实施。

“只要登的是真实账号，操作就是玩真的。真转账就是真扣钱，真购票就是真下单。更麻烦的是跑完之后想复位——哪怕只是改了个设置、点错个关注，想还原，也得靠人工、或让Agent反向操作一步一步抠回去。” — 来自研究素材

破局思路：聚焦“交互保真”，放弃底层复刻

研究团队提出一项核心思路：GUI Agent的感知方式仅依赖截图，而输出方式仅涉及点击操作。基于此，他们并未尝试复刻安卓内核或真实App服务端，而是专注于实现交互层面的“真实感”。

这意味着，只要在Agent点击后，界面能够给出正确的响应，并且状态发生符合预期的变化，对Agent而言，该环境便具备了足够的“真实性”。MobileGym正是围绕此“交互保真”概念构建的。

MobileGym：浏览器内的轻量级安卓运行时

MobileGym在浏览器中实现了完整的安卓运行时机制，包括任务栈、键盘、通知、权限流、intent路由及返回键派发等。该环境覆盖了28个App，具体名单如下：

日常App（12个）：微信、小红书、支付宝、B站、谷歌地图、12306、腾讯会议、微信读书、Spotify、Reddit、X、eBay。
系统App（16个）：系统工具及设置类应用。

可编程性与并行化优势

由于所有状态均在浏览器内管理，MobileGym实现了完全的可编程控制。研究团队可以随时读取、修改并复制环境状态，从而解决了真实环境中“状态不可逆、不可批量克隆”的死结。该环境支持大规模并行rollout，满足强化学习训练的基本前提。

此外，素材中指出，依赖大模型（VLM）对截图进行主观判定的传统评测方式，其误判率高达10.2%。MobileGym的仿真环境旨在提供一种更客观、可审计的替代方案。

MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局第2张

28款应用实现独立仿真覆盖主要APP类别

一个涵盖28个独立仿真应用的平台近日引起关注。据相关介绍，该平台中的每个App均采用独立仿真环境，且日常主要APP类别几乎全部覆盖。

独立仿真：每个应用在隔离环境中运行

所谓“独立仿真”，指的是每个应用程序在一个单独、互不干扰的模拟空间中运行，而非共享同一系统环境。这种设计旨在提升不同应用间的兼容性与测试准确性。

仿真到什么程度？直接上图感受一下——

目前该平台尚未公布具体支持的App列表及发布时间。业内人士指出，此类多应用独立仿真方案或为应用开发者提供更精准的测试场景，同时降低不同版本间的冲突风险。

MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局第3张

微信界面高还原度复现：聊天列表、对话与底部Tab细节解析

近期，一款高度还原微信核心界面的设计方案引发关注。该方案对微信的聊天列表、单个对话界面以及底部Tab栏三个核心模块进行了精准复刻，力求在视觉与交互逻辑上实现“一比一”还原。

三大核心模块的复刻重点

该还原工作主要聚焦于用户日常使用频率最高的三个界面区域，并对其关键元素进行了处理。

聊天列表

该模块复现了微信聊天列表的典型布局，包括用户头像、昵称、最后一条消息预览以及消息时间戳等基本构成要素。列表的排列顺序与间距控制遵循了原版应用的设计规范。

对话界面

在单个对话界面中，该方案还原了气泡式对话的显示方式，区分了用户自己发送的消息和对方发送的消息，并在对话输入区域提供了表情、语音和“+”号等核心功能入口的占位。

底部Tab栏

底部Tab栏是应用导航的核心。该方案复现了“微信”、“通讯录”、“发现”、“我”四个主要标签页，并为其设计了相应的选中与未选中状态图标。

“一比一还原”意味着在视觉上对齐了原界面布局的比例、色彩体系与控件样式。

还原意图与潜在用途

从结构上看，这种高精度的界面复刻通常被用于设计规范验证、竞品分析展示，或是作为高保真原型用于产品评审。该方案本身并未对微信的功能逻辑进行实际开发，仅限于UI层面的视觉还原。

业内人士指出，此类还原工作需严格注意区分“界面展示”与“实际功能开发”之间的界限，其价值主要体现在前期设计与沟通环节。

MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局第4张

小红书界面设计与用户操作逻辑分析

近期，小红书平台的双列瀑布流内容呈现方式、点赞交互功能以及底部导航栏设计，成为用户讨论的焦点。多位用户反馈，这一组合在操作体验上“刷起来毫无违和感”，表明其设计在视觉与动线协调性上获得了认可。

双列瀑布流：信息密度与浏览节奏的平衡

该平台采用双列瀑布流布局，即内容卡片以两列形式排列，图片和视频标题自动适应高度填充页面。相较于单列纵向滚动，双列设计能在同一屏内展示更多内容，增加信息密度。用户通过上滑即可连续加载新内容，无需频繁点击进入详情页，这种浏览节奏被部分用户评价为“流畅自然”。

点赞交互：轻量化反馈机制

点赞功能以心形图标形式存在于每篇笔记的底部。用户点击一次即完成点赞操作，无需进入评论区或额外跳转。设计上，该图标会在点赞后短暂放大并伴随颜色变化，提供即时视觉反馈。这一轻量化交互降低了用户参与的门槛，使得对内容的认可行为更加便捷。

底部导航栏：核心功能的固定入口

底部导航栏固定展示“首页”“发现”“消息”“我”等主要功能按键。用户无需返回顶部或寻找侧边菜单，仅通过单指点击即可在浏览、搜索、社交与个人中心之间切换。该导航栏始终悬浮于页面底部，确保了操作的一致性，减少了用户在深层次浏览中的迷失感。

有业内人士指出，双列瀑布流与底部导航的组合设计，本质上是将内容浏览与功能跳转拆分为独立的操作区域，从而降低认知负荷，使用户能更专注于内容本身。

MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局第5张

腾讯会议仿真浏览器实现联网可运行云游戏

腾讯会议在覆盖加入、预定会议及会议列表等办公功能的同时，其内置的仿真浏览器被用户证实具备真实网络连接能力。据B站评论区网友分享，通过该浏览器挂载云原神，已成功在会议场景中启动并运行游戏。

仿真环境具备完整网络交互

该现象表明，仿真浏览器并非仅用于界面模拟，而是能够访问外部服务器并加载在线应用。这意味着在办公场景下，该组件可额外用于联网内容展示或轻量级应用调用。

MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局第6张

B站网友展示模拟器嵌套玩法：从“原神启动”到“俄罗斯套娃”

近日，B站网友通过模拟器实现的“套娃式”操作引发关注。相关截图显示，用户在仿真浏览器内启动游戏“原神”，随后又在MobileGym环境中打开了mobilegym.dev网址，形成了模拟器内部嵌套另一模拟器的视觉效果。

“套娃”操作细节

据网友实测画面，操作路径从仿真环境中的“原神”启动开始，随后切换至MobileGym工具界面，并直接访问了MobileGym自身的官方域名。这一行为导致界面层级叠加，手机界面内再次出现手机界面，被部分用户形容为“俄罗斯套娃”式嵌套。

“MobileGym里套了个MobileGym，手机里开手机，一层接一层。”

MobileGym是什么

MobileGym是素材中提及的一个移动端仿真环境工具，通常用于模拟手机运行状态或测试应用兼容性。该工具本身可作为模拟器运行，因此当在其界面内再次调用相同工具时，便形成了递归嵌套的视觉效果。

行业背景：嵌套操作的典型性与局限性

此类多层模拟操作并非首次出现。在编程测试或系统调试场景中，虚拟环境内重复调用同一进程的做法被称为“嵌套”。业内人士指出，该操作更多展示技术趣味性，在实际应用场景中可能因资源占用或性能瓶颈而难以长期稳定运行。

“原神”是素材中提及的游戏名称，玩家可在仿真环境中启动该应用。
嵌套过程涉及手动输入网址操作，并非自动触发。
该现象对普通用户而言体验有限，更多被视为技术演示或娱乐内容。

MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局第7张

MobileGym发布手机Agent训练评测环境单实例仅需400MB内存支持毫秒级快照测试9个模型最高分58.8分

日前，一项名为MobileGym的移动端Agent环境首次公开其技术细节。该环境通过一份结构化JSON表示手机设备完整状态，实现环境状态可读、可写、可复制，并在此基础上构建了评测与训练一体化的“考练”系统。配套发布的MobileGym-Bench包含416个参数化任务模板，覆盖28个App，9个主流Agent模型在该评测中表现不佳，最高得分仅为58.8分。

9个Agent模型同台竞技最高分不到六成

MobileGym-Bench被描述为“史上最严手机Agent考场”。其测试集包含256个任务模板，训练集另含160个模板。每个模板通过参数化实例化，可衍生出超过27000个不同实例，以此防止模型“背答案”。任务按难度分为L1至L4四个等级，等级划分基于8个参考模型的实际测试结果校准。

评测判分方式也作了调整。传统方法依赖字符串模糊匹配，容易误判；MobileGym要求Agent在界面上填写一张结构化“答题卡”，系统按字段类型（精确文本、数值、格式、选项）逐项核对，堵住了漏洞。这一设计也使GUI专用模型更易完成答题——答题卡的“填表单”形式恰好契合其能力特点。

9个知名Agent模型在MobileGym-Bench上的表现：最强模型仅取得58.8分，其余模型分数更低。

结构化JSON状态：可读、可写、可复制

MobileGym把环境的状态——App数据、系统设置、设备信息——全部表示为一份结构化JSON。这一设计解决了三个关键难题：

可读：程序直接读取状态做确定性校验，余额、订单、设置项一览无余，无需依赖VLM截图猜测。
可写：任意配置、一键重置到指定初始状态。
可复制：毫秒级快照，从同一状态复制出多条轨迹，一套状态拷贝即可支持GRPO训练。

环境状态还支持“零后果”重置：跑完一条轨迹后，直接用初始快照覆盖当前状态，毫秒级恢复，无需反向操作逐步复原。

同一套信号既当评测又当训练奖励

由于环境状态可被程序精确判定，这份判定同时拥有双重身份：对评测而言是确定的成绩单；对训练而言是现成的奖励信号。同一套可验证信号，既是评测成绩单，又是训练奖励。此前AndroidWorld、MobileWorld等环境也具备这套“考练一体”能力，但只能覆盖系统工具和简单开源App，无法触及微信、支付宝这类高频日常App。MobileGym通过“仿真+结构化状态”，将可验证的考练一体延伸到了日常App上。

程序化判定节省裁判成本单机可并行数百环境

因为整个环境就是一份结构化JSON，复制状态即克隆完整环境。单个实例仅占用约400MB内存，冷启动约3秒，一台服务器可同时开几百个并行环境。训练需要的海量rollout、评测需要的批量跑分，无需额外堆叠服务器。每条轨迹的判定由程序读状态完成，毫秒级出结果，无需调用大模型当裁判。

论文进行了一笔成本对比：若改用VLM当裁判，一次256题评测，使用GPT-5.4（此处为原始素材表述）约需158元；在96万条轨迹量级的强化学习训练中，裁判API成本可能达到约60万元。而MobileGym的程序化判定这部分成本为0。

MobileGym发布：浏览器内构建轻量级安卓仿真环境，破解手机Agent训练评测困局第8张

MobileGym实现手机Agent训练向真机迁移，模拟增益迁移率达95.1%

一款名为MobileGym的手机Agent训练与评测平台近日引发关注。该平台通过浏览器仿真的“轻量级”设计，实现了256个并行实例在6分钟内完成全套评测，同时将训练资源压缩至一台服务器即可支撑96个环境实例。测试数据显示，模型在模拟测试集上的成功率从9.4%提升至22.2%，提升12.8个百分点；在真机实测中，信号任务成功率从32.2%跃升至72.9%，模拟训练增益的95.1%成功迁移到真实设备上。

评测性能：256个任务并行，6分钟出结果

MobileGym用一套高区分度的考试题评测手机Agent能力。在难度最高的L4任务上，9个模型集体失败，仅Gemini取得21.9%的成功率。团队表示，这一结果说明考题既未被刷爆，也未难到全军覆没，能够有效反映Agent的真实水平。得益于浏览器仿真的轻量化设计，256个并行实例运行完整评测仅需6分钟，大幅降低了时间成本。

训练效率：一台服务器顶一个机房

在训练环节，MobileGym同样展现出资源节约能力。此前有方案为凑齐512个安卓模拟器实例做在线强化学习，需动用10台裸金属服务器、960个vCPU、3840GB内存。而MobileGym团队使用GRPO算法微调Qwen3-VL-4B模型，一台服务器即可轻松开启96个环境实例，并行跑256个环境实例也仅需100G内存。训练后，模型在测试集上的成功率从9.4%提升到22.2%，实打实的提升。

真机验证：模拟训练的成果可靠迁移

团队将训练前后的模型搬到一台真实的红米手机上实测。结果显示，在真机信号任务上，成功率从32.2%提升到72.9%，提升40.7个百分点。这意味着95.1%的模拟训练增益成功迁移到了真机。模拟世界里练就的能力可以在真实手机上使用。

“在模拟世界里练的功夫，真机真能用。”——团队测试结论

误判率问题：程序化校验替代大模型裁判

评测过程中，团队发现让大模型看截图当裁判存在固有缺陷。此前人工复核118条真机轨迹时，Qwen3.6-Plus判错了12条，误判率达10.2%。换用更强的GPT-5.4重新判定，误判率仍为10.2%，只是判错的任务换了一批。团队指出，问题不在于模型不够强，而在于“让大模型看截图当裁判”这条路本身靠不住。MobileGym改用程序化状态校验，从源头杜绝了这类误判。

USE指标：捕捉Agent“顺手作恶”

MobileGym还引入了一个独有指标——USE（意外副作用）。该指标通过精确对比任务前后的全环境状态，能够发现Agent在执行任务过程中是否顺手点击了关注、修改了设置、发送了多余消息等任务之外的改动。实测发现，即便成功率相近的开源模型，“作恶”概率也可能相差近2倍。论文还专门测试了转账、注销、大批删除等高风险操作，发现前沿模型Gemini 3.1 Pro被指令驱动后几乎“无脑”高成功率执行，缺乏安全刹车。MobileGym的“零后果+一键重置”沙箱，为AI安全对齐研究提供了理想试验田。

定位：不只是另一个榜单，而是一套基础设施

MobileGym的野心并非制造另一个更大的手机Agent榜单，而是将日常App的训练与评测收进同一个可验证、可大规模并行的仿真世界。同一套状态既是评测的成绩单，也是强化学习的奖励；同一台机器既是考场，也是训练场。当行业还在为如何可靠地训练和评测手机Agent头疼时，这支国产团队已经铺好了地基。

本文由摸鱼不慌发布，转载请注明出处。
文章链接：https://www.moyubuhuang.com/keji/202606/37319.html