微软发布WindowsAgentArena基准框架

IT之家 2024-09-15 10:20:50

IT之家9月15日消息,科技媒体NeoWin昨日(9月14日)发布博文,报道称微软官方推出了WindowsAgentArena基准框架,用于评估生成式AIAgents在WindowsPC上的性能。

WindowsAgentArena基准框架

微软表示该基准框架AIAgents使用主流Windows应用方面的能力和速度,其中包括MicrosoftEdge和谷歌Chrome浏览器,VisualStudioCode等编程应用,记事本、时钟和画图等预装Windows应用,VLC等主流媒体播放器。

IT之家翻译部分微软官方博文内容如下:

我们采用OSWorld框架,构建了横跨代表性领域的150多项多样化Windows任务,这些任务要求代理具备规划、屏幕理解和工具使用的能力。

我们的基准测试同样具有可扩展性,能够在Azure上无缝并行化,从而在最短20分钟内完成全面评估。

Navi

微软研究院也打造了自己的多模态AgentsNavi,并在WindowsAgentArena基准测试中对其进行了试验。

它被要求根据特定文本提示执行任务,例如:“你能将我正在浏览的网页转换成PDF文件并放置在我的主屏幕上吗,就是那个桌面?”结果显示,Navi的平均任务成功率为19.5%,相较于人类74.5%的表现评分,这一成绩仍显偏低。

IT之家附上参考地址

0 阅读:76