新闻速报微软称AI在WindowsPC上的表现仍有一定差距

近日，微软官方发布了WindowsAgentArena基准框架，旨在评估生成式AI（人工智能）在WindowsPC上的性能表现。该框架采用主流Windows应用如MicrosoftEdge和谷歌Chrome浏览器、VisualStudioCode等编程应用、记事本、时钟和画图等预装应用以及VLC等多媒体播放器来测试代理的能力和速度。

微软表示，他们构建了涵盖多样化任务的150多项测试项目，并具有可扩展性，在Azure上可以无缝并行化执行基准测试，以在最短时间内完成全面评估。此外，微软研究院也使用自己的多模态AI助手Navi进行了试验。

在特定文本提示下进行任务执行测试时，Navi的平均任务成功率仅为19.5%，而人类的评分则达到了74.5%。这一结果显示，目前AI在WindowsPC上的表现仍存在一定差距。