本文的主要作者来自南洋理工大学 S-Lab、腾讯公司和清华大学智能视觉实验室。本文的共同第一作者为南洋理工大学博士生董宇
通用语言模型率先起跑,但通用视觉模型似乎迟到了一步。究其原因,语言中蕴含大量序列信息,能做更深入的推理;而视觉模型的输入
病理是疾病诊断的「金标准」,而我国面临病理诊断人才严重匮乏窘境。近年来癌症发病率不断攀升,如何借助 AI 赋能医生精准诊
安全话题,在人工智能(AI)行业一向备受关注。尤其是诸如 GPT-4 这样的大语言模型(LLM)出现后,有不少业内专家呼
前段时间,由中国人工智能产业发展联盟(AIIA)指导、北京中关村科金技术有限公司主办的【2024 大模型技术与应用创新论
人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期,李飞飞教授团队通过单张图片生成三维物理世界的研究,
国产大模型,正在引领 AI 技术新方向。今天上午,月之暗面 Kimi 正式发布了视觉思考模型 k1,并已经上线了最新版的
最近几天,来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patche
什么是 AI 发展的第一驱动力?最近,全球科技大厂都在用行动告诉我们:人才。本月初,谷歌 NotebookLM 的核心团
最近一段时间,业内对小模型的研究热情空前地高涨,通过一些「实用技巧」让它们在性能上超越更大规模的模型。可以说,将目光放到
论文一作为之江实验室研究专家、香港中文大学在职博士李蓝青,指导老师为香港中文大学计算机科学与工程系王平安 (Pheng
本文介绍对 LLM 提示词注入攻击(prompt injection)的通用防御框架。首篇论文已被安全顶会 USENIX
今天是个好日子,至少谷歌这么想。几个小时前,该公司一键三连,一口气发布了两款视觉生成模型和一个工具:Veo 2:视频生成
前段时间,亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。会上,亚马逊云科技发布了相当多东西,其中
明年的国际消费类电子产品展览会(CES 2025)将在北京时间 1 月 8 日至 11 日举行,包括英特尔、英伟达和 A
本文由马里兰大学,微软研究院联合完成。作者包括马里兰大学博士生陈玖海,主要研究方向为语言模型,多模态模型。通讯作者为 B
人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿
很多研究已表明,像 ChatGPT 这样的大型语言模型(LLM)容易受到越狱攻击。很多教程告诉我们,一些特殊的 Prom
本文的作者为湖南师范大学的江沸菠副教授,彭于波博士,湖南工商大学的董莉副教授,英国布鲁内尔伦敦大学的王可之教授,南京大学
论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。实验室
签名:岁月如歌醉