TechBeat社区年度大事件:2024红人榜,见证AI华人新星的力量!

TechBeat社区年度大事件:2024红人榜,见证AI华人新星的力量!

首页休闲益智矢量跑酷2中文完整版更新时间:2024-06-12

随着人工智能技术的不断突破和创新,TechBeat社区再次迎来了一年一度的盛事——TechBeat红人榜的发布。????

在过去的一年里,我们见证了人工智能领域的飞速发展,无数华人AI精英在这个平台上分享了他们的智慧和成果,共同推动了全球AI技术的进步。

今年,我们继续通过观看量、互动量、新媒体传播度等多个维度,对过去一年中在社区分享工作的超百位讲者进行了综合排名,评选出了20位「年度最受欢迎讲者」他们不仅在AI领域取得了令人瞩目的成就,更以其深入浅出的讲解和互动,激发了社区成员的学习热情和创新灵感。这些讲者的工作涵盖了从计算机视觉、自然语言处理到机器人技术等多个前沿领域,他们的分享不仅传递了知识,更引领了趋势。

同时,我们也荣誉地揭晓「年度热门技术工作」榜单,表彰那些在过去一年中引起广泛关注和讨论的技术工作。这些工作不仅在学术界产生了深远影响,也在实际应用中展现了巨大的潜力和价值。从突破性的算法创新到具有社会意义的技术应用,这些成果标志着AI技术在解决现实问题中的重要角色。

2024红人榜 · 年度最受欢迎讲者

往下滑动查看入选讲者相关介绍

徐梦迪

卡耐基梅隆大学博士生

卡耐基梅隆大学机械工程博士生,导师为Prof. Ding Zhao。本科期间获得清华大学车辆工程和管理学双学位。研究生期间获得卡耐基梅隆大学机器学习硕士,约翰霍普金斯大学机器人硕士。曾作为实习生加入Google DeepMind, MIT-IBM Watson AI Lab, 和 Toyota Research Institute。曾入选RSS Pioneers 2023, EECS Rising Stars 2023 和 Computational & Data Science Rising Stars 2023。研究致力于可泛化的机器人学习,旨在通过算法设计,模型设计和理论研究实现可高效且鲁棒地解决新任务的通用智能机器人。研究成果曾经在ICML, NeurIPS, ICLR, AISTATS, CoRL, IROS, ACL等机器学习和机器人会议发表,曾入选CoRL 2023 Oral展示。

往期分享:

● 可泛化机器人学习:如何让机器人创造性地使用工具

秦颖思

卡耐基梅隆大学博士生

现为卡耐基梅隆大学电子计算机工程博士生,导师是Aswin C Sakaranarayanan和Matthew P. O'Toole。本科期间,获得美国哥伦比亚大学计算机科学和科尔盖特物理学双学位,作为实习生加入Snap Research、Google Search、以及高校内多个光学与计算机视觉实验室。研究成果获得SIGGRAPH Best Paper Award、ICCP Best Demo Award、Tan Endowed Graduate Fellowship等奖项,曾在Journal of Optics、ACM Transactions on Graphics等期刊和会议发表。博士研究致力于设计和构建下一代三维光学计算显示技术,为虚拟和混合现实开创新纪元。研究领域结合了光学建模、信号处理、计算机视觉,计算成像以及机器学习。

往期分享:

● 分罗曼三维显示器:各点独立变焦显示技术

陈焕然

北京理工大学本科生

北京理工大学三年级本科生在读,主要研究方向为diffusion model, adversarial robustness。在CVPR, ICLR,IJCAI等国际会议上发表论文5篇。提出的CWA攻击可攻破GPT-4,Bard等商用大模型。同时提出了diffusion classifier,即使用一个现成的diffusion model进行鲁棒分类。

往期分享:

● 扩散模型即为鲁棒分类器

马旭

东北大学计算机博士

美国东北大学工程学院在读博士, 导师为 Yun Raymond Fu 教授,研究兴趣主要在计算机视觉和机器学习领域,具体包括高效的视觉网络模型,3D点云,还有图像矢量化相关等。他在Microsoft,Meta,Adobe,Bell Labs, eBay 等科技公司做科研实习,曾获得ICME'20 Best Student Paper Award, SEC'19 Best Paper Award, 和东北大学2022年学术技术学者奖。

往期分享:

● 图像亦是点集(Image as Set of Points)

赵子祥

西安交通大学博士生

西安交通大学数学与统计学院博士四年级在读,师从张讲社教授。现为苏黎世联邦理工学院信息技术与电气工程系Computer Vision Lab联合培养博士生,导师为Luc Van Gool教授。曾任哈佛大学计算机科学系Visual Computing Group研究助理,导师为Hanspeter Pfister教授。研究方向为底层视觉,图像增强,多模态信息融合。目前在CVPR、ICCV等国际顶级计算机视觉会议与IEEE汇刊等国际期刊上共计发表学术论文十余篇,并担任CVPR、ICCV、NeurIPS等国际会议程序委员,以及IEEE TPAMI、IJCV、TIP等国际期刊审稿人。

往期分享:

● 基于先验知识指导的多模态图像融合算法研究

迮炎杰

上海交通大学本科生

上海交通大学计算机系本科生,今年将攻读斯坦福大学计算机博士。师从UCSD的王小龙教授和清华大学交叉信息研究院的许华哲教授。主要研究机器人学,强化学习,计算机视觉,特别关注从三维、二维、交互数据中学习适用于机器人操作的视觉表征。曾获商汤奖学金,上海交大优秀毕业生等荣誉。在NeurIPS, ICML, CVPR, CoRL, IROS等人工智能和机器人顶级会议累计发表论文8篇,其中一作/共一论文6篇。其中,GNFactor被2023年CoRL接收为Oral论文。曾担任NeurIPS, ICLR, ICRA, CVPR等顶级会议的审稿人。

往期分享:

● 通用机器人操作的视觉表征

庄子文

上海期智研究院

实习研究员

2020年毕业于上海科技大学计算机科学与技术专业。他本科期间联合创建了RoboMaster Magician战队,参加了伯克利暑期交流项目和卡耐基梅隆机器人研究院暑期科研实习,并持续保持与美国同学的合作。毕业以后,加入上海期智研究院赵行老师的科研团队,在机器人顶会上发表了多篇强化学习相关论文。目前成功将强化学习算法应用在真机上,并且将持续致力于提高各种机器人的运动性能。

往期分享:

● 用深度化学习让机器狗学会跑酷

甘雨露

北京大学硕士研究生

北京大学硕士研究生,研究兴趣是计算机视觉、具身智能和神经科学。曾访问MIT的脑科学与神经科学学院,在UC Berkeley的电子与计算机系、Microsoft Reasearch Asia实习;曾获蒋震奖学金、省级十佳大学生和国家奖学金(三次)等荣誉。以第一作者或共同第一作者身份在CVPR、ICLR和AAAI等顶会上发表了5篇论文。其中,关于视觉域提示的研究VDP获得了AAAI2023唯一最佳学生论文奖。此外,关于视觉通用模型的研究InstructCV在Huggingface的二月首周热度榜排名前10。还曾担任NeurIPS、ICLR、CVPR等顶会的审稿人。

往期分享:

● 基于视觉提示的连续环境变化下模型自适应方法

黄文龙

斯坦福大学博士研究生

现为斯坦福大学博士研究生,导师为Professor Fei-Fei Li。他于2021年本科毕业于加州大学伯克利分校,导师为Professor Deepak Pathak、Dr. Igor Mordatch以及Professor Pieter Abbeel。他也曾师从Professor Zhuowen Tu。本科毕业后,他以实习生身份加入了谷歌大脑的机器人团队。他的研究方向是机器人学和机器学习领域的交叉,皆在赋予机器人在开放世界操控任务中广泛的泛化能力。他曾获得ICRA Outstanding Robot Learning Paper Award以及Stanford School of Engineering Graduate Fellowship。他最近的研究成果集中在大模型与机器人方向,包括VoxPoser、PaLM-E、Code as Policies、Inner Monologue、Grounded Decoding以及Language Models as Zero-Shot Planners。

往期分享:

● 利用模型推动机器人在开放世界中的泛化

耿浩然

北京大学图灵班

大四本科生

北京大学图灵班2020级本科生。曾获北京大学年度人物、国家奖学金、五四奖学金、商汤奖学金(最年轻的获奖者)、金龙鱼奖学金、唐仲英奖学金、海外交流奖学金等。曾获得Berkeley Fellowship Award、Stanford Graduate Fellowship Award、北京大学三好学生(连续三年)、北京大学学术创新奖、北京大学前沿计算研究中心年度优秀学生,入选斯坦福大学UGVR访问学者项目。其目前的研究兴趣集中在机器人和三维视觉领域,特别关注在可泛化的物体感知、理解以及机器人操控方面的研究。目前共在CVPR、ICCV、ICRA等国际顶级会议和期刊发表10篇论文,另有多篇论文在投,获得学术界广泛好评。其代表作中,UniDexGrasp 在ICCV2023中获得了满分评审并获得最佳论文奖入围奖(Best Paper Award Finalist);GAPartNet在CVPR2023中获得满分评审并被评为亮点论文。同时耿浩然多次受邀在CVPR、ICCV、NeurIPS、RSS、ICRA等顶级会议和研讨会上担任审稿人。

往期分享:

● 基于视觉的通用巧手抓取

孙庆赟

北京航空航天大学

计算机学院助理教授

博士,北京航空航天大学计算机学院助理教授。主要研究方向为人工智能、图学习,已在TPAMI、TKDE、NeurIPS、WWW、AAAI等国际期刊和会议发表多篇学术论文,获国际服务质量顶级会议IWQoS 2022唯一最佳论文奖、国际数据挖掘顶级会议CIKM 2022最佳论文提名奖、ICDM 2021最佳论文候选,工作入选WWW最具影响力论文、WWW 2023热点论文;主持国家自然基金青年基金、CAAI-华为mindspore学术基金等;担任国际著名期刊TKDE、TNNLS、TWEB、TMM、NN、PR、JMLC、JCST和国际顶级会议NeurIPS、ICLR、AAAI、WWW、KDD、ICDM、DASFFA审稿人。

往期分享:

● 图学习里的拓扑不均衡问题初探

许逸伦

麻省理工学院博士生

麻省理工学院(MIT)电子与计算机科学(EECS)系四年级在读博士生,师从TommiJaakkola教授。他本科就读于北京大学的图灵班。许逸伦的研究方向为机器学习,目前主要关注更高效、更可控的生成模型。他在国际人工智能顶级会议(如ICML、NeurIPS和ICLR等)上发表了十余篇文章,并多次获得口头报告的机会。

往期分享:

● 解锁由物理启发的深度生成模型:从扩散模型到泊松流模型

刘星超

德州大学奥斯汀分校

在读博士生

德州大学奥斯汀分校博士,导师是刘强教授。他本科毕业于北京航空航天大学自动化专业。他的研究兴趣是生成式模型的底层原理及对生成式模型框架的改进。他在ICML,NeurIPS,ICLR等机器学习顶级会议上发表十余篇文章,并多次受邀担任JMLR等顶级期刊审稿人。

往期分享:

● 扩散生成模型新方法:极度简化,一步生成

陈玉康

香港中文大学

在读博士生

陈玉康是香港中文大学的博士研究生。他的研究重点是高效深度学习、大型语言模型和计算机视觉。他已在顶级会议和期刊上发表20多篇论文,其中10篇为第一作者。Google Scholar 引用量 2000 ,Github 第一作者项目 5000 Stars,他的工作已多次被选为ICLR和CVPR等著名会议的口头报告。曾在多个著名竞赛和排行榜中取得了显著成绩,多次获得冠军或排名第一,如 Microsoft COCO,nuScenes、ScanNet等。

往期分享:

VoxelNeXt实现全稀疏3D检测跟踪,结合SAM加速3D标注

王泽坤

北京航空航天大学硕士研究生

北京航空航天大学一年级在读硕士生,师从许可教授。研究方向为自然语言处理与多模态。主要研究兴趣为多模态基础模型、思维链 (Chain of Thought) 、检索增强以及 Alignment 等。同时也在探索大型语言模型作为 agent 的技术链,比如工具使用、社会模拟、具身智能等。他曾在澜舟科技、北京智源人工智能研究院等进行科研实习。

往期分享:

● 在LLM之上还能创造哪些价值?百页综述梳理后ChatGPT技术链

杨灵

北京大学博士生

北京大学博士在读三年级,研究兴趣是生成式AI、扩散模型、AI for Science,一作发表10多篇ICML/NeurIPS/ICLR/CVPR等顶会顶刊论文,目前担任TPAMI,ICML,NeurIPS,ICLR,KDD,AAAI等人工智能顶刊顶会审稿人。

往期分享:

● 扩散模型的算法创新与领域应用

许华哲

清华大学交叉信息研究院

助理教授

许华哲博士现为清华大学交叉信息研究院助理教授,博导,清华大学具身智能实验室(TEA Lab)负责人。博士后就读于斯坦福大学,博士毕业于加州大学伯克利分校。其研究领域是具身人工智能(Embodied AI)的理论、算法与应用,具体研究方向包括深度强化学习、机器人学、基于感知的控制(Sensorimotor)等。其科研围绕具身人工智能的关键环节,系统性地研究了视觉深度强化学习在决策中的理论、模仿学习中的算法设计和高维视觉预测中的模型和应用,对解决具身人工智能领域中数据效率低和泛化能力弱等核心问题做出多项贡献。许华哲曾获顶级智能机器人会议CoRL'23最佳系统论文,并曾在IJRR, RSS, NeurIPS等发表顶级期刊/会议论文五十余篇,代表性工作曾被MIT Tech Review,Stanford HAI等媒体报道。曾在IJCAI2023、IJCAI2024、ICRA2024担任领域主席/副主编。

往期分享:

● 具身控制中的泛化能力

薛子慧

德州大学奥斯汀分校

在读博士生

德州大学奥斯汀分校在读博士,师从Kristen Grauman教授,目前是FAIR, Meta AI的访问研究员,曾担任清华大学交叉研究院多模态学习实验室(MARS Lab)的助理研究员,研究方向为多模态学习和以自我为中心的视频学习(egocentric video learning),相关研究成果发表在ICCV, CVPR, ICLR等领域顶级会议上。

往期分享:

● 模态聚焦假说-理解跨模态知识蒸馏

刘明华

加州大学圣地亚哥分校博士生

加州大学圣地亚哥分校五年级博士生,导师为苏昊副教授。在此之前,他在清华大学计算机系取得本科学位。他的研究兴趣主要围绕于三维视觉和具身智能。他曾在CVPR、ECCV、SIGGRAPH、NeurIPS、CoRL等国际顶级会议和期刊发表17篇论文,其中一作、共一论文10篇。他曾在Adobe、Waymo、高通、商汤实习,曾荣获Powell奖学金和高通QIF奖学金。他曾多次担任CVPR、ECCV、ICCV、SIGGRAPH、NeurIPS、ICLR、ICML、T-RO、TPAMI等国际会议、期刊的审稿人。

往期分享:

● 在开放的世界中理解和生成3D物体

黄思远

北京通用人工智能研究院

研究科学家

现为北京通用人工智能研究院研究科学家、通用视觉实验室负责人。博士毕业于美国加州大学洛杉矶分校(UCLA)统计系。研究领域包括计算机视觉、机器学习、认知和机器人学,主要侧重于三维场景理解与具身视觉。研究旨在开发模型以帮助机器学习三维表征,感知三维世界,并基于图像或视频与三维环境交互;远期致力于建造具备类人思考和行为能力的通用智能体。部分研究亦涵盖物理和社交场景理解、神经符号人工智能系统。发表顶级会议论文三十余篇。组织过多个CVPR三维场景理解研讨会,曾获UCLA优秀毕业论文,ICML神经符号研讨会最佳论文。

往期分享:

● 让通用智能体理解三维世界

2024红人榜 · 年度热门技术工作

1. DPF: Learning Dense Prediction Fields with Weak Supervision

关键词语义分割,点监督

为利用点监督的自身特性,本文提出了一种基于坐标点查询的密集预测网络,它可以预测图像空间中每个连续二维坐标点的对应值,该方法被命名为密集预测场(Dense Prediction Field, DPF)。受最近成功的隐式表示的启发,本文使用隐式神经函数来实现 DPF。DPF 为连续的二维空间位置生成可解析的视觉特征,从而允许输出任意分辨率的预测结果。

文章详情:

CVPR 2023 | 语义分割新范式:点监督遇上隐式场

2. InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning

关键词:大批量训练,数据压缩,模型加速

本文介绍来自NUS尤洋团队的最新科研成果 - InfoBatch。这是首篇关于无损数据剪枝加速的工作,覆盖分类、分割、检测、图片生成、LLM指令微调等任务。作为一个即插即用且与架构无关的框架,在实际应用中,InfoBatch 可以无损地节省 40% 的总开销(时间和计算)。

文章详情:

ICLR 2024 Oral | 三行代码,即插即用!NUS尤洋团队新作—InfoBatch,无损数据集动态剪枝加速

3. Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf

关键词:大模型,博弈游戏,多智能体,涌现策略行为

随着ChatGPT走红,研究人员发现类似GPT-3.5的大模型(Large Language Model, LLM)能够成为人类行为的可信代理(Believable Proxies of Human Behavior)。此后,越来越多的人尝试用LLM代替以往只有人类才能做的事情。例如,有人尝试用LLM建立一个AI社交平台,但其中的每个“用户”都是由LLM驱动的AI智能体(Agent)。还有人尝试用LLM玩“我的世界”游戏,其能力效果逐步迭代和进化。

聊天游戏是广泛存在于我们生活中的又一新场景。多位玩家通过自然语言相互交流并达成自己的游戏目标。狼人*就是其中非常具有代表性的一个,玩家之间信息不完全暴露并同时存在竞争与合作。清华大学的一篇论文尝试使用大模型玩狼人*。作者指出,狼人*的这种特性使它非常适合用来考验LLM的能力。作者实现了多重机制解决LLM玩狼人*的固有弱点。并且,在多个LLM自动玩狼人*的过程中,作者发现了LLM新的涌现策略行为:信任、对抗、伪装和领导。

文章详情:

清华大学团队让7个大模型玩起狼人*并发现新的涌现策略行为

4. BloombergGPT: A Large Language Model for Finance

关键词:ChatGPT,大模型,Transformer

毫无疑问,ChatGPT和GPT-4的一炮走红对各行各业都带来了巨大的变革影响,目前以ChatGPT为代表的生成式人工智能大模型(LLMs) 正向各个专业领域进发。金融巨头彭博Bloomberg正式发布了金融领域第一个大语言模型BloombergGPT,彭博研究人员以一篇长达65页的技术报告为行业展示了人工智能大模型在金融专业领域的无穷潜力。BloombergGPT是一个拥有500亿参数的LLM,其在海量的金融数据语料库上进行了训练。BloombergGPT可以轻松实现金融新闻标题生成,可以帮助金融记者快速对新闻报道进行总结和摘要。

文章详情:

金融GPT模型登场,彭博BloombergGPT为专业垂直领域大模型提供新范式

5.CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society

关键词:AI Agent,大模型,代理模型

AI Agents是当下大模型领域备受关注的话题,用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中,Agents之间会进行竞争和协作等多种形式的动态交互,进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架(“骆驼”)。作为最早基于ChatGPT的autonomous agents知名项目,CAMEL重点探索了一种称为角色扮演(role-playing)的新型合作代理框架,该框架可以有效缓解智能体对话过程中出现的错误现象,从而有效引导智能体完成各种复杂的任务,人类用户只需要输入一个初步的想法就可以启动整个过程。

文章详情:

NeurIPS 2023|AI Agents先行者CAMEL:第一个基于大模型的多智能体框架

6.LLMZip: Lossless Text Compression using Large Language Models

关键词:大模型,LLaMA,通信压缩

本文介绍一篇来自得克萨斯A&M大学的工作,在本文中,作者瞄准的领域是传统的文本压缩算法。作者巧妙地发挥了现有大模型的文本预测能力,例如使用LLaMA-7B对输入的前几个token预测其下一个位置的文本,并且对大模型预测英语熵(entropy of English)的渐近上限进行了全新的估计,估计结果表明,在大模型加持下,该估计值明显低于目前常用方法的估计值。基于这一发现,作者提出来一种基于大模型的英语文本无损压缩算法LLMZip,LLMZip巧妙的将大型语言模型的文本预测能力与无损压缩方案相结合,实现了高效的文本压缩性能,经过一系列的实验表明,LLMZip已经超过了目前最为先进的文本压缩算法,例如BSC、ZPAQ和paq8h。

文章详情:

大模型入局传统算法,LLMZip基于LLaMA-7B实现1MB文本压缩率90%!

7. Data-centric Artificial Intelligence: A Survey

关键词:Data-centric,ChatGPT,语言模型

在本文中,作者将从数据为中心的人工智能视角去分析一系列GPT模型(之后会用Data-centric AI以避免啰嗦)。Data-centric AI大体上可以分文三个目标:训练数据开发(training data development)、推理数据开发(inference data development)和数据维护(data maintenance)。本文将讨论GPT模型是如何实现(或者可能即将实现)这三个目标的。

文章详情:

GPT模型成功的背后用到了哪些以数据为中心的人工智能(Data-centric AI)技术?

8.SpectFormer: Frequency and Attention is what you need in a Vision Transformer

关键词:Vision Transformer,频域学习,谱方法

本文对传统Transformer的核心架构进行了分析,并且分别探索了频域和多头自注意力层的作用效果。之前的Transformer网络要么只使用全注意力层,要么只使用频域层,在图像特征提取方面存在各自的局限性。本文提出了一种新型的混合Transformer架构,即将这两个方面结合起来,提出了Spectformer模型。Spectformer显示出比先前模型更加稳定的性能。除了在传统的视觉任务上可以获得SOTA性能之外(在ImageNet-1K数据集上实现了85.7%的Top-1识别准确率),作者还认为,将Spectformer应用到一些频域信息更加丰富的领域上(例如遥感和医学图像数据),可能会激发出混合频域层和注意力层更大的潜力。

文章详情:

Transformer仅有自注意力还不够?微软联合巴斯大学提出频域混合注意力SpectFormer

9. ViT-Lens: Towards Omni-modal Representations

关键词:多模态感知,预训练,Vision Transformer

多模态感知一直是通用人工智能发展的关键领域。理想中的智能体能像人类一样感知多种模态信息,如视觉、听觉、嗅觉、触觉等,并与用户进行自然交互。然而,现有的大型模型虽然在图像和文字上表现出色,但对其他模态(如3D点云、触觉数据等)的泛化能力有限。

在本文中,NUS和腾讯的研究人员合作推出ViT-Lens,借助预训练的ViT提取各种模态表征,支持3D点云、深度、音频、触觉和EEG脑电,在各种表征任务中取得了SOTA结果。通过模态对齐和共享ViT参数实现了新兴下游功能,以零样本方式实现了任何模态生成文本和图像的能力。目前该工作已被CVPR 2024接收。

文章详情:

腾讯&NUS推出下一代多模态智能,支持2/3D视觉、听觉、触觉、脑电

10. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

关键词:多智能体,SOP,元编程,大语言模型

LLM Agent领域第一高分论文,全网Star数最高的多智能体框架。MetaGPT - 结合元编程思想,嵌入SOPs来增强大规模语言模型(LLMs)在多智能体协作上的能力。通过角色专业化,工作流管理和灵活的消息机制,使其成为通用性和可移植性高的多智能体框架。结合迭代式的反馈机制,MetaGPT在多个基准测试上取得了最先进的性能。结合人类社会实践的SOPs,启发了未来对于多智能体社会的研究和探索,也可视为对基于LLM的多智能体框架进行调节的早期尝试。

文章详情:

ICLR 2024 Oral | GitHub狂揽30k星,MetaGPT:嵌入SOPs显著增强多智能体协作能力

11. PaLM 2 Technical Report

关键词:大模型,Transformer,多语言

作为谷歌的下一代大型语言模型,PaLM 2的发布备受关注,本文从PaLM 2的几个创新方面进行了简单的总结,PaLM 2相比前代模型在高级推理任务上面有了显著的进步,尤其是在代码生成、数学推理以及多语言能力方面。此外谷歌也对大模型训练缩放方面进行了研究,证明了通过对模型数据集配置和架构选择等方面进行改进,完全可以在一定的参数规模内提升大模型的性能。

文章详情:

PaLM 2重磅来袭,深挖谷歌92页技术报告亮点总结

12.Unicom: Universal and Compact Representaton Learning for Image Retrieval

关键词:预训练,图像检索,多模态聚类

现有的图像检索方法极度需要预训练好的特征提取器来提取图像级别的描述。但是大部分模型都是在ImageNet-1K这样有限类别的数据集上预训练得到的,这样的特征表达泛化能力不足以扩展到开放类别。为了解决这个问题,作者利用CLIP的文本和图像特征对大规模数据集LAION 400M进行聚类产生100万伪类别,但这样产生的类别在类间会产生严重的冲突。为了解决这些类间冲突,研究者随机选取部分类间中心来构建带间隔的softmax损失函数。同时,为了提升低维特征的表达能力,作者团队随机选取了部分特征维度来计算特征和中心之间的相似度。两种部分选取的方法使得分类器训练时对类间冲突更鲁棒,特征表达更紧凑。此方法在多个无监督和有监督的图像检索数据集上都比最好的方法有显著提升。

文章详情:

ICLR 2023 | 化繁为简:简单且高效的视觉表征学习框架Unicom

13.In-Context Learning Creates Task Vectors

关键词:大模型,In-context Learning,可解释性

本文提出了一种针对LLMs中In-Context Learning的理论探索框架,揭示了一种ICL学习机制的新视角。本文提出的框架具备了简单而优雅的特性,其假设ICL过程通过将输入的训练示例压缩为单个任务向量来发挥作用,并且引导Transformer层根据给定的查询生成目标输出。将原本LLMs复杂的前向传递过程分解为一种学习算法和规则机制的组合,并且通过了大量的实验支持了本文的观点。目前社区的研究方向主要集中在如何提高LLMs的推理性能,但更需要探索LLM内部机理的基础工作作为指导。

文章详情:

EMNLP 2023 | DeepMind提出大模型In-Context Learning的可解释理论框架

14.PAD: A Dataset and Benchmark for Pose-agnostic Anomaly Detection

关键词:异常检测,数据集,NeRF

本文旨在解决工业品异常检测中存在的“仅使用固定视角信息”的不真实假设,这可能导致漏检被遮挡的在其他视角下的异常区域。为此,清华大学智能产业研究院赵昊老师团队提出了首个多位姿的异常检测数据集用于与位姿无关的异常检测任务, 并首次将神经辐射场 (NeRF) 引入异常检测的算法范式,仅通过RGB图像即可轻松实现物体360°全方位的异常检测!基准实验的结果表明:现有方法在位姿无关设置下表现不佳,提出的OmniposeAD实现了新SOTA。目前该成果已被NeurIPS 2023收录。

文章详情:

NeurIPS 2023 | PAD:首个位姿无关的工业品异常检测新数据集和方法

15.Context-Aware Meta-Learning

关键词:视觉大模型,元学习,上下文学习

来自斯坦福大学、谷歌DeepMind的研究团队从元学习(Meta Learning)框架出发,提出了一种全新的上下文感知元学习(Context-Aware Meta-Learning,CAML)算法,CAML的灵感来源于LLMs中的In-Context Learning(上下文学习),通过在推理过程中学习新的视觉概念而无需微调来实现视觉大模型的效果。

CAML借助于预训练的CLIP模型作为特征提取器,其将元学习重新定义为对已知标签的数据点和具有未知标签的测试数据点序列建模的过程,通过这种全新的学习范式,可以将Transformer编码器外推到模型参数空间之外的新类,而无需微调。本文在多个标准元学习基准上达到了SOTA性能,而参与对比实验的baseline方法均需要进行额外的元训练。

文章详情:

视觉大模型新路径?斯坦福联合DeepMind提出视觉元学习框架CAML

16.Follow Anything: Open-set detection, tracking, and following in real-time

关键词:Segment Anything, Following Anything, 目标跟踪

本文提出了一种新型的"感知一切"方法,称为FAn系统,其组合了多模态大模型与通用的视觉分割、检测和跟踪方法,并且通过一系列模型推理优化策略,极大的降低了视觉领域的SOTA模型在实时机器人系统上的部署难度。基于多模态大模型的开放词汇感知和多模态信息处理能力,FAn拥有较强的环境适应能力,同时提供了多种灵活的用户交互方式。

文章详情:

把"跟踪一切"搬到无人机上!MIT联合哈佛大学提出开放环境下的实时跟踪模型FAn

17.Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers

关键词:Efficient Transformer, MLP

本文介绍了一种简单直接的Transformer架构优化方法,以Transformer模型中的核心操作自注意力(SA)和交叉注意力层(CA)为优化目标,直接使用简单高效的MLP层进行替换。根据替换抽象程度和模型参数缩减规模,作者提出了四种替换模式:ALR、ALRR、ASLR和ELR,然后通过知识蒸馏技术将原始Transformer模型的拟合能力迁移到这些轻量化的MLP层中。作者通过在基础NLP翻译基准上的实验表明,Transformer模型完全可以在Attention Free的情况下正常运作,但是需要保留原始的交叉注意力层。

文章详情:

AAAI 2024|ETH轻量化Transformer最新研究,浅层MLP完全替换注意力模块提升性能

18.SEED-Bench-2: Benchmarking Multimodal Large Language Models

关键词:多模态,评测基准,语言模型

大语言模型(LLM)的蓬勃发展离不开健全的评测体系,而对于多模态大语言模型(MLLM)而言,一直缺乏类似MMLU、ARC等全面且客观的评测基准。腾讯AI Lab联手腾讯ARC Lab和港中深推出了SEED-Bench系列测评基准,有效弥补了这一缺陷,目前已成为测评MLLM的主流基准之一。

SEED-Bench评测基准在2023年7月首次发布,它包含了19K道经过人工标注正确答案的选择题,涵盖了图像和视频的12个评估维度;并在11月发布了v2版本,覆盖三个能力层级的共27个维度,包括文本和图像生成的评估!值得一提的是,Hugging Face CEO Clément Delangue也对在线榜单进行了点赞,并且目前该工作已被CVPR 2024接收。

文章详情:

GPT-4V被超越?SEED-Bench多模态大模型测评基准更新

19.ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models

关键词:稀疏化,激活函数,大模型

本文介绍一篇苹果发表在人工智能顶会ICLR 2024上的文章,本文针对LLM中激活函数对LLM推理效率的影响展开了研究,目前LLM社区中通常使用GELU和SiLU来作为替代激活函数,它们在某些情况下可以提高LLM的预测准确率。但从节省模型计算量的角度考虑,本文作者认为,经典的ReLU函数对模型收敛和性能的影响可以忽略不计,同时可以显着减少计算和权重IO量。因此作者主张在LLM社区重新评估ReLU的地位(尽可能多的使用ReLU)。

此外,作者还探索了一种基于ReLU的LLM稀疏模式,该模式可以对已激活的神经元进行重新利用来生成出新的高效token。综合这些发现和设计,本文实现了基于ReLU的高效LLM计算方案,相比其他激活函数,将LLM的推理计算量大幅减少三倍。

文章详情:

ICLR 2024|ReLU激活函数的反击,稀疏性仍然是提升LLM效率的利器

20.Retrieval-Augmented Generation for Large Language Models: A Survey

关键词:RAG,大模型

本文介绍了面向大模型的检索增强生成(RAG)技术的综述,包括其概念、意义、优势、迭代升级过程以及各个阶段的特点。文章首先阐述了RAG的基本概念,即大模型在生成文本时先从大量文档中检索相关信息,然后利用这些信息提高生成质量。接着,文章讨论了RAG的优势,如使用外部知识提高可靠性、检索库的及时更新、强可解释性、高度定制能力和安全隐私管理等。文章还详细介绍了RAG的三个发展阶段:原始RAG、高级RAG和模块化RAG,每个阶段的组件和特点,以及面临的挑战和解决方案。

文章详情:

前沿重器[41] | 综述-面向大模型的检索增强生成(RAG)

在TechBeat社区,我们始终坚持为全球华人AI精英提供一个交流思想、分享成果的平台。我们相信,通过这样的分享和交流,能够激发更多的创新和合作,共同推动人工智能技术向前发展

让我们再次祝贺所有上榜的讲者和团队,感谢他们为全球华人科技社区带来的独特视角和宝贵知识。同时,我们也期待在新的一年里,TechBeat社区将继续成为推动全球华人在AI领域进步的关键力量,共同见证和创造更多的科技奇迹!????

????如果,你也希望点亮自己的光芒,成为下一年度TechBeat红人榜新星,欢迎:

成为讲者,分享最新工作

带领技术团队,组团亮相、打造技术影响力

申请表单

????或是,有任何希望与我“门”一起搞事情的合作提议,或是对将门投资、将门创新有合作想法,欢迎:

✅ 添加将门小将微信(thexiaojiang),与我“门”取得联系!

小将微信

-The End-

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved