点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

本次分享我们邀请到了香港中文大学MMLab在读博士徐润森为大家详细介绍他的工作:PointLLM。如果您有相关工作需要分享,欢迎文末联系我们!

2e2d946fd75f3405bd1d844c5b8731aa.png

PointLLM: Empowering Large Language Models to Understand Point Clouds
论文https://arxiv.org/abs/2308.16911
项目https://runsenxu.com/projects/PointLLM/

大语言模型(LLMs)在自然语言处理方面展现了深远的影响,但其对3D数据的直接理解尚未得到广泛研究。在这一工作中,我们提出了PointLLM,旨在赋予LLMs理解点云的能力。PointLLM能够在基于人类指令的情况下理解带有颜色的物体点云,并生成遵从用户指令的回答,展示其对点云及常识的理解。PointLLM将点云编码器与LLM相结合,融合了几何、外观和语言信息。我们开发了一个自动化的数据生成管道,收集了一个包含超过73万条样本和66万个不同物体的大规模文本-点云数据集来使PointLLM的训练成为可能。我们还提出了两个新颖的基准测试来评估大语言模型对点云的理解,以弥补领域的空白。此外,我们分析了当前常用的自然语言处理的指标在点云理解中的局限性并引入了人类评估,GPT评估等新指标。评估结果显示,PointLLM显著超过了2D和3D基线模型,且在超过50%的测试样本中超越了人类标注。代码、数据集、基准测试和演示均已开源。

直播信息

时间

2024年8月28日(周三)上午10:00

主题

ECCV' 2024 Oral 满分论文|PointLLM:大语言模型直接理解点云

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

151d0fd46d8cbadeba6cca1ba951aaa1.png

3DCV视频号也将同步直播

嘉宾介绍

a1cb9b61dfb17e36cff22748e74ed573.jpeg

徐润森

香港中文大学MMLab二年级博士生,师从林达华教授。研究方向为面向通用机器人的三维感知、与自然语言结合的3D理解与表征学习等。

个人主页runsenxu.com

直播大纲

  1. 大语言模型理解点云的任务背景

  2. 大规模文本-点云数据集的构建

  3. 模型训练与面向点云理解的新基准测试和评价指标

  4. 模型性能分析与经验性观察

参与方式

f248820c6e8efd3eae8fbf05cc0598f2.jpeg

:如果您有相关工作需要分享,欢迎联系:cv3d008。欢迎加入「3D视觉从入门到精通」知识星球,直播回放等相关将在星球内发布!

往期顶会论文一作讲解

b18f2de0260fb17882f1af0075e32ee6.png

更多推荐