ECCV' 2024 Oral满分论文｜PointLLM：大语言模型直接理解点云

点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达本次分享我们邀请到了香港中文大学MMLab在读博士徐润森为大家详细介绍他的工作：PointLLM。如果您有相关工作需要分享，欢迎文末联系我们！PointLLM: Empowering Large Language Models to Understand Point Clouds论文：https://arxiv.org/abs/23

3Ｄ视觉工坊

1151人浏览 · 2024-08-28 07:01:05

3Ｄ视觉工坊 · 2024-08-28 07:01:05 发布

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

本次分享我们邀请到了香港中文大学MMLab在读博士徐润森为大家详细介绍他的工作：PointLLM。如果您有相关工作需要分享，欢迎文末联系我们！

PointLLM: Empowering Large Language Models to Understand Point Clouds
论文：https://arxiv.org/abs/2308.16911
项目：https://runsenxu.com/projects/PointLLM/

大语言模型(LLMs)在自然语言处理方面展现了深远的影响，但其对3D数据的直接理解尚未得到广泛研究。在这一工作中，我们提出了PointLLM，旨在赋予LLMs理解点云的能力。PointLLM能够在基于人类指令的情况下理解带有颜色的物体点云，并生成遵从用户指令的回答，展示其对点云及常识的理解。PointLLM将点云编码器与LLM相结合，融合了几何、外观和语言信息。我们开发了一个自动化的数据生成管道，收集了一个包含超过73万条样本和66万个不同物体的大规模文本-点云数据集来使PointLLM的训练成为可能。我们还提出了两个新颖的基准测试来评估大语言模型对点云的理解，以弥补领域的空白。此外，我们分析了当前常用的自然语言处理的指标在点云理解中的局限性并引入了人类评估，GPT评估等新指标。评估结果显示，PointLLM显著超过了2D和3D基线模型，且在超过50%的测试样本中超越了人类标注。代码、数据集、基准测试和演示均已开源。

直播信息

时间

2024年8月28日(周三)上午10：00

主题

ECCV' 2024 Oral 满分论文｜PointLLM：大语言模型直接理解点云

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3DCV视频号也将同步直播

嘉宾介绍

徐润森

香港中文大学MMLab二年级博士生，师从林达华教授。研究方向为面向通用机器人的三维感知、与自然语言结合的3D理解与表征学习等。

个人主页：runsenxu.com

直播大纲

大语言模型理解点云的任务背景
大规模文本-点云数据集的构建
模型训练与面向点云理解的新基准测试和评价指标
模型性能分析与经验性观察

参与方式

注：如果您有相关工作需要分享，欢迎联系：cv3d008。欢迎加入「3D视觉从入门到精通」知识星球，直播回放等相关将在星球内发布！

往期顶会论文一作讲解

九章云极普惠算力

更多推荐

Big快速上手：如何用简单的Markdown语法创建专业演示文稿

想要快速制作专业演示文稿却不想学习复杂的软件？Big是专为创意工作者和忙碌开发者设计的极简演示系统，让你告别繁琐配置，专注于内容本身。本文将为你介绍Big的核心功能、快速入门方法以及如何用简单的HTML创建令人印象深刻的演示文稿。## 🚀 什么是Big演示文稿系统？Big是一个轻量级的演示文稿系统，整个系统仅约16KB大小，采用纯HTML+CSS+JavaScript技术栈。它专为创意工