F2LLM Embedding模型:600万数据训练达到SOTA,完全开源,小团队福音!
F2LLM是一系列Embedding模型(0.6B、1.7B、4B),仅使用600万高质量数据直接微调Qwen3基座模型,在MTEB榜单上达到业界领先水平,完全开源。相比主流模型需上亿数据或昂贵合成数据,F2LLM大幅降低了训练门槛,特别适合算力受限场景,其中F2LLM-1.7B在1-2B模型中排名第一,为研究团队提供了理想的baseline选择。
Embedding 模型在信息检索、文本处理、检索增强生成(RAG)中有着重要的应用。然而,当前主流的 Embedding 模型如 NV-Embed、Qwen3-Embedding 的训练或是需要上亿数据量级进行对比学习加训,或是依赖昂贵且没有开源的合成数据,给较小规模的研究团队复现、改进 Embedding 模型的训练算法带来了极大困难。
我们推出 F2LLM(Foundation to Feature Large Language Models),包含 0.6B、1.7B、4B 大小的一系列模型,仅使用六百万数据直接对基座模型进行微调,在 MTEB 榜单上达到业界领先水平,且完全开源。
一、简介

本文源于蚂蚁集团与上海交通大学的校企合作项目,模型、数据、训练代码全部开源:
-
arXiv**:**https://arxiv.org/abs/2510.02294
-
**GitHub:**https://github.com/codefuse-ai/CodeFuse-Embeddings
-
**HuggingFace:**https://huggingface.co/collections/codefuse-ai/codefuse-embeddings-68d4b32da791bbba993f8d14
与其他业界领先 Embedding 模型相比,F2LLM 不仅完全开源,而且仅使用六百万高质量、非合成数据,在模型大小、训练开销、Embedding 性能上达到了最佳平衡,是作为未来 Embedding 研究 baseline 的理想选择:

二、数据
F2LLM 的训练数据来自 60 个开源数据集,我们将这些数据集统一整理成了 3 种格式:检索(retrieval),分类(classification),和聚类(clustering)。
在我们开源的数据中,每条检索类与聚类数据包含一条查询(query)、一个段落(passage)、24 个难负样本(hard negative)。每条分类数据同样包含一条查询、一个段落,但只有一个难负样本。
检索数据
检索数据包含开源的检索、摘要、自然语言推理(NLI)、语义相似度(STS)、复述(paraphrase)数据集。
- 对摘要数据,我们将每条数据的摘要作为查询,对应原文作为段落;
- 对 NLI 数据,我们将前提(premis)作为查询,蕴含的假设(entailed hypothesis)作为段落,中立或矛盾的推理(neutral/contradictory hypothesis)作为难负样本;
- 对 STS 数据,我们将相似度大于 4 分的文本对分别最为查询-段落和段落-查询,构建两对样本;
- 对复述数据,我们从互为复述的文本对构建查询-段落;
对以上所有检索数据,我们使用 Qwen3-Embedding-0.6B 从各数据集中额外挖掘难负样本,并对过程进行严格把控,确保数据质量:
- 首先计算查询与段落的相关性分数
- 从源数据集中召回 100 条与查询最相关的段落作为候选负样本,但除去最相关的五条以避免假阴性的负样本
- 除去相关性大于 0.8 的候选负样本
- 除去相关性大于正样本相关性 95% 的候选负样本
- 从剩余候选负样本中选择相关性最高的 24 条作为难负样本,若剩余候选负样本不足 24 条则删除该数据
分类数据
分类数据仅包含 5 个开源二分类数据集。我们将每条数据的输入作为查询,对应类的文本标签作为段落,另一类的文本标签作为负样本。
聚类数据
聚类数据包含开源的聚类数据以及多分类数据。对于每一条输入,我们从同一类中随机采样一条作为段落,从所有其他类中最集采样 24 条作为负样本。
三、训练
我们使用标准的对比学习损失直接微调 Qwen3 基座模型。损失函数由所有数据的难负样本对比损失
与检索类数据的批内对比损失
构成:

其中,
为温度,在训练过程中设置为0.05,
为相似度指标,我们使用余弦相似度。
在训练过程中,我们将所有数据集混合在一起进行训练,但通过特别设计的数据加载器确保在每一步优化过程中,每个训练进程中的数据全部来自单一数据集。对于检索类数据,
使用所有进程中样本的段落字段进行计算,提升样本学习效率;对于分类与聚类数据,
则只有被计算,
不进行计算。
四、测评
在 MTEB 英语榜单上,F2LLM-4B 总体排名第 7,在 4B 大小模型中排名仅次于使用上亿数据训练的 Qwen3-Embedding 4B。F2LLM-1.7B 更是在 1-2B 模型中排名第一,成为算力受限应用场景下的理想选择。在榜单上的七大类任务中,F2LLM 家族在聚类任务上表现尤其出色,4B 模型的性能达到 68.54 ,在所有模型中创下新高。

五、AI大模型从0到精通全套学习大礼包
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
02.AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线


03.学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的


04.大模型面试题目详解


05.这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐
所有评论(0)