引言

重磅发布!来自腾讯微信团队的KaLM-Embedding开源模型再创全球新纪录!

在最新发布的MTEB(Massive Text Embedding Benchmark)多语言通用Embedding模型权威评测中,腾讯微信团队推出的新一代通用Embedding模型 KaLM-Embedding-Gemma3-12B-2511 表现卓越,在涵盖数千种语言、数百项任务、横跨9大任务类型的全栈评测中综合成绩位列全球第一,超越了包括英伟达nvidia/llama-embed-nemotron-8b、阿里Qwen/Qwen3-Embedding-8B、谷歌Google/gemini-embedding-001 等国内外主流开源与闭源竞品,展现了在通用Embedding领域的领先技术实力。

Embedding模型:大模型时代不可或缺的语义理解基石

在大模型技术快速发展的背景下,语义理解能力成为人工智能系统落地的关键。Embedding模型作为实现语义编码的核心技术,通过将文本转化为高维向量,赋予非结构化内容可度量、可检索的特性,为上层应用提供基础支撑。

RAG(检索增强生成)等主流架构中,Embedding模型能够从海量知识库中精准检索语义相关信息,动态构建高质量上下文,有效提升大模型生成结果的准确性与可靠性,抑制“幻觉”现象。

此外,Embedding技术还广泛应用于文本分类、语义匹配、信息聚类、搜索推荐、多语言理解等多个重要领域,成为现代AI系统中不可或缺的语义基础组件。

效果评测:MTEB问鼎全球

MTEB(Massive Text Embedding Benchmark):

https://huggingface.co/spaces/mteb/leaderboard 是目前覆盖面最广、评估体系最系统的文本嵌入基准测试,被广泛视为衡量嵌入模型综合能力的权威标准。其多语言版本(Multilingual MTEB Benchmark)具备以下核心特点:

涵盖超20个应用领域、131项任务;

覆盖检索、分类、聚类、重排序、句子相似度等9类任务类型;

支持涵盖数千种语言的大规模多语言评估。

模型在MTEB多语言榜单的表现直接反映其技术能力与应用泛化水平。领先成绩意味着模型不仅在特定任务上表现优异,更具备优秀的通用性、扩展性与跨语言迁移能力。

随着全球化进程推进,多语言嵌入模型在多个关键场景中展现出重要价值,可支撑如跨境电商、跨国企业知识管理、多语言学术检索及AI应用国际化等实际需求,为技术落地提供底层语义理解保障。

请在此添加图片描述

来自腾讯微信的 KaLM-Embedding-Gemma3-12B-2511 荣登 MTEB 多语言评测全球榜首!

在涵盖全球1038种语言、共计131项任务的权威多语言评测体系 MTEB 中,KaLM-Embedding-Gemma3-12B-2511 表现卓越,综合得分分别达到72.32(Mean Task)与62.51(Mean TaskType),强势斩获全球第一!

值得关注的是,该模型在 Bitext Mining、Classification、MultiLabel Classification 和 Retrieval 四大核心子任务中均取得领先优势,展现出在多语言语义理解与信息处理方面的顶尖技术能力。

新版本发布:KaLM-Embedding-Gemma3-12B-2511 核心亮点解析

模型规模:参数量提升至120亿(12B),是当前MTEB榜单上最大规模的Embedding模型之一,显著增强了模型的表示能力与泛化性能。

跨语言能力:在多语言语义对齐方面实现显著优化,支持更精准的跨语种语义理解与检索任务。

数据质量:基于经过深度清洗与筛选的大规模高质量语料进行训练,有效提升语义表示的一致性与可靠性。

训练策略:采用多阶段对比学习Embedding蒸馏模型参数融合等技术,进一步提升模型多维度能力表现与综合性能。

维度嵌套:支持多种向量维度选择,涵盖3840、2048、1024、512、256、128及64等多个层级,满足不同场景下的高效应用需求。

关于技术路线的进一步阐述,可参考团队前期工作《KaLM-Embedding-V2》:

https://arxiv.org/abs/2506.20923。该研究为本次模型的迭代升级奠定了核心理论基础。

未来展望

KaLM-Embedding将持续探索与优化路径,不断推动技术创新与性能迭代。针对Embedding技术的未来发展,我们提出以下可行方向的展望:

●扩展应用场景:不仅限于当前主流的非结构化文本处理,未来可进一步扩展至结构化、半结构化数据,并融合多模态信息,增强模型的通用性与适用性。

●动态推理资源分配:根据待表征数据的信息密度与处理难度,实现推理资源的动态调配。该机制对于实时性要求较高的应用场景具有重要价值。

●创新训练策略:借助更大规模语言模型,开展更丰富的数据合成与筛选工作,并通过训练蒸馏等技术路径,持续提升Embedding的表达能力与效率。

我们诚挚欢迎学术界与工业界的专家共同探讨、交流与合作,携手推进Embedding技术的发展。

文章来源于腾讯云开发者社区,点击查看原文