FlagEmbedding

更新 | 项目 | 模型列表 | Citation | License

English | 中文

FlagEmbedding专注于检索增强llm领域，目前包括以下项目:

Long-Context LLM: Activation Beacon, LongLLM QLoRA
Fine-tuning of LM : LM-Cocktail
Embedding Model: Visualized-BGE, BGE-M3, LLM Embedder, BGE Embedding
Reranker Model: llm rerankers, BGE Reranker
Benchmark: C-MTEB

更新

5/21/2024：联合 Jina AI、Zilliz、HuggingFace 等机构发布评测基准 AIR-Bench，针对检索任务和 RAG 场景设计。AIR-Bench 首次提出在检索任务中使用 LLMs 自动化生产评估数据，避免模型过拟合测试数据。AIR-Bench 不需要人工参与标注数据，因而可以更灵活覆盖更多垂直领域和不同语种。同时 AIR-Bench 会定期进行更新从而满足社区不断变化的评测需求。Leaderboard 🔥
4/30/2024: 发布Llama-3-8B-Instruct-80K-QLoRA, 其通过在少量合成的长文本数据上的QLoRA训练，有效地将Llama-3-8B-Instruct的上下文长度从8K扩展到80K。详见代码 🔥
3/18/2024: 发布新的rerankers, 拥有更好的性能同时支持多语言和长文本。 🔥
3/18/2024: 发布Visualized-BGE，该项目通过引入image token embedding赋予BGE视觉编码能力。Visualized-BGE可以对混合图文数据进行编码，用于广泛的混合模态检索任务。 🔥
1/30/2024: 发布BGE-M3, 第一个具有多功能、多语言和多粒度特性的文本检索模型，高效支持多语言（100+语言）、长文本（至多8192长度的输入文本）、和混合检索（稠密、稀疏、多向量）。详见report和代码 🔥
1/9/2024: 发布Activation-Beacon, 一个有效、高效、兼容、低成本（训练）的扩展大预言模型上下文长度的方法。技术报告
12/24/2023: 发布LLaRA, 一个基于LLaMA-7B的稠密检索模型, MS MARCO与BEIR上取得了迄今最好的实验结果. 模型与代码将会陆续开源. 敬请关注. 技术报告
11/23/2023: 发布LM-Cocktail, 一种通过模型融合在微调时保持原有模型通用能力的方法. 技术报告
10/12/2023: 发布 LLM-Embedder, 专为大语言模型各种检索增强任务设计的英文向量模型。技术报告
09/15/2023: 发布技术报告和数据集.
09/12/2023: 更新：
- 新增重排模型：开源交叉编码器模型bge-reranker，具有比向量模型更强大的排序能力。非常建议使用或者微调它来重新排序向量模型返回的top-k文档，提高最终结果的相关性。
- 更新向量模型：发布bge-*-v1.5向量模型，缓解相似度分布问题，提升无指令情况下的检索能力（但检索任务仍建议使用指令）
09/07/2023: 更新微调代码: 增加难负样本挖掘脚本，增加指令参数方便在微调中添加指令.
08/09/2023: BGE模型整合入Langchain, 可以在langchain中非常简单的使用它; C-MTEB中文榜单已在线更新.
08/05/2023: 发布更小的模型(base, small), 在同尺寸模型中取得最好的性能！ 🤗
08/02/2023: 🎉 🎉 发布中英文向量模型BGE(BAAI General Embedding的缩写), 在MTEB和C-MTEB榜单上取得最好的性能
08/01/2023: 发布大规模中文文本向量评测榜单 (C-MTEB), 其包括31个测试任务.

项目

BGE-M3(Paper, Code)

在这个项目中，我们发布了BGE-M3，它是第一个具有多功能、多语言和多粒度特性的文本检索模型。

多功能:可以同时执行三种检索功能：单向量检索、多向量检索和稀疏检索。
多语言:支持100多种工作语言。
多粒度:它能够处理不同粒度的输入，从短句子到长达8192个词汇的长文档。

在本项目中，为了提高单一检索模式的性能，提出了一种新的自知识蒸馏方法。我们优化了批处理策略，支持大批处理大小，这可以在对长文本或大型语言模型进行向量微调时简单使用。我们还构建了一个用于文档检索的数据集，并提出了一个简单的策略来提高长文本的建模能力。 训练代码和微调数据将在不久的将来开源。

Visualized-BGE

在这个项目中，我们发布了Visualized-BGE。通过引入image token embedding，Visualized-BGE可以被用来编码混合图文数据。它可以被应用在广泛的多模态检索任务中，包括但不限于：多模态知识检索，多模态查询的图像检索等。

我们通过 QLoRA 微调将 Llama-3-8B-Instruct 的上下文长度从 8K 扩展到 80K。整个训练过程非常高效，在一台8xA800 (80G) GPU 机器上仅需要8个小时。该模型在NIHS、主题检索和长上下文语言理解等广泛的评估任务中表现出卓越的性能；同时，它在短上下文中也很好地保留了其原有的能力。如此强大的长文本能力主要归因于GPT-4生成的仅3.5K合成数据，这表明LLM具有扩展其原始上下文的固有（但在很大程度上被低估）潜力。事实上，一旦有更多的计算资源，该方法可以将上下文长度扩展更长。

模型列表

Model	Language		Description	query instruction for retrieval [1]
BAAI/bge-m3	Multilingual	推理微调	多功能（向量检索，稀疏检索，多表征检索）、多语言、多粒度（最大长度8192）
LM-Cocktail	English		微调的Llama和BGE模型，可以用来复现LM-Cocktail论文的结果
BAAI/llm-embedder	English	推理微调	专为大语言模型各种检索增强任务设计的向量模型	详见 README
BAAI/bge-reranker-large	Chinese and English	推理微调	交叉编码器模型，精度比向量模型更高但推理效率较低 [2]
BAAI/bge-reranker-base	Chinese and English	推理微调	交叉编码器模型，精度比向量模型更高但推理效率较低 [2]
BAAI/bge-large-en-v1.5	English	推理微调	1.5版本，相似度分布更加合理	`Represent this sentence for searching relevant passages:`
BAAI/bge-base-en-v1.5	English	推理微调	1.5版本，相似度分布更加合理	`Represent this sentence for searching relevant passages:`
BAAI/bge-small-en-v1.5	English	推理微调	1.5版本，相似度分布更加合理	`Represent this sentence for searching relevant passages:`
BAAI/bge-large-zh-v1.5	Chinese	推理微调	1.5版本，相似度分布更加合理	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-base-zh-v1.5	Chinese	推理微调	1.5版本，相似度分布更加合理	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-small-zh-v1.5	Chinese	推理微调	1.5版本，相似度分布更加合理	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-large-en	English	推理微调	向量模型，将文本转换为向量	`Represent this sentence for searching relevant passages:`
BAAI/bge-base-en	English	推理微调	base-scale 向量模型	`Represent this sentence for searching relevant passages:`
BAAI/bge-small-en	English	推理微调	small-scale 向量模型	`Represent this sentence for searching relevant passages:`
BAAI/bge-large-zh	Chinese	推理微调	向量模型，将文本转换为向量	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-base-zh	Chinese	推理微调	base-scale 向量模型	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-small-zh	Chinese	推理微调	small-scale 向量模型	`为这个句子生成表示以用于检索相关文章：`

Contributors:

Citation

如果您觉得我们的工作有所帮助，请考虑点个星 ⭐ 和引用以下论文:

@misc{cocktail,
      title={LM-Cocktail: Resilient Tuning of Language Models via Model Merging}, 
      author={Shitao Xiao and Zheng Liu and Peitian Zhang and Xingrun Xing},
      year={2023},
      eprint={2311.13534},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@misc{llm_embedder,
      title={Retrieve Anything To Augment Large Language Models}, 
      author={Peitian Zhang and Shitao Xiao and Zheng Liu and Zhicheng Dou and Jian-Yun Nie},
      year={2023},
      eprint={2310.07554},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{bge_embedding,
      title={C-Pack: Packaged Resources To Advance General Chinese Embedding}, 
      author={Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighoff},
      year={2023},
      eprint={2309.07597},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

License

FlagEmbedding基于MIT License开源协议。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh.md

README_zh.md

FlagEmbedding

更新 | 项目 | 模型列表 | Citation | License

更新

项目

BGE-M3(Paper, Code)

Visualized-BGE

LongLLM QLoRA

Activation Beacon

LM-Cocktail

LLM Embedder

BGE Reranker

BGE Embedding

C-MTEB

模型列表

Contributors:

Citation

License

Files

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

FlagEmbedding

更新 | 项目 | 模型列表 | Citation | License

更新

项目

BGE-M3(Paper, Code)

模型列表

Contributors:

Citation

License