2026年ベクトル埋め込みモデル比較・選択完全ガイド

なぜ2026年の埋め込みモデル選択がRAGシステムの上限を決めるのか

2026年になっても2023年の埋め込みモデルでRAGを構築しているなら、それはPentium IIIで大規模モデルを動かすようなもの——動かないわけではないが、あまりにもったいない。埋め込みモデルはRAGパイプライン全体の起点であり、ドキュメントが「理解」される深さを決め、検索リコールの品質上限を設定する。どれほど優れたLLMでも、間違ったチャンクを入力すればゴミが出力される。

過去1年間、埋め込みモデルの進化速度は予想を遥かに超えた。OpenAIのtext-embedding-3シリーズは安定し、オープンソース陣営のbge、E5、GTEも継続的に進化、CohereとJinaは多言語と長文脈の2つの次元から攻勢をかけた。どれを選ぶべきか？どう選ぶべきか？このガイドが完全な答えを提供する。

2026年主流埋め込みモデル一覧

モデル	次元	最大Token	中国語対応	オープンソース	MTEB平均	推論遅延(ms/1k tokens)
text-embedding-3-small	1536	8191	★★★★	✗	64.2	18
text-embedding-3-large	3072	8191	★★★★★	✗	68.7	32
bge-large-zh-v1.5	1024	512	★★★★★	✓	65.8	12
bge-m3	1024	8192	★★★★★	✓	67.3	22
E5-large-v2	1024	512	★★★	✓	63.5	14
GTE-large	1024	512	★★★	✓	64.1	13
Cohere embed-v3	1024	512	★★★★★	✗	67.9	25
Jina-embeddings-v2	1024	8192	★★★★	✓	62.8	20
multilingual-e5-large	1024	512	★★★★★	✓	63.2	16
mxbai-embed-large	1024	8192	★★★★	✓	66.5	15

データは2026年5月時点のMTEBおよびC-MTEBベンチマークに基づく。推論遅延はA100単一GPUでの測定結果。参考値として扱うこと。

モデル別詳細比較

OpenAI text-embedding-3-small / large

OpenAIが2024年初頭にリリースした第3世代埋め込みモデルで、現在もAPI呼び出しの首选。small版はコストパフォーマンスに優れ、1536次元でほとんどのユースケースに十分；large版は3072次元で、次元削減（256次元まで削減してストレージ節約）をサポートし、高精度が求められる場面で優位性が顕著。

強み：安定したAPI、デプロイ不要、多言語バランス良好、柔軟な次元削減弱み：データ越境制限、長期コスト高、中国語ではbge-m3に劣る

bge-large-zh-v1.5 / bge-m3

BAAIのbgeシリーズは中国語シナリオの王者。bge-large-zh-v1.5は中国語専用最適化でC-MTEBで長期トップ。bge-m3は2025年の新フラッグシップで8192トークン長文対応、同時に密+疎+ColBERTの3種ベクトルを生成し、検索リコール率が極めて高い。

強み：中国語トップクラス、オープンソースでプライベートデプロイ可能、bge-m3多粒度検索弱み：bge-large-zhは最大512トークン、デプロイにGPUリソースが必要

E5-large-v2

MicrosoftのE5シリーズは「テキストプレフィックス」戦略で知られる——クエリに"query:"プレフィックス、ドキュメントに"passage:"プレフィックスを付加。v2は英語で優秀だが、中国語対応は中程度。

強み：英語で優秀、シンプルで効果的なプレフィックス戦略、オープンソース弱み：中国語は中程度、512トークン制限、プレフィックスの正しい使用が必須

GTE-large

Alibaba DAMOのGTEモデルは英語MTEBで好成績、中国語も基礎がしっかり。訓練データ品質が高く、モデル安定性が良い。

強み：中国語・英語バランス良好、高品質訓練データ、オープンソース弱み：中国語ではbgeに劣る、512トークン制限

Cohere embed-v3

Cohereの第3世代埋め込みモデルの最大の特徴は「入力タイプ」パラメータ対応——モデルにsearch_documentかsearch_queryかを伝えると、モデルが最適化して処理。多言語対応も優秀。

強み：入力タイプ認識、多言語優秀、安定したAPI 弱み：クローズドソース、価格高め、外部API依存

Jina-embeddings-v2

Jinaの長文脈埋め込みモデルで、8192トークン対応が長ドキュメントシナリオで唯一無二。チャンキングを最小限にしたい場合、Jinaは長ドキュメントを直接処理できる数少ない選択肢。

強み：8192トークン長文脈、オープンソース、カスタムファインチューニング対応弱み：短文精度はbgeに劣る、推論速度は中程度

multilingual-e5-large

Microsoftの多言語E5は100+言語をカバーし、言語間検索で優秀。データセットに複数言語が含まれる場合、最も安全な選択。

強み：100+言語カバー、言語間検索が強力、オープンソース弱み：単一言語精度は専用モデルに劣る、モデルサイズ大

mxbai-embed-large

Mixed Bread AIの埋め込みモデルは2025年に台頭——8192トークン + オープンソース + 軽量推論でコストパフォーマンス抜群。MTEBスコアはクローズドソースモデルに迫る。

強み：長文脈 + オープンソース + 軽量、高MTEBスコア、高速推論弱み：bgeほどコミュニティが成熟していない、中国語ファインチューニングリソースが少ない

ベンチマーク結果

中国語データセット（C-MTEB）

モデル	分類	クラスタリング	ペア分類	リランキング	検索	意味類似度	平均
bge-m3	68.2	44.7	76.3	62.1	72.8	81.5	67.6
bge-large-zh-v1.5	67.8	43.9	75.8	61.5	71.2	80.9	66.9
text-embedding-3-large	66.5	42.3	74.2	60.8	69.5	79.8	65.5
Cohere embed-v3	65.9	41.8	73.6	59.7	68.8	79.2	64.8
mxbai-embed-large	64.7	40.5	72.1	58.3	67.2	78.1	63.5
multilingual-e5-large	63.8	39.7	71.5	57.6	66.4	77.5	62.8
GTE-large	62.4	38.9	70.8	56.2	65.1	76.8	61.7
E5-large-v2	61.2	37.5	69.4	55.1	63.8	75.6	60.4

英語データセット（MTEB）

モデル	分類	クラスタリング	ペア分類	リランキング	検索	意味類似度	平均
text-embedding-3-large	72.4	48.6	82.1	65.3	74.2	84.7	71.2
Cohere embed-v3	71.8	47.9	81.5	64.8	73.5	83.9	70.6
mxbai-embed-large	70.5	46.2	80.3	63.1	72.1	82.8	69.2
bge-m3	69.8	45.7	79.6	62.4	71.3	82.1	68.5
GTE-large	68.9	44.8	78.7	61.5	70.2	81.3	67.6
E5-large-v2	68.2	44.1	78.1	60.8	69.5	80.7	66.9
text-embedding-3-small	67.5	43.3	77.4	59.6	68.8	79.9	66.1
Jina-embeddings-v2	65.8	41.7	75.6	57.9	66.4	78.2	64.3

完全評価コード

以下のPythonコードは、独自データセットで異なる埋め込みモデルの効果を評価するのに役立つ：

import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from typing import List, Dict, Tuple
import time
import json

MODEL_NAMES = [
    "BAAI/bge-large-zh-v1.5",
    "BAAI/bge-m3",
    "intfloat/e5-large-v2",
    "Alibaba-NLP/gte-large",
    "mixedbread-ai/mxbai-embed-large-v1",
    "jinaai/jina-embeddings-v2-base-zh",
    "intfloat/multilingual-e5-large",
]

def load_test_data(path: str) -> List[Dict]:
    with open(path, "r", encoding="utf-8") as f:
        return json.load(f)

def encode_texts(
    model: SentenceTransformer,
    texts: List[str],
    prefix: str = "",
    batch_size: int = 64,
) -> np.ndarray:
    if prefix:
        texts = [f"{prefix}{t}" for t in texts]
    embeddings = model.encode(
        texts,
        batch_size=batch_size,
        show_progress_bar=True,
        normalize_embeddings=True,
    )
    return embeddings

def evaluate_retrieval(
    queries: List[str],
    documents: List[str],
    relevance: List[List[int]],
    model_name: str,
) -> Dict[str, float]:
    model = SentenceTransformer(model_name)
    prefix_q = "query: " if "e5" in model_name.lower() else ""
    prefix_d = "passage: " if "e5" in model_name.lower() else ""

    start = time.time()
    q_emb = encode_texts(model, queries, prefix=prefix_q)
    d_emb = encode_texts(model, documents, prefix=prefix_d)
    latency = time.time() - start

    sim_matrix = cosine_similarity(q_emb, d_emb)

    hits_at_1 = 0
    hits_at_5 = 0
    hits_at_10 = 0
    mrr_total = 0.0

    for i in range(len(queries)):
        ranked = np.argsort(-sim_matrix[i])
        rel_set = set(relevance[i])
        if ranked[0] in rel_set:
            hits_at_1 += 1
        if any(r in rel_set for r in ranked[:5]):
            hits_at_5 += 1
        if any(r in rel_set for r in ranked[:10]):
            hits_at_10 += 1
        for rank_idx, doc_idx in enumerate(ranked):
            if doc_idx in rel_set:
                mrr_total += 1.0 / (rank_idx + 1)
                break

    n = len(queries)
    return {
        "model": model_name,
        "hit@1": round(hits_at_1 / n, 4),
        "hit@5": round(hits_at_5 / n, 4),
        "hit@10": round(hits_at_10 / n, 4),
        "mrr": round(mrr_total / n, 4),
        "latency_s": round(latency, 2),
    }

def run_benchmark(data_path: str) -> None:
    data = load_test_data(data_path)
    queries = [item["query"] for item in data]
    documents = list({d for item in data for d in item["documents"]})
    doc_index = {d: i for i, d in enumerate(documents)}
    relevance = [
        [doc_index[d] for d in item["relevant_docs"] if d in doc_index]
        for item in data
    ]

    results = []
    for model_name in MODEL_NAMES:
        print(f"Evaluating {model_name}...")
        result = evaluate_retrieval(queries, documents, relevance, model_name)
        results.append(result)
        print(f"  Hit@1={result['hit@1']}, MRR={result['mrr']}")

    print("\n=== Benchmark Results ===")
    for r in results:
        print(f"{r['model']}: Hit@1={r['hit@1']}, Hit@5={r['hit@5']}, "
              f"Hit@10={r['hit@10']}, MRR={r['mrr']}, Latency={r['latency_s']}s")

if __name__ == "__main__":
    run_benchmark("test_data.json")

よくある5つの落とし穴

1. E5にプレフィックスなしで使用

E5モデルはクエリにquery:プレフィックス、ドキュメントにpassage:プレフィックスが必須。プレフィックスなしでは性能が15-25%低下する。これは推奨ではなく必須要件。

2. 最大Token制限の無視

bge-large-zh-v1.5とE5-large-v2の最大トークンは512のみ。チャンクがこの長さを超えると、超過分は黙って切り捨てられ、意味情報が大きく失われる。チャンクサイズを制御するか、bge-m3/Jinaなどの長文脈モデルを選ぶこと。

3. 異なるモデル間でベクトル混用

各モデルのベクトル空間は独立している。bgeでクエリをエンコードし、E5でドキュメントをエンコードして類似度を計算することはできない。ベクトルは同じモデル下で生成しなければ意味がない。

4. ベクトルの正規化忘れ

コサイン類似度の計算時、ベクトルが正規化されていないと不正確な結果になる。エンコード時にnormalize_embeddings=Trueを設定するか、手動で正規化する：

embeddings = embeddings / np.linalg.norm(embeddings, axis=1, keepdims=True)

5. ユークリッド距離をコサイン類似度の代わりに使用

正規化済みベクトルではユークリッド距離とコサイン類似度は等価。しかし未正規化では全く異なるランキング結果になる。ベクトルデータベースでコサイン類似度メトリックを使用していることを必ず確認すること。

10のエラートラブルシューティング

#	症状	推定原因	解決策
1	検索結果が完全に無関係	モデルプレフィックス未追加	E5/multilingual-e5にはquery:/passage:プレフィックスが必須
2	中国語検索の品質が低い	英語専用モデルを使用	bge-large-zh-v1.5またはbge-m3に切り替え
3	ベクトル次元の不一致	DBとモデルの次元が不整合	ベクトルDBの次元設定がモデル出力と一致するか確認
4	長ドキュメントのリコールが低い	ドキュメントが切り捨てられた	8192トークンモデルを使用またはチャンキング戦略を最適化
5	推論が遅すぎる	モデルが大きすぎるかバッチ処理なし	small版を使用、batch_sizeを増加、GPUを有効化
6	言語間検索が失敗	単一言語モデル	multilingual-e5またはCohere embed-v3を使用
7	メモリ不足	一度に多すぎるテキストをエンコード	64-128件ずつバッチでエンコード
8	類似度がすべて1または-1	ベクトルがすべてゼロまたはNaN	入力が空でないか、モデルが正しくロードされているか確認
9	ファインチューニング後の性能低下	過学習または学習率が大きすぎる	学習率を下げる、データを増やす、early stoppingを使用
10	API呼び出しタイムアウト	ネットワーク問題またはリクエスト過大	バッチサイズを減らす、timeoutを増加、ローカルデプロイを使用

モデルファインチューニングのコツ

埋め込みモデルのファインチューニングは、特定ドメインでの検索性能を大幅に向上できる。以下が主要ステップ：

データ準備

from sentence_transformers import InputExample
from torch.utils.data import DataLoader

train_examples = []
for item in training_data:
    train_examples.append(InputExample(
        texts=[item["query"], item["positive_doc"]],
        label=1.0
    ))
    if item.get("negative_doc"):
        train_examples.append(InputExample(
            texts=[item["query"], item["negative_doc"]],
            label=0.0
        ))

train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=32)

訓練設定

from sentence_transformers import losses, SentenceTransformer

model = SentenceTransformer("BAAI/bge-large-zh-v1.5")
train_loss = losses.ContrastiveLoss(model)

model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=3,
    warmup_steps=int(0.1 * len(train_dataloader)),
    output_path="./fine_tuned_bge",
    show_progress_bar=True,
)

ファインチューニングの核心アドバイス

データ品質 > データ量：1000件の高品質アノテーションが10000件のノイズデータに勝る
Hard Negativeは不可欠：ランダムなネガティブは簡単すぎてモデルが識別力を学べない。BM25の検索結果から上位だが無関係なドキュメントをhard negativeとして使用
学習率は2e-5から開始：埋め込みモデルは学習率に非常に敏感、大きすぎると事前学習知識が破壊される
検証セットの監視：各エポック後に検証セットでMRRを評価、低下したら即座に停止
ドメイン語彙の注入：訓練データにドメイン固有用語の定義ペアを追加し、専門用語の理解を助ける