使用C#構(gòu)建一個(gè)PDF向量搜索系統(tǒng)

更新時(shí)間：2025年12月12日 09:03:57 作者：江沉晚呤時(shí)

在現(xiàn)代信息檢索中,傳統(tǒng)的關(guān)鍵詞搜索已經(jīng)無(wú)法滿足復(fù)雜語(yǔ)義查詢的需求,通過 Semantic Kernel,我們可以將文本數(shù)據(jù)轉(zhuǎn)化為向量,并結(jié)合向量數(shù)據(jù)庫(kù)實(shí)現(xiàn)高效的語(yǔ)義搜索,本文將詳細(xì)講解如何使用 C# 構(gòu)建一個(gè) PDF 向量搜索系統(tǒng),需要的朋友可以參考下

引言

在現(xiàn)代信息檢索中，傳統(tǒng)的關(guān)鍵詞搜索已經(jīng)無(wú)法滿足復(fù)雜語(yǔ)義查詢的需求。通過 Semantic Kernel，我們可以將文本數(shù)據(jù)轉(zhuǎn)化為向量（Embedding），并結(jié)合向量數(shù)據(jù)庫(kù)實(shí)現(xiàn)高效的語(yǔ)義搜索。本文將詳細(xì)講解如何使用 C# 構(gòu)建一個(gè) PDF 向量搜索系統(tǒng)，實(shí)現(xiàn)從 PDF 文本提取、向量化存儲(chǔ)，到語(yǔ)義搜索的完整流程。

技術(shù)棧與依賴

本文示例使用以下 NuGet 包：

庫(kù)	功能
`DocumentFormat.OpenXml`	Office 文檔操作
`Microsoft.Data.Sqlite`	SQLite 數(shù)據(jù)庫(kù)操作
`Microsoft.Extensions.AI`	AI SDK 接口，支持嵌入生成
`Microsoft.Extensions.AI.Ollama`	Ollama 模型嵌入生成
`Microsoft.Extensions.VectorData.Abstractions`	向量存儲(chǔ)抽象接口
`Microsoft.SemanticKernel.Connectors.Sqlite`	Semantic Kernel 與 SQLite 的向量存儲(chǔ)連接
`PdfPig`	PDF 文本抽取

這些依賴允許我們完成從 PDF 文檔讀取、文本切塊、生成向量、存儲(chǔ)和檢索的完整流程。

數(shù)據(jù)模型設(shè)計(jì)

首先，我們定義 PdfVector 類來(lái)描述向量數(shù)據(jù)庫(kù)中的記錄：

public class PdfVector
{
    [VectorStoreRecordKey]
    public ulong Key { get; set; }
 
    [VectorStoreRecordData]
    public string FileName { get; set; }
 
    [VectorStoreRecordData]
    public string Text { get; set; }
 
    [VectorStoreRecordVector(384, DistanceFunction.EuclideanDistance)]
    public ReadOnlyMemory<float> Vector { get; set; }
}

Key：唯一 ID。
FileName：PDF 文件名。
Text：文本塊。
Vector：文本向量表示，維度 384，使用歐氏距離計(jì)算相似度。

這些屬性通過 Semantic Kernel 的特性標(biāo)記，自動(dòng)映射到向量存儲(chǔ)。

初始化 SQLite 向量存儲(chǔ)

首先創(chuàng)建 SQLite 數(shù)據(jù)庫(kù)，并加載向量擴(kuò)展 vec0.dll：

const string databasePath = "pdf_vectors.db";
if (!File.Exists(databasePath))
{
    File.Create(databasePath).Dispose();
}
 
using var connection = new SqliteConnection($"Data Source={databasePath};");
await connection.OpenAsync();
 
connection.EnableExtensions(true);
connection.LoadExtension("./extensions/vec0.dll"); // 確保 vec0.dll 在項(xiàng)目目錄

創(chuàng)建向量集合：

var vectorStore = new SqliteVectorStore(connection);
var pdfsCollection = vectorStore.GetCollection<ulong, PdfVector>("pdfs");
await pdfsCollection.CreateCollectionIfNotExistsAsync();

SqliteVectorStore 用于管理向量數(shù)據(jù)。
pdfs 集合用于存儲(chǔ) PDF 文本向量。

PDF 文本抽取與切塊

為了向量化，我們需要先從 PDF 中提取文本，并將其切成適合的塊：

static List<string> ExtractPdfChunks(string filePath, int chunkSize = 500)
{
    var textBuilder = new StringBuilder();
 
    using var pdf = UglyToad.PdfPig.PdfDocument.Open(filePath);
    foreach (var page in pdf.GetPages())
        textBuilder.AppendLine(page.Text);
 
    string fullText = textBuilder.ToString();
 
    var chunks = new List<string>();
    for (int i = 0; i < fullText.Length; i += chunkSize)
    {
        int length = Math.Min(chunkSize, fullText.Length - i);
        chunks.Add(fullText.Substring(i, length));
    }
 
    return chunks;
}

使用 PdfPig 打開 PDF。
將每頁(yè)文本拼接成完整文本。
按固定長(zhǎng)度（默認(rèn) 500 字符）切分成塊，便于向量化。

使用 Ollama 生成文本向量

我們使用 OllamaEmbeddingGenerator 將文本塊轉(zhuǎn)成向量：

IEmbeddingGenerator<string, Embedding<float>> generator =
    new OllamaEmbeddingGenerator(new Uri("http://localhost:11434/"), "all-minilm:latest");

連接到本地 Ollama 服務(wù)。
"all-minilm:latest" 是嵌入模型。
GenerateEmbeddingVectorAsync 將文本塊生成浮點(diǎn)向量。

存儲(chǔ)向量到數(shù)據(jù)庫(kù)

遍歷 PDF 文件并存儲(chǔ)向量：

ulong keyCounter = 0;
 
foreach (var file in pdfFiles)
{
    var chunks = ExtractPdfChunks(file);
 
    foreach (var chunk in chunks)
    {
        var vector = await generator.GenerateEmbeddingVectorAsync(chunk);
        var record = new PdfVector
        {
            Key = keyCounter++,
            FileName = Path.GetFileName(file),
            Text = chunk,
            Vector = vector
        };
        await pdfsCollection.UpsertAsync(record);
        Console.WriteLine($"Upserted chunk from {record.FileName}");
    }
}

每個(gè)文本塊生成向量。
創(chuàng)建 PdfVector 對(duì)象并插入/更新數(shù)據(jù)庫(kù)。

向量搜索示例

向量搜索可以直接返回語(yǔ)義相關(guān)的 PDF 文本塊：

Console.WriteLine("Enter your question:");
var query = Console.ReadLine();
var queryEmbedding = await generator.GenerateEmbeddingVectorAsync(query);
 
var searchOptions = new VectorSearchOptions
{
    Top = 3,
    VectorPropertyName = "Vector"
};
 
var results = await pdfsCollection.VectorizedSearchAsync(queryEmbedding, searchOptions);
 
await foreach (var result in results.Results)
{
    Console.WriteLine($"File: {result.Record.FileName}");
    Console.WriteLine($"Text: {result.Record.Text}");
    Console.WriteLine($"Score: {result.Score}");
    Console.WriteLine(new string('-', 50));
}

將用戶輸入的查詢文本轉(zhuǎn)為向量。
使用 VectorizedSearchAsync 查詢最相似的文本塊。
輸出文件名、文本和相似度評(píng)分。

總結(jié)

通過這篇文章，你學(xué)會(huì)了如何使用 C# 和 Semantic Kernel：

從 PDF 提取文本。
對(duì)文本進(jìn)行切塊。
使用 Ollama 模型生成文本向量。
使用 SQLite 向量存儲(chǔ)管理向量數(shù)據(jù)。
基于向量實(shí)現(xiàn)語(yǔ)義搜索。

這個(gè)系統(tǒng)可擴(kuò)展性強(qiáng)，例如：

支持 DOCX、TXT 等多種文件。
可以將向量存儲(chǔ)遷移到 Postgres、FAISS 或 Milvus。
可結(jié)合大語(yǔ)言模型回答問題，實(shí)現(xiàn) PDF 問答機(jī)器人。

以上就是使用C#構(gòu)建一個(gè)PDF向量搜索系統(tǒng)的詳細(xì)內(nèi)容，更多關(guān)于C# PDF向量搜索系統(tǒng)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

使用C#構(gòu)建一個(gè)PDF向量搜索系統(tǒng)

目錄

引言

技術(shù)棧與依賴

數(shù)據(jù)模型設(shè)計(jì)

初始化 SQLite 向量存儲(chǔ)

PDF 文本抽取與切塊

使用 Ollama 生成文本向量

存儲(chǔ)向量到數(shù)據(jù)庫(kù)

向量搜索示例

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

使用C#構(gòu)建一個(gè)PDF向量搜索系統(tǒng)

目錄

引言

技術(shù)棧與依賴

數(shù)據(jù)模型設(shè)計(jì)

初始化 SQLite 向量存儲(chǔ)

PDF 文本抽取與切塊

使用 Ollama 生成文本向量

存儲(chǔ)向量到數(shù)據(jù)庫(kù)

向量搜索示例

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕