ChatGPTで RAGへの学習方法について

色々な情報をChatGPT側に学習させて、自分用の知りたい回答を受けたい希望があり、その為にRAG(Retrieval-Augmented Generation) を利用するのですが、その際のデータ整備用に、自分の設計書や仕様データをベクトルDBに「学習(登録)」させる方法をメモします。


💻全体構成:ChatGPT + RAG の流れ

以下の流れは、c#、PyThon等のプログラムで自動化ができます。

●登録側
テキストへ編集する[設計書や仕様書(PDF/Word/Excel)]
↓ チャンク分割・前処理
[テキストのチャンク群]
↓ ベクトル化(埋め込み)
[ベクトルDB(FAISS/Chroma/Weaviateなど)]
●利用時

   ↑↓ 検索クエリを送る
[近い文脈] → ChatGPT に送信 → 回答生成

👉 RAGの学習=「文脈を事前に登録して検索可能にする」だけ

  • GPTは設計書そのものを「学習(重み変更)」するのではなし。
  • 設計書を検索できるように「ベクトルで登録」し、クエリ時に「文脈」として送るのがポイント。

ベクトルDBの選択肢

DB名特徴
FAISS軽量でローカルOK、導入簡単
ChromaRAG特化、LangChainと親和性高
WeaviateHTTP API対応、拡張性高
Pinecone商用利用・スケーラブル

💻応用例

利用目的登録内容クエリ例
設計書レビューの自動回答機能仕様書・画面設計書「この機能F001の出力項目は?」
コーディングアシスタント自社のコーディングルール、ログ仕様「ログ出力方法を標準に合わせて教えて」
開発者Q&Aチャットボット(社内用)設計書+ルール+用語集+エラーパターン「登録画面でエラーが出たときの対応は?」

上記の手順と応用例から、プログラム化及びデータの整備を進めていきたいです。

Share this content:

コメントを送信

CAPTCHA