ChatGPTで RAGへの学習方法について
色々な情報をChatGPT側に学習させて、自分用の知りたい回答を受けたい希望があり、その為にRAG(Retrieval-Augmented Generation) を利用するのですが、その際のデータ整備用に、自分の設計書や仕様データをベクトルDBに「学習(登録)」させる方法をメモします。
💻全体構成:ChatGPT + RAG の流れ
以下の流れは、c#、PyThon等のプログラムで自動化ができます。
●登録側
テキストへ編集する[設計書や仕様書(PDF/Word/Excel)]
↓ チャンク分割・前処理
[テキストのチャンク群]
↓ ベクトル化(埋め込み)
[ベクトルDB(FAISS/Chroma/Weaviateなど)]
●利用時
↑↓ 検索クエリを送る
[近い文脈] → ChatGPT に送信 → 回答生成
👉 RAGの学習=「文脈を事前に登録して検索可能にする」だけ
- GPTは設計書そのものを「学習(重み変更)」するのではなし。
- 設計書を検索できるように「ベクトルで登録」し、クエリ時に「文脈」として送るのがポイント。
ベクトルDBの選択肢
DB名 | 特徴 |
---|---|
FAISS | 軽量でローカルOK、導入簡単 |
Chroma | RAG特化、LangChainと親和性高 |
Weaviate | HTTP API対応、拡張性高 |
Pinecone | 商用利用・スケーラブル |
💻応用例
利用目的 | 登録内容 | クエリ例 |
---|---|---|
設計書レビューの自動回答 | 機能仕様書・画面設計書 | 「この機能F001の出力項目は?」 |
コーディングアシスタント | 自社のコーディングルール、ログ仕様 | 「ログ出力方法を標準に合わせて教えて」 |
開発者Q&Aチャットボット(社内用) | 設計書+ルール+用語集+エラーパターン | 「登録画面でエラーが出たときの対応は?」 |
上記の手順と応用例から、プログラム化及びデータの整備を進めていきたいです。
Share this content:
コメントを送信