近日,針對大型語言模型(LLM)在海洋領域的應用,中國水產科學研究院東海水產研究所漁業(yè)遙感技術及數字漁業(yè)創(chuàng)新團隊提出了一種針對垂直領域大型語言模型(LLM)的增強型檢索方案——BM-RAGAM(BM25檢索增強生成注意力機制)。該方案通過結合關鍵詞匹配和語義關聯的混合檢索策略,大幅提升了LLM在特定領域的信息檢索準確性和生成內容的可解釋性。該成果(DOI為10.3390/app142411529)發(fā)表在《應用科學》雜志上(Applied Sciences,JCR 1 區(qū))。東海所與浙江海洋大學的聯合培養(yǎng)研究生陳器為第一作者,周為峰研究員為通訊作者。
大型語言模型在處理特定領域的復雜查詢時,常常出現回答不準確甚至誤導用戶的現象,這種現象被稱為“幻覺”。為解決這一問題,研究團隊以海洋學中的“鋒面”和“渦旋”知識為例,開發(fā)了BM-RAGAM方案。BM-RAGAM方案的核心在于在本地部署向量化的知識庫的基礎之上結合了BM25算法和RAG技術,從而實現高效檢索和文本生成。實驗表明,BM-RAGAM方案在多個評估指標上顯著優(yōu)于基礎模型,不僅減少了幻覺現象,還提高了生成內容的準確性和專業(yè)性,特別適合海洋領域的問答系統(tǒng)搭建。BM-RAGAM方案為海洋領域LLM的應用提供了新的思路,未來有望進一步拓展到其他垂直領域。
該研究得到了國家重點研發(fā)計劃(2023YFD2401303)“基于數據驅動的遠洋漁情預報技術與服務系統(tǒng)”和中國水產科學研究院東海研究所基本科研業(yè)務費項目(2022ZD0402)的支持。
