国产精品无码一区二区三级,免费无码又爽又刺激网站,女人18一级毛片免费观看,久青草国产在线观看,91网在线,大桥未久亚洲一区二区,国产午睡沙发系列大全,免费无码又爽又刺激高潮的视频免费

      大模型訓練數據增強方法與流程

      文檔序號:42327292發布日期:2025-07-01 19:47閱讀:32來源:國知局

      本申請涉及數據增強領域,且更為具體地,涉及一種大模型訓練數據增強方法。


      背景技術:

      1、隨著人工智能技術的快速發展,大模型(如大規模預訓練語言模型、視覺模型等)在各類任務中展現出卓越的性能。然而,這些大模型的訓練通常依賴于海量且高質量的訓練數據。由于真實世界中高質量標注數據獲取成本高昂,且樣本分布可能存在偏差,如何通過數據增強手段擴充和豐富訓練集,提升模型泛化能力和魯棒性,成為當前大模型訓練領域亟需解決的重要問題。因此,構建有效的大模型訓練數據增強方案,對于緩解數據稀缺、提升大模型性能具有重要意義。

      2、目前,在大模型領域已有部分針對數據增強的探索。例如,通過回譯、同義替換、混合樣本等傳統方法進行文本或圖像的數據擴展;或者利用生成式ai對原始樣本進行改寫與擴充。這些方法雖然能夠一定程度上增加樣本多樣性,但往往存在如下不足:一方面,傳統的數據增強方式較為簡單,難以充分挖掘和保持原始語義結構;另一方面,即便采用生成式ai輔助生成新樣本,也容易出現語義漂移——即新生成的數據與原始任務需求之間產生了不可控的語義偏離,從而影響后續大模型的學習效果。此外,目前缺乏對增強后樣本與原始語料之間關系進行顯性建模和量化評估的方法,使得難以自動篩選出真正有助于提升模型能力的新樣本。

      3、因此,期待一種優化的大模型訓練數據增強方法。


      技術實現思路

      1、為了解決上述技術問題,提出了本申請。本申請的實施例提供了一種大模型訓練數據增強方法,其首先以原始訓練樣本為基礎,通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎上,引入結構化編碼機制,將原始與生成樣本轉化為結構化編碼向量,并對生成樣本與原始樣本之間的語義關系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設閾值之間的比較,實現對生成數據是否合格的自動判別。通過這樣的方式,實現了對新舊訓練數據之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數據偏離任務目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質量增強樣本。

      2、根據本申請的一個方面,提供了一種大模型訓練數據增強方法,其包括:

      3、獲取原始訓練樣本數據的集合;

      4、從原始訓練樣本數據的集合隨機挑選一個原始訓練樣本數據作為增強樣本素材數據;

      5、將增強樣本素材數據輸入基于大模型的數據增強引擎以得到生成訓練樣本數據;

      6、對原始訓練樣本數據的集合和生成訓練樣本數據進行訓練樣本語義漂移查詢響應分析以得到生成訓練樣本語義漂移查詢響應編碼向量作為生成訓練樣本語義偏移度量表征;

      7、基于生成訓練樣本語義偏移度量表征,確定是否將生成訓練樣本數據視為合格訓練樣本數據。

      8、與現有技術相比,本申請提供的一種大模型訓練數據增強方法,其首先以原始訓練樣本為基礎,通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎上,引入結構化編碼機制,將原始與生成樣本轉化為結構化編碼向量,并對生成樣本與原始樣本之間的語義關系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設閾值之間的比較,實現對生成數據是否合格的自動判別。通過這樣的方式,實現了對新舊訓練數據之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數據偏離任務目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質量增強樣本。



      技術特征:

      1.一種大模型訓練數據增強方法,其特征在于,包括:

      2.根據權利要求1所述的大模型訓練數據增強方法,其特征在于,對原始訓練樣本數據的集合和生成訓練樣本數據進行訓練樣本語義漂移查詢響應分析以得到生成訓練樣本語義漂移查詢響應編碼向量作為生成訓練樣本語義偏移度量表征,包括:

      3.根據權利要求2所述的大模型訓練數據增強方法,其特征在于,對原始訓練樣本數據的集合和生成訓練樣本數據進行結構化編碼以得到原始訓練樣本結構化編碼向量的集合和生成訓練樣本結構化編碼向量,包括:

      4.根據權利要求3所述的大模型訓練數據增強方法,其特征在于,將查詢向量和原始訓練樣本結構化編碼向量的集合輸入語義漂移顯性建模網絡以得到生成訓練樣本語義漂移查詢響應編碼向量,包括:

      5.根據權利要求4所述的大模型訓練數據增強方法,其特征在于,對原始訓練樣本特征濃縮編碼向量的集合進行基于門控機制的圖結構編碼以得到原始訓練樣本特征仿圖譜編碼矩陣,包括:

      6.根據權利要求5所述的大模型訓練數據增強方法,其特征在于,將查詢向量和原始訓練樣本特征仿圖譜編碼矩陣輸入特征查詢響應引擎以得到生成訓練樣本語義漂移查詢響應編碼向量,包括:

      7.根據權利要求1所述的大模型訓練數據增強方法,其特征在于,基于生成訓練樣本語義偏移度量表征,確定是否將生成訓練樣本數據視為合格訓練樣本數據,包括:

      8.根據權利要求7所述的大模型訓練數據增強方法,其特征在于,對生成訓練樣本語義漂移查詢響應編碼向量進行特征解碼以得到語義漂移度的估計值,包括:


      技術總結
      本申請公開了一種大模型訓練數據增強方法,其首先以原始訓練樣本為基礎,通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎上,引入結構化編碼機制,將原始與生成樣本轉化為結構化編碼向量,并對生成樣本與原始樣本之間的語義關系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設閾值之間的比較,實現對生成數據是否合格的自動判別。通過這樣的方式,實現了對新舊訓練數據之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數據偏離任務目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質量增強樣本。

      技術研發人員:齊紅威,何鴻凌,豐強澤,王大亮,高禹,鄭繼龍
      受保護的技術使用者:數據堂(北京)科技股份有限公司
      技術研發日:
      技術公布日:2025/6/30
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1
      主站蜘蛛池模板: 开心五月婷婷丁香综合| 欧美h久免费女| 久久久婷婷综合亚洲av| 庆阳市| 国产女人看国产在线女人| av一区二区三区免费不卡| 国产精品自线在线播放| 日本嗯啊在线观看| 国产盗摄老熟女视频一区二区三区 | 日本熟女人妻一区二区三区| 亚洲国产精品成人久久av| 日本色偷偷| 日韩久久av电影| 成人综合亚洲欧美一区h| yw193.can尤物国产在线网页| 龙州县| 舒城县| 张家港市| 鄱阳县| 国产在线观看网址不卡一区| 京山县| 繁峙县| 国产精品亚洲一区二区毛片| 阿拉善右旗| 狠狠一本天堂亚洲综合十八禁| 亚洲精品国产主播一区二区| 亚洲女同视频在线观看| 色婷婷亚洲十月十月色天| 99久久精品国产毛片| 99久久综合国产精品免费| 亚洲av成人在线网站| 精精国产xxx在线视频app| 蜜桃av无码免费看永久| 国产av专区一区二区三区| 成人自拍视频国产一区| 女同在线观看免费网站| 日本一区二区三区四区看片| 国产高清精品在线二区| 久久国产亚洲一区二区三区 | 日本岛国大片不卡人妻| 日韩精人妻无码一区二区三区|