本發明涉及智能售貨,尤其涉及一種基于多模態數據處理的多目標商品識別方法、裝置及系統。
背景技術:
1、智能售貨柜作為一種常見的無人售貨設備,廣泛應用于多個領域,如購物、食品、飲料和日常用品等。傳統的智能售貨柜主要依靠條形碼或二維碼掃描來識別商品,這種方式通常依賴人工輸入商品信息并進行標簽匹配。然而,這種方法存在局限性,例如對商品的遮擋、重疊或者位置變化等情況無法有效識別。此外,手動標注的標簽信息容易出現錯誤,尤其在商品更新頻繁的情況下,造成售貨柜無法及時適應新商品的展示和識別。因此,如何高效、精準地在動態環境下進行商品識別,尤其是處理多個商品目標同時出現、遮擋和重疊等復雜場景,成為智能售貨柜智能化升級的核心問題。
2、現有技術在多商品目標的識別中通常依賴于單一的視覺信息或者文本信息,難以應對動態交易場景下的復雜情況。例如,基于傳統的圖像識別方法,模型在處理遮擋和重疊商品時,容易出現錯誤識別或漏識別現象。同時,文本信息提取也面臨著標簽不清晰、模糊或位置變化的挑戰,且現有方法多為單一模態的處理,缺乏對視覺信息、空間信息及語義信息的綜合分析。因此,現有技術無法滿足智能售貨柜在復雜場景下的實時、準確商品識別需求。
3、現有中國專利cn114445201a公開了一種基于多模態預訓練模型的組合商品檢索方法及系統,包括:將商品圖像劃分為單品圖像和組合品圖像;訓練一個組合商品圖像檢測器;獲取并結合組合商品圖像中文本模態和圖片模塊的特征編碼、位置編碼和分段編碼,學習嵌入表示,并輸入構建好的多模態預訓練模型;采用多模態預訓練模型提取單品圖像的圖片模態和文本模態的檢索特征;多模態預訓練模型根據組合品圖像中每個目標商品的邊界框及邊界框特征,提取組合品圖像圖文融合的檢索特征,計算組合品特征與檢索庫中單品特征的預先距離作為商品相似度,選取最相似的單品作為結果返回。上述專利方案無法準確地處理商品之間的遮擋、重疊等情況,以及無法應對不同商品特征和文本描述之間的差異性,因此,難以保證在實際場景中準確地進行商品識別。
4、為此,如何在多目標場景下準確地進行商品識別是亟待解決的問題。
技術實現思路
1、有鑒于此,本發明提供了一種基于多模態數據處理的多目標商品識別方法、裝置及系統,用以解決現有技術中無法在多目標場景下準確地進行商品識別的問題。
2、本發明采用的技術方案是:
3、第一方面,本發明提供了一種基于多模態數據處理的多目標商品識別方法,所述方法包括:
4、獲取商品交易場景下的實時視頻數據,將所述實時視頻數據分解為多幀實時圖像;
5、對所述實時圖像進行預處理和標簽信息提取,確定預處理后的目標圖像和商品標簽對應的文字信息;
6、對所述目標圖像進行實例分割,確定商品位置信息;
7、根據所述商品位置信息,對所述目標圖像進行特征提取,確定商品圖像特征信息;
8、根據預收集的智能售貨場景下的多源私有化數據,對開源多模態視覺語言模型進行微調與優化處理,得到用于商品識別的多模態大模型;
9、將所述商品圖像特征信息和所述文字信息輸入所述多模態大模型中進行信息融合,根據融合特征信息,確定商品目標識別結果。
10、優選地,所述對所述實時圖像進行預處理和標簽信息提取,確定預處理后的目標圖像和商品標簽對應的文字信息包括:
11、對所述實時圖像進行尺寸調整和降噪處理,確定所述目標圖像;
12、對所述目標圖像進行目標檢測,確定商品區域位置信息;
13、根據所述商品區域位置信息,通過光學字符識別技術對商品區域中的商品標簽進行處理,確定所述文字信息。
14、優選地,所述對所述目標圖像進行實例分割,確定商品位置信息包括:
15、根據所述商品區域位置信息,通過卷積神經網絡提取商品區域的特征信息,并根據提取出的特征信息確定候選區域;
16、通過實例分割網絡對所述候選區域進行處理,確定各商品目標對應的二值圖像;
17、利用后處理技術,對所述二值圖像進行處理,確定所述商品位置信息。
18、優選地,所述根據預收集的智能售貨場景下的多源私有化數據,對開源多模態視覺語言模型進行微調與優化處理,得到用于商品識別的多模態大模型包括:
19、根據預收集的智能售貨場景下的多源原始數據,對多源原始數據進行清洗和結構化處理,得到標注數據集;
20、根據標注數據集中的圖像信息與文本標簽,對圖文數據進行配對構建,并對其進行格式轉換與統一預處理,得到用于訓練的多模態輸入樣本集;
21、根據多模態輸入樣本集,對開源視覺語言預訓練模型加載權重參數,并構建支持聯合優化的視覺編碼與語言編碼網絡結構,得到用于微調的多模態模型初始結構;
22、根據售貨場景特性與識別精度要求,對所述多模態模型初始結構執行微調訓練,并通過交叉驗證策略優化超參數配置,得到多個候選多模態模型;
23、根據預設的準確率、召回率和響應時間,對各所述候選多模態模型進行評估與比選,得到所述多模態大模型。
24、優選地,所述將所述商品圖像特征信息和所述文字信息輸入所述多模態大模型中進行信息融合,根據融合特征信息,確定商品目標識別結果包括:
25、將所述商品圖像特征信息和所述文字信息輸入所述多模態大模型中,得到融合圖像特征和文字語義的融合特征信息;
26、將所述融合特征信息輸入預訓練的商品分類模型中,得到初始商品類別;
27、根據所述初始商品類別,判斷當前初始商品類別中是否存在相似商品;
28、當存在相似商品時,根據所述初始商品類別,獲取待提取特征的局部區域和待提取的目標特征;
29、根據所述局部區域和所述目標特征,對所述目標圖像進行特征提取,得到局部區域特征信息;
30、根據所述局部區域特征信息,對所述初始商品類別進行分類,得到目標商品類別作為所述商品目標識別結果。
31、優選地,所述當存在相似商品時,根據所述初始商品類別,獲取待提取特征的局部區域和待提取的目標特征包括:
32、根據所述初始商品類別,從預設的商品圖像數據庫中選取該類別下的多個子類別分別對應的樣本圖像;
33、將各所述樣本圖像輸入預訓練的顯著性檢測模型中,得到顯著性熱圖,其中,所述顯著性熱圖用于表征樣本圖像中對視覺特征注意力最集中的區域;
34、對所述顯著性熱圖進行閾值分割,得到多個候選區域;
35、對各所述候選區域進行綜合評分,根據評分結果,從各所述候選區域中篩選得到所述局部區域;
36、對所述局部區域進行候選特征提取和特征評估,根據特征評估結果,從提取的候選特征中篩選得到所述目標特征。
37、優選地,所述對各所述候選區域進行綜合評分,根據評分結果,得到所述局部區域包括:
38、獲取各候選區域對應的顯著性熱圖中的顯著值;
39、根據各所述顯著值,計算各候選區域的平均顯著值作為顯著性評分值;
40、根據所述初始商品類別,將各所述樣本圖像輸入預訓練的圖像分類模型中,得到類別激活圖;
41、根據所述類別激活圖,獲取各樣本圖像在當前初始商品類別下的響應熱圖;
42、對各所述候選區域在所述響應熱圖中對應位置的像素進行統計,計算各候選區域的平均激活強度作為類別相關評分值;
43、對各候選區域的所述顯著性評分值與所述類別相關評分值進行加權融合,得到各候選區域的所述評分結果;
44、將各所述評分結果和預設的評分閾值進行比較,根據比較結果,從各候選區域中選取至少一個區域作為所述局部區域。
45、優選地,所述對所述局部區域進行候選特征提取和特征評估,根據特征評估結果,從提取的候選特征中篩選得到所述目標特征包括:
46、根據所述初始商品類別,獲取該類別對應的各候選特征對應的特征提取策略;
47、根據各所述特征提取策略,對所述局部區域進行多路徑特征提取,得到多個候選特征信息;
48、對各所述候選特征信息在各所述樣本圖像中進行分布一致性分析,獲取各候選特征信息在不同樣本圖像中出現的頻率與位置偏差作為分布一致性指標;
49、將各所述候選特征信息分別輸入預訓練的商品識別模型中,得到識別結果,并獲取所述識別結果對應的分類置信度作為各候選特征信息的分類響應強度;
50、根據所述的分布一致性指標與分類響應強度,對各所述候選特征信息進行評估,得到特征評估結果;
51、根據特征評估結果,從各所述候選特征信息中篩選出所述目標特征。
52、第二方面,本發明提供了一種基于多模態數據處理的多目標商品識別裝置,所述裝置包括:
53、實時圖像獲取模塊,用于獲取商品交易場景下的實時視頻數據,將所述實時視頻數據分解為多幀實時圖像;
54、預處理和標簽信息提取模塊,用于對所述實時圖像進行預處理和標簽信息提取,確定預處理后的目標圖像和商品標簽對應的文字信息;
55、實例分割模塊,用于對所述目標圖像進行實例分割,確定商品位置信息;
56、特征提取模塊,用于根據所述商品位置信息,對所述目標圖像進行特征提取,確定商品圖像特征信息;
57、多模態大模型訓練模塊,用于根據預收集的智能售貨場景下的多源私有化數據,對開源多模態視覺語言模型進行微調與優化處理,得到用于商品識別的多模態大模型;
58、商品識別模塊,用于將所述商品圖像特征信息和所述文字信息輸入所述多模態大模型中進行信息融合,根據融合特征信息,確定商品目標識別結果。
59、第三方面,本發明實施例還提供了一種基于多模態數據處理的多目標商品識別系統,包括:圖像采集設備、至少一個處理器、至少一個存儲器以及存儲在所述存儲器中的計算機程序指令,當所述計算機程序指令被所述處理器執行時實現如上述的方法。
60、綜上所述,本發明的有益效果如下:
61、本發明提供的基于多模態數據處理的多目標商品識別方法、裝置及系統,包括:獲取商品交易場景下的實時視頻數據,將所述實時視頻數據分解為多幀實時圖像;對所述實時圖像進行預處理和標簽信息提取,確定預處理后的目標圖像和商品標簽對應的文字信息;對所述目標圖像進行實例分割,確定商品位置信息;根據所述商品位置信息,對所述目標圖像進行特征提取,確定商品圖像特征信息;根據預收集的智能售貨場景下的多源私有化數據,對開源多模態視覺語言模型進行微調與優化處理,得到用于商品識別的多模態大模型;將所述商品圖像特征信息和所述文字信息輸入所述多模態大模型中進行信息融合,根據融合特征信息,確定商品目標識別結果。本發明從實時視頻數據中提取多幀圖像,并通過預處理與標簽信息提取,對每一幀圖像中的商品進行初步識別,提取商品標簽和對應文字信息,接著,通過實例分割技術對目標圖像進行處理,精準定位每個商品的邊界框并解決商品之間的遮擋問題,利用商品位置信息進一步提取圖像特征,包括視覺特征、空間特征和語義特征,通過多模態大模型進行信息融合,將商品圖像特征與提取的文本信息進行結合,提升對復雜商品目標的辨識能力,最后,基于圖像和文本信息的融合,模型能夠準確區分并識別出多個商品目標,即使在多個商品同時存在且存在部分重疊或遮擋的復雜環境中,仍能保持高效的識別性能,不僅提高了識別精度,還能夠在動態場景中穩定運行,滿足多目標識別需求。