本發明涉及數據處理,尤其涉及一種基于人工智能搜索引擎技術的數據智能處理方法。
背景技術:
1、人工智能搜索引擎是一種結合信息檢索和大語言模型的新一代搜索系統,例如deepseek、bing?chat、wolfram?alpha等,它利用自然語言處理(語義理解,例如區分“蘋果公司”和“水果蘋果”)、大語言模型(如gpt-4、gemini、claude等,用于生成回答、總結信息)、知識圖譜(結構化關聯人物、事件、地點等數據,提供直接答案)等技術,提升搜索的智能化、精準性和交互體驗:用戶在預先訓練好的大語言模型中輸入搜索內容,自然語言處理技術根據搜索內容生成搜索關鍵字或查詢語句,搜索引擎根據搜索關鍵字或查詢語句進行信息檢索,并將搜索到的結果返回給大語言模型,大語言模型根據接收到的結果進行整合分析后,最終輸出結果。
2、對于大語言模型,傳統方式下的大語言模型中的部分參數需要人工預先定義,但隨著數據場景的變化,人工預先定義的部分參數無法保證大語言模型的數據處理結果的準確性,例如金融評估模型,隨著市場環境、政策法規等因素不斷變化,傳統的金融評估模型需要人工不斷調整參數,使得金融評估模型的維護成本較高,且難以保證金融評估模型對數據處理的準確性。同時,在信息檢索方面,傳統的搜索引擎主要依賴于關鍵詞匹配,無法依賴歷史搜索記錄,使得語義理解能力較差,無法輸出用戶所需的結果,即輸出結果的準確性較差,進而導致用戶體驗感較差。例如,當用戶輸入“蘋果”時,搜索引擎無法準確判斷用戶是想了解水果“蘋果”的相關信息,還是科技公司“蘋果”的產品動態,導致搜索引擎將包含大量與用戶實際需求不相關的內容返回給大語言模型,導致大語言模型的輸出內容的定向準確度較差,需要用戶再次輸入限定詞,才能得到有價值的信息。
3、因此,如何提高人工智能搜索引擎技術中大語言模型的輸出結果的準確性成為亟需解決的問題。
技術實現思路
1、有鑒于此,本發明實施例提供了一種基于人工智能搜索引擎技術的數據智能處理方法,以解決如何提高人工智能搜索引擎技術中大語言模型的輸出結果的準確性的問題。
2、本發明實施例中提供了一種基于人工智能搜索引擎技術的數據智能處理方法,該方法包括以下步驟:
3、根據當前時刻下目標用戶在目標模型中輸入的搜索內容,提取出至少一個關鍵詞,針對任一關鍵詞,根據目標用戶在目標模型中的歷史搜索記錄,對所述任一關鍵詞進行語義聯合,得到所述任一關鍵詞的至少一個聯合語義,所述歷史搜索記錄包括目標用戶的歷史搜索內容對應的歷史關鍵詞,以及每個歷史關鍵詞對應的歷史網頁信息;
4、根據每個所述聯合語義中的歷史關鍵詞在歷史搜索記錄中的出現頻率,獲取每個所述聯合語義的聯合系數,根據所述歷史搜索記錄中每個含有所述聯合語義的歷史網頁信息,以及每個所述聯合語義的聯合系數,獲取所述任一關鍵詞的目標聯合語義;
5、根據每個關鍵詞的目標聯合語義,獲取每個目標聯合語義的實時網頁信息,根據每個目標聯合語義的歷史網頁信息與實時網頁信息之間的差異,對目標模型中的參數進行更新,得到更新后的目標模型,根據更新后的目標模型,輸出所述搜索內容對應的搜索結果。
6、優選的,所述根據每個所述聯合語義中的歷史關鍵詞在歷史搜索記錄中的出現頻率,獲取每個所述聯合語義的聯合系數,包括:
7、針對任一聯合語義,在所述歷史搜索記錄中,獲取所述任一聯合語義中的歷史關鍵詞的至少一條目標搜索記錄,以及每條所述目標搜索記錄的時間戳,計算每條所述目標搜索記錄的時間戳與當前時刻之間的時間間隔,將每個所述時間間隔的倒數進行線性歸一化,得到每條所述目標搜索記錄的時間特征值;
8、計算所有目標搜索記錄的數量在所有歷史搜索記錄的數量中的占比,得到所述任一聯合語義中的歷史關鍵詞的搜索頻率;
9、對所述搜索頻率與所有目標搜索記錄的時間特征值的平均值進行加權求和,得到所述任一聯合語義的聯合系數。
10、優選的,所述根據所述歷史搜索記錄中每個含有所述聯合語義的歷史網頁信息,以及每個所述聯合語義的聯合系數,獲取所述任一關鍵詞的目標聯合語義,包括:
11、針對任一聯合語義,在所述歷史搜索記錄中,獲取所有含有所述任一聯合語義的歷史網頁信息的數量,得到所述任一聯合語義的網頁信息數量,獲取所述任一關鍵詞的所有聯合語義的網頁信息數量,計算所述任一聯合語義的網頁信息數量在所述任一關鍵詞的所有聯合語義的網頁信息數量中的占比,得到所述任一聯合語義的網頁頻率;
12、對所述任一聯合語義的網頁頻率進行線性歸一化,得到網頁頻率歸一化值,計算所述任一聯合語義的網頁頻率歸一化值與聯合系數之間的乘積,得到所述任一聯合語義的預期可能概率;
13、獲取所述任一關鍵詞的所有聯合語義的預期可能概率,根據所述任一關鍵詞的所有聯合語義的預期可能概率,獲取所述任一關鍵詞的目標聯合語義。
14、優選的,所述根據所述任一關鍵詞的所有聯合語義的預期可能概率,獲取所述任一關鍵詞的目標聯合語義,包括:
15、在所述任一關鍵詞的所有聯合語義的預期可能概率中,選擇最大值對應的聯合語義作為所述任一關鍵詞的目標聯合語義。
16、優選的,所述根據每個目標聯合語義的歷史網頁信息與實時網頁信息之間的差異,對目標模型中的參數進行更新,得到更新后的目標模型,包括:
17、針對任一實時網頁信息,在所述歷史搜索記錄中,獲取不同時間戳下與所述任一實時網頁信息的網址相同的目標歷史網頁信息,將所述任一實時網頁信息與所述目標歷史網頁信息組成待分析網頁信息;
18、根據每個所述待分析網頁信息對應的時間戳,對每相鄰兩個時間戳對應的兩個待分析網頁信息進行文本比對,得到每相鄰兩個時間戳對應的兩個待分析網頁信息的對比文件,根據每個所述對比文件中的差異數據的分布情況,獲取每個所述對比文件的信息差異度;
19、根據所有對比文件的信息差異度,判斷所述任一實時網頁信息是否發生數據變化,若所述任一實時網頁信息發生數據變化,則將所述任一實時網頁信息記為目標模型的更新數據來源網頁信息;
20、獲取所有更新數據來源網頁信息,根據所有更新數據來源網頁信息,對目標模型中的參數進行更新,得到更新后的目標模型。
21、優選的,所述根據每個所述對比文件中的差異數據的分布情況,獲取每個所述對比文件的信息差異度,包括:
22、針對任一對比文件,若所述任一對比文件中不存在差異數據,則將所述任一對比文件的信息差異度設置為0;
23、若所述任一對比文件中存在差異數據,則將常數1減去所述任一對比文件中所有差異數據的數量的倒數,得到所述任一對比文件的第一差異度;
24、在所述任一對比文件中,獲取每相鄰兩個差異數據之間的字符數量,將常數1減去所有字符數量的平均值的倒數,得到所述任一對比文件的第二差異度;
25、計算所述第一差異度與所述第二差異度之間的平均數,得到所述任一對比文件的信息差異度。
26、優選的,所述根據所有對比文件的信息差異度,判斷所述任一實時網頁信息是否發生數據變化,包括:
27、在所有信息差異度中,獲取每個所述信息差異度的出現次數,將最大出現次數對應的信息差異度作為信息差異度閾值;
28、若所述任一實時網頁信息對應的對比文件的信息差異度大于所述信息差異度閾值,則確定所述任一實時網頁信息發生數據變化;
29、若所述任一實時網頁信息對應的對比文件的信息差異度小于或等于所述信息差異度閾值,則確定所述任一實時網頁信息沒有發生數據變化。
30、優選的,所述獲取所有更新數據來源網頁信息之后,還包括:
31、若不存在更新數據來源網頁信息,則根據目標模型輸出所述搜索內容對應的搜索結果。
32、本發明實施例與現有技術相比存在的有益效果是:
33、本發明根據當前時刻下目標用戶在目標模型中輸入的搜索內容,提取出至少一個關鍵詞,針對任一關鍵詞,根據目標用戶在目標模型中的歷史搜索記錄,對所述任一關鍵詞進行語義聯合,得到所述任一關鍵詞的至少一個聯合語義,所述歷史搜索記錄包括目標用戶的歷史搜索內容對應的歷史關鍵詞,以及每個歷史關鍵詞對應的歷史網頁信息;根據每個所述聯合語義中的歷史關鍵詞在歷史搜索記錄中的出現頻率,獲取每個所述聯合語義的聯合系數,根據所述歷史搜索記錄中每個含有所述聯合語義的歷史網頁信息,以及每個所述聯合語義的聯合系數,獲取所述任一關鍵詞的目標聯合語義;根據每個關鍵詞的目標聯合語義,獲取每個目標聯合語義的實時網頁信息,根據每個目標聯合語義的歷史網頁信息與實時網頁信息之間的差異,對目標模型中的參數進行更新,得到更新后的目標模型,根據更新后的目標模型,輸出所述搜索內容對應的搜索結果。其中,結合目標用戶的歷史搜索記錄,對目標用戶在當前時刻搜索的內容進行語義聯合,得到更加符合用戶需求的目標聯合語義,提高搜索引擎的搜索效率,進而提高目標模型輸出內容的定向準確度;同時,根據每個目標聯合語義的實時網頁信息,對目標模型中的參數進行實時更新,提高目標模型的輸出結果的準確性和實時性。