本發明涉及輻射,特別涉及一種天然氣客戶用氣非結構化的數據抽取方法及裝置。
背景技術:
1、為實現天然氣價值最大化,深入理解客戶用氣特性、創建知識圖譜變得至關重要,不僅有助于銷售公司優化供應鏈,還能增強服務質量,提升用戶滿意度,增強天然氣銷售公司的競爭優勢。信息采集及抽取是客戶特性分析及創建知識圖譜的第一步且是關鍵的技術基礎,結構化的數據采集清洗技術已非常成熟,非結構化的數據抽取及轉換與文檔內容及目標數據格式高度相關,抽取過程存在一定復雜性,通用性較差,如果抽取質量較差將極大降低后續客戶特性分析及知識圖譜創建的效果。因此如何針對天然氣客戶的非結構化數據進行自動抽取及轉換為結構化的數據成為亟待解決的問題。
技術實現思路
1、鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種天然氣客戶用氣非結構化的數據抽取方法及裝置。
2、第一方面,本發明實施例提供了一種天然氣客戶用氣非結構化的數據抽取方法,包括:
3、獲取客戶用氣數據的文本,將所述客戶用氣數據的文本轉換成字符串;
4、從轉換后得到的字符串中提取出客戶用氣粗粒度數據;
5、根據提取內容的類型,將所述客戶用氣粗粒度數據劃分為多個類別,分別對各類別下的所述客戶用氣粗粒度數據進行處理,得到各類別下的結構化的數據;所述多個類別包括:描述類文本、表格類文本和閱讀理解類文本。
6、在一個實施例中,所述從轉換后得到的字符串中提取出客戶用氣粗粒度數據,包括:
7、對所述轉換后得到的字符串進行分割;
8、根據預設的條件,對分割后的字符串進行篩選,得到所述客戶用氣粗粒度數據。
9、在一個實施例中,所述類別為描述類文本,對描述類文本類別下的所述客戶用氣粗粒度數據進行處理,得到描述類文本類別下的結構化的數據,包括:
10、對所述客戶用氣粗粒度數據進行清洗,去除預設的特殊字符及不符合預設規則的字符,得到描述類文本類別下的結構化的數據。
11、在一個實施例中,所述類別為表格類文本,對表格類文本類別下的所述客戶用氣粗粒度數據進行處理,得到表格類文本類別下的結構化的數據,包括:
12、將客戶用氣粗粒度數據與預設的目標字段進行對應,得到所述表格類數據與預設的目標字段之間的對應關系;
13、獲取所述表格類數據在所述客戶用氣粗粒度數據中的位置;
14、獲取除預設的特殊行之外的所述客戶用氣粗粒度數據;
15、根據所述客戶用氣粗粒度數據與預設的目標字段之間的對應關系,將所述客戶用氣粗粒度數據拼接成一條整表格類數據,所述整表格類數據作為表格類文本類別下的結構化的數據。
16、在一個實施例中,所述類別為閱讀理解類文本,對閱讀理解類文本下的所述客戶用氣粗粒度數據進行處理,得到閱讀理解類文本類別下的結構化的數據,包括:
17、獲得同類的粗粒度文本數據;
18、按照預設的比例,將所述粗粒度文本數據分為訓練集數據和驗證集數據;
19、對所述訓練集數據,采用bieso的標注方式對所述粗粒度文本數據中的各種實體進行標注;
20、將標注后的數據輸入預訓練的bert中文預訓練模型獲得對應的文字向量序列;
21、將獲得的文字向量序列輸入至高效全局指針模型中進行頭實體和尾實體的關系的提取;
22、將訓練集劃分為多個批次,對高效全局指針模型進行訓練,并通過降低損失函數對模型進行優化,并利用驗證集數據對全局高效指針模型進行預測,獲得對應的頭實體、尾實體、實體的頭部關系和實體的尾部關系,通過精確率、召回率和f1值評估預測結果,直至達到預設的預測結果;
23、利用訓練完成的高效全局指針模型,輸出所述閱讀理解類文本數據對應的頭實體、尾實體、實體頭部和實體尾部關系的結構數據。
24、第二方面,本發明實施例提供了一種天然氣客戶用氣非結構化的數據抽取裝置,包括:
25、獲取模塊,用于獲取客戶用氣數據的文本,將所述客戶用氣數據的文本轉換成字符串;
26、粗提取模塊,用于從轉換后得到的字符串中提取出客戶用氣粗粒度數據;
27、分類處理模塊,用于根據提取內容的類型,將所述客戶用氣粗粒度數據劃分為多個類別,分別對各類別下的所述客戶用氣粗粒度數據進行處理,得到各類別下的結構化的數據;所述多個類別包括:描述類文本、表格類文本和閱讀理解類文本。
28、在一個實施例中,所述裝置還包括:
29、分割模塊,用于對所述轉換后得到的字符串進行分割;
30、篩選模塊,用于根據預設的條件,對所述分割后的字符串進行篩選,得到所述粗粒度數據。
31、在一個實施例中,所述裝置還包括:
32、描述類文本模塊,用于對描述類文本類別下的所述粗粒度數據進行處理,得到描述類文本類別下的結構化的數據;
33、表格類文本模塊,用于對表格類文本類別下的所述粗粒度數據進行處理,得到表格類文本類別下的結構化的數據;
34、閱讀理解類模塊,用于對閱讀理解類文本下的所述粗粒度數據進行處理,得到閱讀理解類文本類別下的結構化的數據。
35、第三方面,本發明實施例提供了一種計算設備,包括:存儲器、處理器及存儲于存儲器上并可在處理器上運行的計算機程序,所述處理器執行的所屬程序時實現所述的一種天然氣客戶用氣非結構化的數據抽取方法。
36、第四方面,本發明實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現所述的一種天然氣客戶用氣非結構化的數據抽取方法。
37、本發明實施例提供的上述技術方案的有益效果至少包括:
38、本發明實施例提供了一種天然氣客戶用氣非結構化的數據抽取方法,包括:獲取客戶用氣數據的文本,將客戶用氣數據的文本轉換成字符串;從轉換后得到的字符串中提取出客戶用氣粗粒度數據;根據提取內容的類型,將客戶用氣粗粒度數據劃分為多個類別,分別對各類別下的客戶用氣粗粒度數據進行處理,得到各類別下的結構化的數據;多個類別包括:描述類文本、表格類文本和閱讀理解類文本。本發明實施例通過先獲取客戶用氣數據的文本,后根據目標字段類型采用不同數據結構化方式,實現了根據天然氣客戶數據文檔特點確定抽取方法,快速高效精準的獲取了天然氣客戶用氣數據,為后續進行天然氣客戶特性分析及知識圖譜創建提供了高質量數據。
39、本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
40、下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
1.一種天然氣客戶用氣非結構化的數據抽取方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述從轉換后得到的字符串中提取出客戶用氣粗粒度數據,包括:
3.如權利要求1所述的方法,其特征在于,所述類別為描述類文本,對描述類文本類別下的所述客戶用氣粗粒度數據進行處理,得到描述類文本類別下的結構化的數據,包括:
4.如權利要求1所述的方法,其特征在于,所述類別為表格類文本,對表格類文本類別下的所述客戶用氣粗粒度數據進行處理,得到表格類文本類別下的結構化的數據,包括:
5.如權利要求1所述的方法,其特征在于,所述類別為閱讀理解類文本,對閱讀理解類文本下的所述客戶用氣粗粒度數據進行處理,得到閱讀理解類文本類別下的結構化的數據,包括:
6.一種天然氣客戶用氣非結構化的數據抽取裝置,其特征在于,包括:
7.如權利要求6所述的裝置,其特征在于,所述裝置還包括:
8.如權利要求6所述的裝置,其特征在于,所述裝置還包括:
9.一種計算設備,其特征在于,包括:存儲器、處理器及存儲于存儲器上并可在處理器上運行的計算機程序,所述處理器執行的所屬程序時實現權利要求1-5任一項所述的一種天然氣客戶用氣非結構化的數據抽取方法。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現權利要求1-5任一項所述的一種天然氣客戶用氣非結構化的數據抽取方法。