崔丁潔,徐 冰
(哈爾濱工業(yè)大學(xué) 計(jì)算學(xué)部,哈爾濱 150001)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)用戶的溝通方式發(fā)生了明顯變化,越來(lái)越多的用戶喜歡通過(guò)網(wǎng)絡(luò)論壇、博客、微博、社交網(wǎng)站等網(wǎng)絡(luò)平臺(tái)瀏覽、發(fā)布和轉(zhuǎn)發(fā)消息,以此與其他用戶進(jìn)行交流。網(wǎng)絡(luò)上出現(xiàn)了越來(lái)越多用戶生成的內(nèi)容,逐漸形成了草根創(chuàng)作、廣泛參與、多元互動(dòng)的網(wǎng)絡(luò)傳播新局面。這不僅拓展了文化產(chǎn)品生產(chǎn)、傳播的深度和廣度,也為主流價(jià)值觀傳播提供了新的路徑。
主流價(jià)值觀是國(guó)家文化軟實(shí)力的重要體現(xiàn),其傳播的廣度和踐行的深度直接影響著國(guó)家意識(shí)形態(tài)安全和社會(huì)穩(wěn)定。因此,傳播主流價(jià)值觀是中國(guó)各大媒體需要承擔(dān)的責(zé)任與義務(wù)。
然而,用戶生成內(nèi)容良莠不齊、信息過(guò)載等現(xiàn)象,為主流價(jià)值觀的傳播帶來(lái)了挑戰(zhàn)。如何承擔(dān)社會(huì)責(zé)任,傳播積極向上的主流價(jià)值觀,營(yíng)造良好的網(wǎng)絡(luò)輿論氛圍,成為國(guó)家和社交媒體平臺(tái)共同關(guān)注的問(wèn)題。
面向主流價(jià)值觀的文本質(zhì)量評(píng)價(jià)任務(wù)需要對(duì)文本質(zhì)量從正能量、主流價(jià)值觀等角度進(jìn)行定義。將其定義為一個(gè)五分類問(wèn)題,即將面向主流價(jià)值觀的文本質(zhì)量劃分為1~5 個(gè)等級(jí)。這一研究和文本的情感分類存在差別,積極的情感并不一定代表正能量的價(jià)值觀。如:某明星發(fā)帖稱‘日本血統(tǒng)真的好酷,穿和服走在雪里感覺(jué)好高貴!’,這一帖子表達(dá)的情感是積極的,但卻明顯不符合‘愛(ài)國(guó)’這一社會(huì)主義核心價(jià)值觀。
龐大的用戶生成內(nèi)容是新時(shí)代的產(chǎn)物,但也承擔(dān)著一定的社會(huì)責(zé)任,以正能量作品暖人心、聚民心。通過(guò)主流價(jià)值觀來(lái)駕馭算法,減少泛娛樂(lè)化、低俗類內(nèi)容傳播,增加符合社會(huì)主義核心價(jià)值觀的內(nèi)容,讓算法服務(wù)于主流價(jià)值導(dǎo)向。
面向主流價(jià)值觀的文本質(zhì)量評(píng)價(jià)是一個(gè)全新的任務(wù),同時(shí)也是一個(gè)富有新時(shí)代中國(guó)特色的任務(wù)。除了缺乏統(tǒng)一技術(shù)框架之外,如何獲取大規(guī)模的域內(nèi)數(shù)據(jù)、如何標(biāo)注數(shù)據(jù),以及如何利用未標(biāo)注數(shù)據(jù)也是文本質(zhì)量評(píng)價(jià)任務(wù)一大難點(diǎn)。因此,這一任務(wù)主要與文本增強(qiáng)和半監(jiān)督學(xué)習(xí)兩個(gè)研究方向存在重合。
1.1 文本增強(qiáng)研究現(xiàn)狀
文本增強(qiáng)主要分為無(wú)條件增強(qiáng)和條件增強(qiáng)兩種方法。
1.1.1 無(wú)條件增強(qiáng)方法
由于不需要強(qiáng)制引入標(biāo)簽信息,無(wú)條件增強(qiáng)方法既可以對(duì)標(biāo)注數(shù)據(jù)進(jìn)行增強(qiáng),又可以針對(duì)無(wú)標(biāo)注數(shù)據(jù)進(jìn)行增強(qiáng)。主要包括詞匯/短語(yǔ)替換、隨機(jī)噪音注入和混合交叉方法。在對(duì)標(biāo)注數(shù)據(jù)進(jìn)行增強(qiáng)后,不會(huì)改變數(shù)據(jù)的標(biāo)簽,但可能會(huì)造成文本主旨發(fā)生變化,帶來(lái)一定的噪音。
對(duì)于詞匯/短語(yǔ)的替換方法:文獻(xiàn)[1]提出基于詞典從文本中選擇詞匯或短語(yǔ)進(jìn)行同義詞替換;
文獻(xiàn)[2]基于詞向量在嵌入空間中找尋相鄰詞匯進(jìn)行替換;
文獻(xiàn)[3]根據(jù)TF-IDF 分值,對(duì)非核心詞進(jìn)行替換。
對(duì)于隨機(jī)噪音注入方法:文獻(xiàn)[3]根據(jù)Unigram 詞頻分布進(jìn)行采樣,從而隨機(jī)插入一個(gè)詞匯;
文獻(xiàn)[1]除了進(jìn)行同義詞替換外,同時(shí)采用上述隨機(jī)插入詞匯、隨機(jī)交換詞匯或交換句子、隨機(jī)刪除詞匯或句子等隨機(jī)注入噪音。文獻(xiàn)[4]提出了一種應(yīng)用于圖像領(lǐng)域的表示增強(qiáng)方法(Mixup)。借鑒Mixup 的思想,文 獻(xiàn)[5]提出了wordMixup 和sentMixup,將詞向量和句向量進(jìn)行混合;
文獻(xiàn)[6]利用交叉增強(qiáng)方法將相同極性的文本進(jìn)行交叉。
此外,回譯也是一種應(yīng)用非常廣泛的無(wú)條件增強(qiáng)方法。該方法基于機(jī)器翻譯技術(shù),文獻(xiàn)[3]中就采用了回譯技術(shù)進(jìn)行數(shù)據(jù)增強(qiáng)。此外,對(duì)抗訓(xùn)練方法對(duì)模型魯棒性的提升也是基于數(shù)據(jù)增強(qiáng)原理的。但是不同于CV 領(lǐng)域GAN 生成對(duì)抗進(jìn)行數(shù)據(jù)增強(qiáng)[7],NLP 中通常在詞向量上添加擾動(dòng)并進(jìn)行對(duì)抗訓(xùn)練。
1.1.2 條件增強(qiáng)方法
條件增強(qiáng)方法需要強(qiáng)制引入“文本標(biāo)簽”信息到模型中,再產(chǎn)生數(shù)據(jù)。隨著B(niǎo)ERT 等預(yù)訓(xùn)練語(yǔ)言模型在NLP 領(lǐng)域取得巨大成功,近來(lái)許多研究者對(duì)預(yù)訓(xùn)練語(yǔ)言模型用做文本增強(qiáng)進(jìn)行了有益嘗試。
文獻(xiàn)[8]利用條件變分自編碼模型進(jìn)行增強(qiáng)。文獻(xiàn)[9]基于LSTM 進(jìn)行雙向語(yǔ)言模型預(yù)訓(xùn)練,將標(biāo)簽信息融入網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行微調(diào),使替換生成的詞匯與標(biāo)簽信息兼容一致。在此基礎(chǔ)之上,文獻(xiàn)[10]基于BERT 進(jìn)行微調(diào),將段嵌入轉(zhuǎn)換為融入標(biāo)簽指示的標(biāo)簽嵌入。文獻(xiàn)[11]基于GPT-2 將標(biāo)簽信息與原始文本拼接,當(dāng)作訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào),同時(shí)采用一個(gè)判別器,對(duì)生成數(shù)據(jù)進(jìn)行了過(guò)濾降噪。
1.2 半監(jiān)督學(xué)習(xí)研究現(xiàn)狀
半監(jiān)督學(xué)習(xí)方法是指利用少量標(biāo)注數(shù)據(jù)和大量無(wú)標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。相關(guān)研究主要著力于如何針對(duì)未標(biāo)注數(shù)據(jù)構(gòu)建無(wú)監(jiān)督信號(hào),與監(jiān)督學(xué)習(xí)聯(lián)合建模。簡(jiǎn)單來(lái)說(shuō),就是如何在損失函數(shù)中添加針對(duì)未標(biāo)注數(shù)據(jù)相關(guān)的正則項(xiàng),使模型能夠充分利用大量的未標(biāo)注數(shù)據(jù)不斷迭代,最終增強(qiáng)泛化性能。半監(jiān)督學(xué)習(xí)方法主要有熵最小化和一致性正則兩種方法。
文獻(xiàn)[12]提出Π-Model 和 時(shí)間集成(Temporal Ensembling)。Π-Model 對(duì)無(wú)標(biāo)注數(shù)據(jù)輸入進(jìn)行兩次不同的隨機(jī)數(shù)據(jù)增強(qiáng),并通過(guò)不同dropout 輸出得到結(jié)果,引入一致性正則到損失函數(shù)中。時(shí)間集成采用時(shí)序融合模型,避免同一個(gè)訓(xùn)練步進(jìn)行兩次前向計(jì)算,從而提高訓(xùn)練速度。文獻(xiàn)[13]提出的Mean Teacher 模型認(rèn)為采用在訓(xùn)練步驟上的平均模型會(huì)比直接使用單一模型權(quán)重更精確,于是對(duì)時(shí)間集成方法進(jìn)行改進(jìn),對(duì)模型參數(shù)而不是預(yù)測(cè)結(jié)果進(jìn)行平均。文獻(xiàn)[14]提出的虛擬對(duì)抗訓(xùn)練(Virtual Adversarial Training,VAT)仍然采用一致性正則,采取對(duì)抗訓(xùn)練的方式添加噪音,不同于傳統(tǒng)的有監(jiān)督學(xué)習(xí)下的對(duì)抗訓(xùn)練,其沒(méi)有標(biāo)簽信息,而是構(gòu)建一個(gè)虛擬標(biāo)簽,并根據(jù)這個(gè)虛擬標(biāo)簽計(jì)算對(duì)抗擾動(dòng)方向。Google 在文獻(xiàn)[3]中提出了無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)方法(Unsupervised Data Augmentation,UDA),也采用一致性正則,同時(shí)結(jié)合了熵最小化正則:對(duì)無(wú)監(jiān)督信號(hào)構(gòu)建人工標(biāo)簽,使其趨近于One-Hot 分布。此外,還直接計(jì)算了熵?fù)p失。將人工標(biāo)簽與增強(qiáng)后的預(yù)測(cè)標(biāo)簽共同構(gòu)建一致性正則,并計(jì)算損失時(shí)采用基于置信度的訓(xùn)練信號(hào)退火(TSA)方法防止對(duì)標(biāo)注數(shù)據(jù)過(guò)擬合。
MixMatch[15]同樣來(lái)自Google,與UDA 類似,同樣結(jié)合了熵最小化和一致性正則。對(duì)標(biāo)注數(shù)據(jù)進(jìn)行一次增強(qiáng),對(duì)于未標(biāo)注數(shù)據(jù)作K次弱增強(qiáng)輸入模型得到average 后的概率。并將無(wú)標(biāo)注數(shù)據(jù)得到的人工標(biāo)簽與標(biāo)注數(shù)據(jù)混合在一起并進(jìn)行MixUp[16]操作,進(jìn)而得到增強(qiáng)后的無(wú)標(biāo)注數(shù)據(jù)以及標(biāo)注數(shù)據(jù)。ReMixMatch[17]是MixMatch 原作者對(duì)自己工作的改進(jìn),一方面進(jìn)行了分布對(duì)齊,另一方面,引入強(qiáng)增強(qiáng),將弱增強(qiáng)后的人工標(biāo)簽與強(qiáng)增強(qiáng)后的預(yù)測(cè)標(biāo)簽共同構(gòu)建一致性正則。FixMatch[18]結(jié)合了UDA和ReMixMatch,舍棄了sharpen 操作和UDA 的訓(xùn)練信號(hào)退火、ReMixMatch 的分布對(duì)齊和旋轉(zhuǎn)損失等,直接利用Pseudo-Label 構(gòu)建人工標(biāo)簽。
以上方法大多引入了一致性正則,其關(guān)鍵在于如何注入噪聲,一個(gè)好的模型對(duì)于輸入擾動(dòng)的任何細(xì)微變化也都應(yīng)具有魯棒性。所以半監(jiān)督學(xué)習(xí)經(jīng)常和文本增強(qiáng)方法結(jié)合。半監(jiān)督學(xué)習(xí)方法能充分挖掘未標(biāo)注數(shù)據(jù)中潛在的價(jià)值,最終增強(qiáng)泛化性能。在少樣本場(chǎng)景下甚至可以比肩充分樣本下的監(jiān)督學(xué)習(xí)模型性能,而在充分樣本場(chǎng)景下,性能仍然繼續(xù)提升。
2.1 模型結(jié)構(gòu)
模型的整體框架來(lái)源于UDA,其結(jié)構(gòu)如圖1 所示:
圖1 UDA 模型結(jié)構(gòu)Fig.1 UDA model structure
圖中:M 表示一個(gè)模型,可以在給定x的條件下預(yù)測(cè)y的分布。本文采用BERT-base。
UDA 模型的輸入包括有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)。對(duì)于帶有標(biāo)簽的數(shù)據(jù),模型M 可以得到其預(yù)測(cè)的標(biāo)簽分布;
對(duì)于無(wú)標(biāo)簽數(shù)據(jù),采用反向翻譯方法進(jìn)行數(shù)據(jù)增強(qiáng),x'表示經(jīng)數(shù)據(jù)增強(qiáng)的無(wú)標(biāo)簽數(shù)據(jù)。
模型的總損失=標(biāo)簽數(shù)據(jù)的交叉熵?fù)p失(Cross-entropy loss)(有監(jiān)督)+λ?無(wú)標(biāo)簽數(shù)據(jù)的一致性損失(無(wú)監(jiān)督)。總損失公式如式(1):
其中,q(x'|x)表示數(shù)據(jù)增強(qiáng)變換,x'由x經(jīng)數(shù)據(jù)增強(qiáng)得到;
θ是模型參數(shù);
是θ的復(fù)制。
由于實(shí)驗(yàn)數(shù)據(jù)集存在嚴(yán)重的不平衡問(wèn)題,在實(shí)驗(yàn)中采用Focal loss 代替上文中的Cross-entropy loss,F(xiàn)ocal loss 通過(guò)改變正類、負(fù)類的權(quán)重,使其能應(yīng)用于不平衡的分類中,如式(2):
其中,αc表示第c類樣本的權(quán)重,pθ(y|x)c表示第c類樣本的概率值。
2.2 數(shù)據(jù)集構(gòu)建
2.2.1 獲取數(shù)據(jù)集
基于scrapy 框架,自主開(kāi)發(fā)爬蟲工具,在人民網(wǎng)強(qiáng)國(guó)論壇板塊下爬取1 887條評(píng)論數(shù)據(jù),部分評(píng)論數(shù)據(jù)見(jiàn)表1。
表1 人民網(wǎng)數(shù)據(jù)集示例Tab.1 Examples of people"s daily online dataset
由于爬蟲獲取的公開(kāi)數(shù)據(jù)都是符合主流價(jià)值觀的,而本文的研究工作需要獲取反例,即不符合主流價(jià)值觀的數(shù)據(jù)。經(jīng)調(diào)研,采用SemEval 2019 Task 6攻擊性語(yǔ)言檢測(cè)數(shù)據(jù)集(Offensive Language Identification Dataset,OLID)。該數(shù)據(jù)集收集了14 120條推特,并對(duì)有無(wú)攻擊性進(jìn)行了標(biāo)注。部分?jǐn)?shù)據(jù)見(jiàn)表2,數(shù)據(jù)集統(tǒng)計(jì)信息見(jiàn)表3。
表2 OLID 數(shù)據(jù)集示例Tab.2 Examples of OLID datasets
表3 OLID 數(shù)據(jù)集統(tǒng)計(jì)信息Tab.3 OLID dataset statistics
從OLID 數(shù)據(jù)集中隨機(jī)選擇2 500 條攻擊性數(shù)據(jù)與613 條非攻擊性數(shù)據(jù),并將其翻譯成中文,再結(jié)合爬取的人民網(wǎng)評(píng)論,構(gòu)成最終數(shù)據(jù)集。數(shù)據(jù)集統(tǒng)計(jì)信息見(jiàn)表4。
2.2.2 數(shù)據(jù)集的人工標(biāo)注
數(shù)據(jù)標(biāo)注的標(biāo)準(zhǔn)見(jiàn)表5。
表5 數(shù)據(jù)集標(biāo)注標(biāo)準(zhǔn)Tab.5 Data set labeling standards
從表中可以看出,本文面向主流價(jià)值觀的文本質(zhì)量評(píng)價(jià)研究和情感分析存在明顯差別。如:例(2)、例(4)雖然表達(dá)了積極的情感,但卻是負(fù)能量的價(jià)值觀;
例(8)雖然表達(dá)了消極情感,但卻是正能量的價(jià)值觀。
從收集的數(shù)據(jù)中選取585 條數(shù)據(jù)作為種子進(jìn)行人工標(biāo)注,標(biāo)注后的初始數(shù)據(jù)分布見(jiàn)表6。
表6 初始數(shù)據(jù)集統(tǒng)計(jì)信息Tab.6 Initial dataset statistics
為了統(tǒng)一不同人標(biāo)注帶來(lái)的主觀性和誤差,采用十折交叉驗(yàn)證進(jìn)行數(shù)據(jù)糾錯(cuò)。糾錯(cuò)后的數(shù)據(jù)分布見(jiàn)表7。
表7 糾錯(cuò)后數(shù)據(jù)集統(tǒng)計(jì)信息Tab.7 Dataset statistics after error correction
2.2.3 基于自訓(xùn)練的數(shù)據(jù)集自動(dòng)標(biāo)注
利用以上人工標(biāo)注數(shù)據(jù)作為訓(xùn)練集,基于selftraining 對(duì)其余數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注。實(shí)現(xiàn)過(guò)程如下:
根據(jù)觀察,選取0.7 作為置信度閾值,基于BERT 進(jìn)行數(shù)據(jù)迭代標(biāo)注。針對(duì)數(shù)據(jù)集嚴(yán)重不平衡的問(wèn)題,分別采用Focal loss 和重采樣方案,將3 個(gè)模型標(biāo)注結(jié)果有差異的并集,由人工進(jìn)行再標(biāo)注,最終得到的數(shù)據(jù)集分布見(jiàn)表8。
表8 最終數(shù)據(jù)集統(tǒng)計(jì)信息Tab.8 Final dataset statistics
2.3 基于檢索的數(shù)據(jù)集擴(kuò)充方法
半監(jiān)督學(xué)習(xí)方法需要獲取大規(guī)模的域內(nèi)數(shù)據(jù)。然而,在許多場(chǎng)景下收集大規(guī)模域內(nèi)數(shù)據(jù)非常困難。為了解決這一問(wèn)題,采用檢索的方法進(jìn)行域內(nèi)數(shù)據(jù)的擴(kuò)充。
利用句子編碼器對(duì)數(shù)據(jù)集中的句子進(jìn)行編碼,得到其向量表示,將每一條數(shù)據(jù)的向量表示作為檢索向量,在大規(guī)模語(yǔ)料庫(kù)中進(jìn)行檢索,以得到相似的句子。為保證檢索到的句子可以作為域內(nèi)數(shù)據(jù),從而減少通用語(yǔ)料對(duì)下游特定任務(wù)的噪聲干擾,每次檢索只抽取Top-K個(gè)句子,并且對(duì)抽取的句子需滿足能取得較高的置信度。
3.1 數(shù)據(jù)集
采用本文2.2 節(jié)構(gòu)建的數(shù)據(jù)集,其中訓(xùn)練集包含3 956條數(shù)據(jù),測(cè)試集包含441 條數(shù)據(jù)。另外,為了構(gòu)建大規(guī)模檢索庫(kù),本文收集了9 個(gè)來(lái)源于微博的數(shù)據(jù)集,其中包括公開(kāi)的數(shù)據(jù)集Weibosenti100k,以及來(lái)自人民網(wǎng)數(shù)據(jù)平臺(tái)的數(shù)據(jù)集:新浪微博數(shù)據(jù)集_鳳凰周刊_202110-11、新浪微博數(shù)據(jù)集_頭條新聞_202110-11、新浪微博數(shù)據(jù)集_環(huán)球時(shí)報(bào)_202110-11等。將以上數(shù)據(jù)集進(jìn)行清洗和去重,共獲得1 905 039條數(shù)據(jù),采用上述數(shù)據(jù)擴(kuò)充方法,共檢索得到6 331條數(shù)據(jù)。部分?jǐn)?shù)據(jù)見(jiàn)表9。
表9 檢索得到的部分?jǐn)?shù)據(jù)及其匹配分?jǐn)?shù)Tab.9 Some of the retrieved data and their matching scores
從表中例子可以看出,檢索到的擴(kuò)充數(shù)據(jù)和原數(shù)據(jù)在語(yǔ)義上存在明顯的相似性。如:第三條,原數(shù)據(jù)和擴(kuò)充數(shù)據(jù)都和抗疫相關(guān)。另外,擴(kuò)充得到的數(shù)據(jù)和原數(shù)據(jù)的主流價(jià)值觀質(zhì)量標(biāo)簽也是相似的。于是,除了無(wú)監(jiān)督的數(shù)據(jù)增強(qiáng)方法,本文也嘗試將query 的標(biāo)簽賦予檢索得到的數(shù)據(jù),進(jìn)行有監(jiān)督的數(shù)據(jù)增強(qiáng)。
3.2 實(shí)驗(yàn)設(shè)置
3.2.1 面向主流價(jià)值觀的文本質(zhì)量評(píng)價(jià)實(shí)驗(yàn)設(shè)置
回歸層的dropout rate 為0.1。訓(xùn)練過(guò)程采用AdaGrad,初始學(xué)習(xí)率為1-10,在訓(xùn)練過(guò)程中預(yù)熱學(xué)習(xí)率以加速模型收斂。Focal loss 中,將γ值設(shè)置為2。由于顯卡內(nèi)存所限,帶標(biāo)簽數(shù)據(jù)的batch size 取16或者32 中較好的結(jié)果,無(wú)標(biāo)簽數(shù)據(jù)的batch size 隨兩種數(shù)據(jù)的比例變化而變化。實(shí)驗(yàn)結(jié)果通過(guò)準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值進(jìn)行評(píng)估。
3.2.2 數(shù)據(jù)集擴(kuò)充實(shí)驗(yàn)設(shè)置
由于構(gòu)建的檢索庫(kù)較大,直接檢索非常耗時(shí),于是數(shù)據(jù)集擴(kuò)充實(shí)驗(yàn)基于ANYQ 框架進(jìn)行。對(duì)ANYQ框架源代碼進(jìn)行改寫,只保留問(wèn)題分析和檢索模塊。以全部訓(xùn)練集作為query,對(duì)query 和檢索庫(kù)均基于百度開(kāi)源的LAC2 分詞工具進(jìn)行分詞,對(duì)檢索庫(kù)添加基于PaddleSimAdapter 的語(yǔ)義表示模型,配置SimNet 語(yǔ)義檢索。每次檢索只抽取Top-10 個(gè)句子,同時(shí)滿足置信度>0.7。
3.3 結(jié)果分析
為了驗(yàn)證本文提出的數(shù)據(jù)增強(qiáng)方法的性能,選擇如下幾種模型并設(shè)計(jì)了相應(yīng)內(nèi)容進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表10。
表10 主要實(shí)驗(yàn)結(jié)果對(duì)比Tab.10 Main results
其中:BERT 模型僅使用帶標(biāo)簽的訓(xùn)練集,將文本作為BERT 的輸入,將[CLS]對(duì)應(yīng)位置的輸出作為評(píng)論表示輸入分類層中,優(yōu)化Focal loss 損失。BERT_DA 模型在基于檢索的數(shù)據(jù)集擴(kuò)充方法中,將每一條訓(xùn)練數(shù)據(jù)作為查詢條件進(jìn)行檢索,將query的標(biāo)簽賦予檢索得到的數(shù)據(jù),從而進(jìn)行有監(jiān)督的數(shù)據(jù)增強(qiáng)。BERT+無(wú)標(biāo)簽數(shù)據(jù)模型增加無(wú)標(biāo)簽訓(xùn)練集(6 331 條)作為輸入,并對(duì)無(wú)標(biāo)簽數(shù)據(jù)應(yīng)用熵最小化損失,從而達(dá)到數(shù)據(jù)增強(qiáng)效果。BERT_UDA 模型即本文提出的方法。
由表中數(shù)據(jù)可見(jiàn):在本文構(gòu)建并標(biāo)注的訓(xùn)練集上,其BERT_UDA 方法在準(zhǔn)確率、精確率、F1 值3個(gè)指標(biāo)上都超過(guò)了BERT。與一般的無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)方法(BERT+無(wú)標(biāo)簽數(shù)據(jù))相比,BERT_UDA 在F1 值上提高1.22%,表明了本文采用數(shù)據(jù)增強(qiáng)方法的有效性。其次,雖然BERT_UDA 相比BERT 的F1 值提升了0.55%,但效果并不明顯,可能是構(gòu)建的檢索庫(kù)不夠大所致(獲取到的無(wú)監(jiān)督擴(kuò)充數(shù)據(jù)數(shù)量?jī)H為原數(shù)據(jù)的1.6 倍)。BERT+無(wú)標(biāo)簽數(shù)據(jù)與BERT 相比,準(zhǔn)確率有所提升,但F1 值卻有所下降;
BERT_DA 相比BERT 在各項(xiàng)評(píng)估指標(biāo)上都有明顯下降。究其原因可能是因?yàn)橐肓舜罅吭胍簦@表明數(shù)據(jù)增強(qiáng)也有可能會(huì)降低模型的性能。
3.4 無(wú)監(jiān)督損失函數(shù)權(quán)重分析
為了驗(yàn)證總損失中無(wú)監(jiān)督損失函數(shù)的權(quán)重λ對(duì)實(shí)驗(yàn)結(jié)果的影響,選取λ ={0,0.5,0.7,1} 進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見(jiàn)表11。
實(shí)驗(yàn)結(jié)果表明,當(dāng)λ取0.5 時(shí),F(xiàn)1 值最高。
3.5 無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)框架有效性分析
在不使用擴(kuò)充數(shù)據(jù)集的情況下,僅在訓(xùn)練集中隨機(jī)選取一部分?jǐn)?shù)據(jù)作為標(biāo)注數(shù)據(jù),其余作為未標(biāo)注數(shù)據(jù)。在損失函數(shù)中,將無(wú)標(biāo)簽數(shù)據(jù)的一致性損失函數(shù)權(quán)重設(shè)置為1。實(shí)驗(yàn)結(jié)果見(jiàn)表12。
表12 F1 值實(shí)驗(yàn)結(jié)果Tab.12 Results of F1 value
由表中數(shù)據(jù)可見(jiàn):BERT 和BERT_UDA 的分類效果隨著帶標(biāo)簽數(shù)據(jù)比例的增大而提高,且在任何比例的帶標(biāo)簽數(shù)據(jù)中,BERT_UDA 的表現(xiàn)均優(yōu)于BERT。由此表明,BERT_UDA 可以從無(wú)標(biāo)簽數(shù)據(jù)中學(xué)到知識(shí),尤其在僅僅使用10%的訓(xùn)練數(shù)據(jù)(396條)時(shí),BERT_UDA 的提升達(dá)到4.77%。
3.6 基于檢索的數(shù)據(jù)集擴(kuò)充方法有效性分析
分別采用原數(shù)據(jù)和檢索得到的數(shù)據(jù)基于BERT_UDA進(jìn)行實(shí)驗(yàn),對(duì)數(shù)據(jù)集擴(kuò)充的有效性進(jìn)行分析,各實(shí)驗(yàn)所用模型和數(shù)據(jù)集見(jiàn)表13。
實(shí)驗(yàn)結(jié)果如圖2 所示。由此可見(jiàn),在擴(kuò)充數(shù)據(jù)集時(shí),采用相同數(shù)量的原數(shù)據(jù)集和檢索得到的數(shù)據(jù)集的F1 值幾乎相同,表明了基于檢索的數(shù)據(jù)集擴(kuò)充方法的有效性;
另外,基于BERT 的模型大約從第二個(gè)epoch 開(kāi)始收斂,而基于BERT_UDA 的模型,大約在第12 個(gè)epochF1 值才穩(wěn)定下來(lái)。由于訓(xùn)練集比較小,訓(xùn)練過(guò)程中模型會(huì)很快過(guò)擬合于訓(xùn)練數(shù)據(jù),但在測(cè)試數(shù)據(jù)上卻表現(xiàn)欠佳。BERT_UDA 之所以能提高模型的表現(xiàn),可能是因?yàn)樵黾拥臒o(wú)標(biāo)簽數(shù)據(jù)延緩了模型的收斂。
圖2 訓(xùn)練過(guò)程中測(cè)試集F1 值隨訓(xùn)練輪次變化曲線Fig.2 F1 value of the test set changes with the training rounds during the training process
本文針對(duì)面向主流價(jià)值觀的文本質(zhì)量評(píng)價(jià)任務(wù),依據(jù)主流價(jià)值觀對(duì)文本質(zhì)量進(jìn)行定義,自主爬取和構(gòu)建了一個(gè)面向主流價(jià)值觀的文本質(zhì)量評(píng)價(jià)數(shù)據(jù)集。為了緩解人工標(biāo)注數(shù)據(jù)的壓力,以及解決域內(nèi)數(shù)據(jù)獲取困難的問(wèn)題,本文提出了基于無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)框架的文本質(zhì)量評(píng)價(jià)方法,采用一致性框架,利用反向翻譯對(duì)文本進(jìn)行增強(qiáng)。實(shí)驗(yàn)證明,在數(shù)據(jù)量較小時(shí),能顯著提升模型性能。另外,本文自主構(gòu)建了一個(gè)大規(guī)模中文微博檢索庫(kù),并基于該檢索庫(kù)對(duì)構(gòu)建的數(shù)據(jù)集進(jìn)行擴(kuò)充,加入擴(kuò)充數(shù)據(jù)后,模型在F1 值上提高1.22%。對(duì)于未來(lái)的工作,一方面是收集更多域內(nèi)數(shù)據(jù),或者構(gòu)建更大規(guī)模的中文檢索庫(kù);
另一方面是構(gòu)建主流價(jià)值觀的表示,思考將主流價(jià)值觀以知識(shí)的形式融入模型的新方法。