聯(lián)系我們
地址:慶市川區(qū)衛(wèi)道(原雙竹鎮(zhèn))
13983250545

信:ycsh638

QQ:469764481
郵箱:ycsh6318@163.com

水產(chǎn)科學(xué)研究的數(shù)據(jù)采集

發(fā)表時(shí)間:2021/01/04 13:02:47  瀏覽次數(shù):4603  
字體大小: 【小】 【中】 【大】
西南漁業(yè)網(wǎng)-豐祥漁業(yè)網(wǎng)秉承:求是務(wù)實(shí)不誤導(dǎo)不夸大不炒作!水產(chǎn)專業(yè)網(wǎng)站為您提供優(yōu)質(zhì)服務(wù)!【鄭重提醒】:本站所有文章,如需轉(zhuǎn)載請(qǐng)注明出處,否則謝絕轉(zhuǎn)載!!謝謝合~
市場在變,我們的誠信永遠(yuǎn)不會(huì)變!

1數(shù)據(jù)采集

文獻(xiàn)檢索方法最簡便也應(yīng)用最廣,但由于機(jī)構(gòu)名稱不規(guī)范或檢索策略不合理,容易帶來漏檢或誤檢??蒲泄芾斫y(tǒng)計(jì)數(shù)據(jù)則多缺乏可供計(jì)量分析的字段。因此,將文獻(xiàn)檢索與科研管理統(tǒng)計(jì)兩類數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)可以最大程度地保證數(shù)據(jù)的全面性和客觀性。由于各數(shù)據(jù)庫收錄期刊的范圍存在差異,對(duì)單一數(shù)據(jù)庫檢索容易導(dǎo)致數(shù)據(jù)不全面。因此,選取中國知網(wǎng)“中國學(xué)術(shù)期刊的網(wǎng)絡(luò)出版總庫”和維普資訊“中文科技期刊數(shù)據(jù)庫”同時(shí)作為數(shù)據(jù)來源庫。檢索策略為:機(jī)構(gòu)=“中國水產(chǎn)科學(xué)研究院or黃海水產(chǎn)研究所or東海水產(chǎn)研究所or南海水產(chǎn)研究所or珠江水產(chǎn)研究所or長江水產(chǎn)研究所or黑龍江水產(chǎn)研究所or淡水漁業(yè)研究中心or漁業(yè)機(jī)械儀器研究所or漁業(yè)工程研究所”,人工識(shí)別分析機(jī)構(gòu)名稱的各種不規(guī)范寫法后,進(jìn)一步優(yōu)化檢索式,如:“黃海水產(chǎn)所”實(shí)際應(yīng)為“黃海水產(chǎn)研究所”,因情況眾多不再逐一列舉。最后將檢索結(jié)果分別導(dǎo)入EXCEL表??蒲泄芾斫y(tǒng)計(jì)數(shù)據(jù)主要來自于各研究所歷年統(tǒng)計(jì)上報(bào)的數(shù)據(jù),導(dǎo)入EXCEL表。因此,基礎(chǔ)數(shù)據(jù)包括三部分,分別為中國知網(wǎng)檢索數(shù)據(jù)、維普資訊檢索數(shù)據(jù)和科研管理統(tǒng)計(jì)數(shù)據(jù),下文將詳述基礎(chǔ)數(shù)據(jù)的去重與合并。以黃海水產(chǎn)研究所2007年數(shù)據(jù)為例,基于文獻(xiàn)檢索和科研管理統(tǒng)計(jì)獲得的數(shù)據(jù)量如表1,可見實(shí)際數(shù)據(jù)量大于每個(gè)單獨(dú)統(tǒng)計(jì)來源的數(shù)據(jù)量。

2數(shù)據(jù)清洗

數(shù)據(jù)清洗的原理是根據(jù)回溯思想,通過分析“臟數(shù)據(jù)”產(chǎn)生的原因和存在形式,利用現(xiàn)有的技術(shù)手段和方法檢測“臟數(shù)據(jù)”,制定數(shù)據(jù)清洗的方法、規(guī)則和策略并加以實(shí)施,將“臟數(shù)據(jù)”轉(zhuǎn)化為“干凈數(shù)據(jù)”。實(shí)踐中,多將來自不同數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式,補(bǔ)充遺漏記錄,去除錯(cuò)誤或重復(fù)記錄,提高數(shù)據(jù)質(zhì)量以滿足分析的需求。實(shí)踐表明,數(shù)據(jù)清洗約占文獻(xiàn)計(jì)量工作量的80%~90%[4]。數(shù)據(jù)清洗方式以人工和計(jì)算機(jī)輔助人工為主,人工清洗結(jié)果精確得當(dāng)?shù)ぷ髁看?、效率低,目前通行的辦法是計(jì)算機(jī)輔助人工處理[7]。近年來市場上已有數(shù)據(jù)清洗軟件商品和專門的ETL工具[8,9],但這些軟件多適用于特定數(shù)據(jù)庫的文獻(xiàn)格式、對(duì)中文文本的支持性較差且有些還需支付高額的使用費(fèi)。筆者借鑒前人研究的基礎(chǔ),結(jié)合實(shí)際工作,提出一些自己的做法。2.1數(shù)據(jù)去重將來源為“中國知網(wǎng)”和“維普資訊”的數(shù)據(jù)進(jìn)行合并,首先去除二者共同收錄的文獻(xiàn)。由于不同數(shù)據(jù)庫數(shù)據(jù)格式不統(tǒng)一,不能通過相同題名的字符完全匹配進(jìn)行數(shù)據(jù)查重,如:同一篇論文,在不同數(shù)據(jù)庫中收錄時(shí)存在如下問題:標(biāo)點(diǎn)符號(hào)(括號(hào)、引號(hào)、破折號(hào)等)全半角不統(tǒng)一且無規(guī)則;專有英文名稱等大小寫字母不統(tǒng)一;題目中混入空格等無意義字符;系列文章的序號(hào)將阿拉伯?dāng)?shù)字與大寫數(shù)字混用;生僻字被拆分成兩個(gè)字錄入等。利用基于EXCEL的VBA編程,采用題名相似匹配與人工輔助相結(jié)合的方法對(duì)數(shù)據(jù)進(jìn)行查重處理。處理流程如圖1所示。(1)篩選各數(shù)據(jù)庫中待分析的特征題錄字段,形成格式統(tǒng)一的表。(2)對(duì)“題名”字段進(jìn)行預(yù)處理,如:半角化、去空格、大寫字母轉(zhuǎn)小寫等。(3)建立空表,命名為“VIP-CNKI”、“SUSPECT”。(4)將“中國知網(wǎng)”數(shù)據(jù)復(fù)制至“VIP-CNKI”,用維普資訊數(shù)據(jù)與“VIP-CNKI”逐條對(duì)比。(5)如果題名完全相同,則認(rèn)為是重復(fù)記錄不做處理,繼續(xù)對(duì)比下一條。(6)如果題名不同,則當(dāng)題名長度差異在20%以內(nèi)且相同字符匹配率達(dá)60%,將這兩條數(shù)據(jù)添加至疑似相同文獻(xiàn)表“SUSPECT”,繼續(xù)對(duì)比下一條;當(dāng)題名差異在20%以上,或相同字符匹配率60%以下,則將該條維普數(shù)據(jù)添加至表”VIP-CN-KI”,繼續(xù)對(duì)比下一條數(shù)據(jù)。(7)當(dāng)所有對(duì)比完成之后,人工判斷表“Suspect”里的文獻(xiàn)是否為相同文獻(xiàn),并做標(biāo)記,直至判斷結(jié)束。批量導(dǎo)入標(biāo)記為“不同”的維普文獻(xiàn)至“VIP-CNKI”。經(jīng)去重后合并的表“VIP-CNKI”即為基于文獻(xiàn)檢索的中國水科院中文期刊論文集。用該數(shù)據(jù)集與科研管理統(tǒng)計(jì)數(shù)據(jù)對(duì)比進(jìn)行去重及合并,并補(bǔ)充科研管理統(tǒng)計(jì)數(shù)據(jù)中缺失的字段,即為水科院中文期刊論文總集,因方法和流程與上述類似,故不再贅述。2.2字段清洗原始數(shù)據(jù)存在分隔符不統(tǒng)一、數(shù)據(jù)格式不一致、一詞多形等問題,如對(duì)其直接進(jìn)行計(jì)量分析,將產(chǎn)生巨大的統(tǒng)計(jì)誤差。因此,將中國水產(chǎn)科學(xué)院中文期刊論文總集,導(dǎo)入ACCESS數(shù)據(jù),對(duì)作者、關(guān)鍵詞、機(jī)構(gòu)、引文量、年份等字段進(jìn)行規(guī)范化處理。根據(jù)存在問題的類型和規(guī)律制定數(shù)據(jù)處理規(guī)則,然后編寫基于ACCESS的VBA程序進(jìn)行批量處理。因?yàn)楹茈y一次完整地識(shí)別所有規(guī)則(比如:存在多種分隔符),因此通常采用循環(huán)處理機(jī)制,即查找規(guī)則→編寫代碼→執(zhí)行清洗→檢查清洗結(jié)果→修改代碼→執(zhí)行清洗,必要時(shí)該工作需重復(fù)多次,直至數(shù)據(jù)格式完全統(tǒng)一。引文數(shù)量和年份等數(shù)值型字段主要進(jìn)行數(shù)據(jù)類型的統(tǒng)一,原始數(shù)據(jù)有文本型、數(shù)值型、日期型等存儲(chǔ)格式,將其統(tǒng)一轉(zhuǎn)為數(shù)值型格式。關(guān)鍵詞字段和作者字段主要進(jìn)行分隔符的統(tǒng)一,原始數(shù)據(jù)的分隔符有全角分號(hào)、半角分號(hào)、雙分號(hào)、嘆號(hào)、空格等。作者字段包含的分隔符有全角半角形式的嘆號(hào)、分號(hào)、雙分號(hào)、逗號(hào)、[1]、[2]、[1,3]、[1,2,3]、[2,3,4]、空格等,將各種分隔符統(tǒng)一用半角分號(hào)替換。此外,作者的姓和名中間有時(shí)存在空格,與不同作者的間隔符相混淆,需要首先處理。作者字段的空格處理方式具體為:根據(jù)空格所在位置及前后字符是否為漢字進(jìn)行判斷,如果屬于英文作者名內(nèi)的空格應(yīng)保留,如果是雙漢字姓與名間的空格則刪除,其它情況則替換為半角分號(hào)。機(jī)構(gòu)字段存儲(chǔ)的是參與合作單位的機(jī)構(gòu)地址,清洗后獲得參與合作單位的機(jī)構(gòu)名稱。由于作者自身著錄不規(guī)范或其它原因,造成了機(jī)構(gòu)名稱的多樣性,給統(tǒng)計(jì)工作帶來困難。分析發(fā)現(xiàn),機(jī)構(gòu)名稱的多樣化主要有四個(gè)原因:一是僅著錄了子機(jī)構(gòu)名稱而忽略其母機(jī)構(gòu);二是僅著錄重點(diǎn)實(shí)驗(yàn)室名稱未著錄機(jī)構(gòu)名稱,特別是在國家級(jí)和省級(jí)重點(diǎn)實(shí)驗(yàn)室發(fā)表的論文中比較常見;三是僅著錄機(jī)構(gòu)簡稱;四是著錄不規(guī)范的全稱。因此,需建立包括處理分隔符、去除地址數(shù)據(jù)、機(jī)構(gòu)名稱規(guī)范化三步的清洗機(jī)制,如圖2。(1)規(guī)范機(jī)構(gòu)間的分隔符為半角分號(hào)。(2)去除地址數(shù)據(jù)。最普遍的一種格式為“機(jī)構(gòu)名稱,地名郵編”,如“大連水產(chǎn)學(xué)院,大連116023”。當(dāng)分隔符后面的字符串末端為六位及以上數(shù)字時(shí),直接去除該字符串。(3)對(duì)上述過程未處理到的一些錯(cuò)誤數(shù)據(jù)進(jìn)行人工清洗。比如部分字段中混入職稱、個(gè)別地名與郵編間存在分隔符導(dǎo)致無法識(shí)別。(4)機(jī)構(gòu)名稱規(guī)范化。首先建立機(jī)構(gòu)名稱詞表,包含一級(jí)機(jī)構(gòu)名稱、二級(jí)機(jī)構(gòu)名稱及相應(yīng)的不規(guī)范寫法的映射,如表2。一級(jí)機(jī)構(gòu)和二級(jí)機(jī)構(gòu)均規(guī)范為相應(yīng)的規(guī)范化名稱。對(duì)機(jī)構(gòu)名稱字段進(jìn)行規(guī)范化程序處理。建立一個(gè)二維數(shù)組,將機(jī)構(gòu)名稱詞表中的所有機(jī)構(gòu)存放在第一維中,并將對(duì)應(yīng)的規(guī)范化名稱存放在第二維中。利用分詞法從機(jī)構(gòu)字段切分機(jī)構(gòu)名稱,與數(shù)組中的第一維數(shù)據(jù)比對(duì),如果存在包含關(guān)系,則用第二維中的規(guī)范化的名稱替代。如:機(jī)構(gòu)名稱包含“農(nóng)業(yè)部淡水魚類種質(zhì)資源與生物技術(shù)重點(diǎn)開放實(shí)驗(yàn)室”則將其替換為“長江水產(chǎn)研究所”。(5)機(jī)構(gòu)去重。同一機(jī)構(gòu)多人參與該論文的,機(jī)構(gòu)名稱被多次著錄,此時(shí)僅保留一個(gè)。建立一個(gè)空數(shù)組,將機(jī)構(gòu)字段的機(jī)構(gòu)名稱和數(shù)組中已存入的機(jī)構(gòu)名稱逐一對(duì)比,如果該名稱已存則繼續(xù)處理下一個(gè)名稱,如果不存在則將該名稱存入數(shù)組。

3結(jié)束語

長期以來,國內(nèi)科研評(píng)價(jià)重評(píng)價(jià)結(jié)果輕數(shù)據(jù)準(zhǔn)備相關(guān)方法和經(jīng)驗(yàn)總結(jié),使得大量評(píng)價(jià)忽視數(shù)據(jù)準(zhǔn)備工作的重要性,同行在開展計(jì)量評(píng)價(jià)時(shí)也缺乏參考。筆者基于機(jī)構(gòu)評(píng)價(jià)的文獻(xiàn)計(jì)量實(shí)踐,積累了大量數(shù)據(jù)采集與數(shù)據(jù)清洗的經(jīng)驗(yàn),力求踏實(shí)、嚴(yán)謹(jǐn)、準(zhǔn)確的開展數(shù)據(jù)準(zhǔn)備工作從而為中觀層面的文獻(xiàn)計(jì)量評(píng)價(jià)提供客觀的數(shù)據(jù)。(1)對(duì)多種文獻(xiàn)格式具有兼容性,當(dāng)前的文獻(xiàn)分析軟件多僅針對(duì)一種或幾種數(shù)據(jù)庫文獻(xiàn)格式[10,11],筆者所述方法能夠處理從不同數(shù)據(jù)庫下載文獻(xiàn)題錄甚至科研管理統(tǒng)計(jì)數(shù)據(jù),處理的字段也具有較大的靈活性,可以根據(jù)特定研究需要有針對(duì)性的采集和分析相關(guān)字段。(2)在文獻(xiàn)采集方面,綜合文獻(xiàn)檢索數(shù)據(jù)和科研管理統(tǒng)計(jì)數(shù)據(jù),其中檢索兩個(gè)國內(nèi)綜合性數(shù)據(jù)庫,保證基礎(chǔ)數(shù)據(jù)的全面準(zhǔn)確。因?yàn)榉潜締挝坏目蒲泄芾斫y(tǒng)計(jì)數(shù)據(jù)難以獲得,本方法更適用于開展本單位、本系統(tǒng)的科研評(píng)價(jià),在多單位的同行比較中則受到限制。

(作者:閆雪 歐陽海鷹 曾首英 葛長水 唐琳 邵萍 陳柏松 單位:中國水產(chǎn)科學(xué)研究院)

聲明:轉(zhuǎn)載文是出于傳遞更多信息之目的。若有標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)與本網(wǎng)聯(lián)系,我們將及時(shí)更正、刪除,謝謝!
“養(yǎng)魚第一線”微信公眾訂閱號(hào)

關(guān)"養(yǎng)魚第一線"微信公眾帳號(hào)和養(yǎng)魚第一線劉文俊視頻號(hào)將會(huì)定期向你推送本號(hào)信息!將為你精誠服務(wù)!

文章評(píng)論
發(fā)表評(píng)論:(匿名發(fā)表無需登錄,已登錄用戶可直接發(fā)表。) 登錄狀態(tài): 未登錄,點(diǎn)擊登錄
電腦網(wǎng)址: http://dollarslicenewyork.com 地址:重慶市永川區(qū)衛(wèi)星湖街道  手機(jī)網(wǎng)址:http://m.yc6318.cn
重慶市永川區(qū)雙竹漁業(yè)協(xié)會(huì),重慶市永川區(qū)水花魚養(yǎng)殖專業(yè)合作社,重慶吉永水產(chǎn)品養(yǎng)殖股份合作社,重慶市永川區(qū)豐祥漁業(yè)有限公司
本站聯(lián)微信:ycsh638,QQ:469764481,郵箱:ycsh6318@163.com

ICP網(wǎng)備案/許可證號(hào)渝ICP備2020014487號(hào)-1

渝公網(wǎng)安備50011802010496號(hào)

誠信共建聯(lián)盟