- 人物訪談
- 熱門
誤用文獻計量學分析讓科學家將重心從研究移往追求分數

David A. Pendlebury 從 1983 年就開始擔任科睿唯安 (Clarivate Analytics) 的引用分析師,科睿唯安前身為湯森路透知識產權與科技。David 在完成古代歷史的本科和研究所學業后,在美國科學情報所 (Institute for Scientific Information, ISI) 擔任翻譯員和索引人員,ISI 于 1992 并入湯森路透,他還與 ISI 創始者 Eugene Gerfield 一同合作私人研究項目。1987 年,David 在《The Scientist》報紙上開設研究專欄,兩年后加入公司的研究服務團隊,幫助發行《Science Watch》報紙。身為研究團隊的一員,他協助設計開發科睿唯安基本科學指標 (Claricate Analytics Essential Science Indicators),基本科學指標是提供全球研究出版和引用數據表現與趨勢的數據庫。David 與全球中央單位、學術單位、企業和科學出版社都有豐富的工作經驗。
理解研究的影響力是很重要的,今天,快速變化的數字學術出版產業對評價研究影響力的人來說有機會也有挑戰,此次與 David 的訪談聚焦在文獻計量學及其使用,討論他在科睿唯安的工作,以及科睿唯安宣布的 Eugene Garfield 引用分析創新獎 (Eugene Garfield Award for Innovation in Citation Analysis)。
您在科睿唯安的主要工作內容是什么?如果能談談您當初是怎么開發科睿唯安基本科學指標的話,那就再好不過了!
我專注在溝通信息檢索、研究評價和科學監控引用分析的可能性與威力。基本科學指標 (Essential Science Indicators, ESI) 是 2000 年由研究部門的團隊所開發的,(當時的)領導是湯姆森科技信息集團 (Tomson Scientific) 的主任 Henry Small,那時我們主要的目標是提供可以輕松取得十年間在 22 個學科領域的出版和引用統計信息。ESI 也有非常寶貴的研究數據,是通過過去五年的高引文章的共引文分析 (co-citation analysis) 所找出的專門領域。共引文分析能找出發表文章間的相似度,因為他們經常被一起引用。Henry 在 70 和 80 年代率先進行研究領域的共引文集聚和科學測繪。ESI 數據每兩個月會更新一次,讓這個數據庫成為最能跟上主要研究活動的信息來源。ESI 現在隸屬 InCites?平臺,是發表影響因子的期刊引證報告 (Journal Citation Reports) 其中的一份子。InCites 平臺使用我們的 Web of Science 數據,提供用戶不同維度的出版和引用數據研究評估和標桿。所以這些工具和數據是設計來提供研究架構和動態的觀點,發現重要和成長的領域,找出表現杰出的人,還有幫助信息檢索或信息發現。
您的工作中,有一些特殊項目,例如預測諾貝爾獎得主,您是怎么進行這方面的工作的?
從最早期 Eugene Garfield 的科學引文索引 (Science Citation Index, SCI) 工作中,我們的數據中的桂冠科學家,也就是大家一般認為的諾貝爾得主,他們和所謂的一般科學家間的區別很明顯。Garfield 在 1965 年(當時只有幾年的數據)就說過,諾貝爾獎得主的平均發表數是一般研究人員的五倍,平均引用數為 30 到 50 次,他也表示幾乎每一位諾貝爾獎得主有一篇或多篇“引文經典”(Citation Classics),引文經典是引用排名位于領域中前 0.1% 的文獻。我們科睿唯安的研究人員會在諾貝爾獎頒發的科學領域,也就是生理學或醫學、物理學、化學和經濟學中,搜索引用數特別高的論文(一般超過 2 千次引用),檢查找出這些文章的作者、這些文章中報告的研究發現本質以及這個研究和研究人與是否曾得過諾貝爾獎。在許多案例中,我們都發現確實如此,因此我們將重點放在有高引論文但還沒有接到瑞典人打來這通令人興奮的電話的科研人員。高引論文還有頂級獎項間的關系沒有什么特別的秘密:這兩個都反映出高度尊重,前者是數量,而后者是根據同僚所評價的質量。
是否可以請您為意得輯專家視點的讀者說明文獻計量學 (bibliometrics) 和科學計量學 (scientometrics) 的差別?
文獻計量學 (bibliometrics) 是從希臘文 biblios 和 metron 而來,意思是書籍或卷軸,還有測量,因此文獻計量學是各種出版的測量,不論是書籍或期刊。早期圖書館員用這來找出所謂的核心期刊,改善圖書館藏書,還有觀察使用趨勢,做為藏書決策的科學依據。科學計量學 (scientometrics) 這個詞大概是在 1960 年代晚期,由博學多聞的俄羅斯人 Vasily Nalimov 最先提出的,當時他談到 naukometriya,nauk 在俄文中是科學的意思,所以將文獻計量學用在科學就是科學計量學。科學計量學研究比為圖書館員分析科學期刊來得更廣,其中包含了研究表現、創新、科學溝通、領域結構與動態還有政策相關的項目,例如基金。
就您看來,使用文獻計量學有什么優缺點?
你的問題或許可以看成“指標的用處是什么?”,還有“指標有什么危險?”。我們必須要知道指標可以是很有用的。開爾文格言說如果我們可以衡量事物,我們會知道我們對什么更感興趣,沒有衡量,我們的知識是淺薄的。我想要強調可能的“缺點”,其中包含:使用不完整或不精確的數據、采用沒有辦法回答問題的指標、只看單一或綜合的指標(不足以測繪眾多不同的研究活動和影響力)、沒有使用相關或標準化的指標確保對等比較、相信數據自己會說話無需領域專家闡釋就可以使用等。
您是否覺得科研圈里的人,例如決策人員和基金單位,誤解了文獻計量學,或是錯誤地使用文獻計量學?常見的誤用情況是什么?
是的,確實是,這非常令人痛心。落實簡單單一的衡量體系(如 h 指數或平均影響因子)來進行評價還有決定基金,破壞了大眾對公眾業務的信心和文獻計量分析的價值,而我很不幸地很常看到這個情況,它還改變了科研人員的行為,他們開始追求分數,而不是專注在研究上,這對科學有腐蝕性的影響。要防止這些誤用的一個方法是確保引用分析是補充同行評審,而不是替代。人決定內容和質量,而文獻計量指標是代表或跡象,不提供顯著性或數值。
在不斷進化的科研版圖中,您認為文獻計量學的挑戰是什么?
一個是超過學術影響力的影響指標的需求,也就是超過大學范圍之外的影響。當然,一直以來都有追蹤基礎研究和應用研究創新影響力的想法。科睿唯安使用自己的 Derwent 專利數據 (Derwant patent data) 來衡量創新已經超過五十年了。現今一個重要的研究領域是學術文獻被最有價值的高引專利引用的分析,這能透露出學術與產業的重要連結。有越來越多的大學想要展現他們在經濟成長上的貢獻,證明自己值得獲得高額的公眾研究基金。隨著社交媒體的興起,收集新的研究影響力指標成為可能,特別是在大學內進行的研究活動對社會和文化的好處。altmetrics 是經常用來敘述多個不同類型的數據的詞匯和潛力指標,例如用處、推薦或書簽、新聞、博客、微博等等,altmetrics 是科學計量學研究最活躍的主題之一,但需要更多的研究來了解不同的 altmetrics 指標,它們的未來、意義和動能等,還有即使它們的定義較為廣泛,跟研究影響力是否有任何關聯。對于那些能提供影響力觀點的指標,需要在年紀、領域或主題上正常化,這些才處在剛開始的階段而已。目前 altmetrics 并沒有取代傳統指標的可能,但有可能成為傳統指標的補充,不過現在說這些都還太早。
我對您最近在新聞稿中說的話有點好奇,您說:「小心分析發表和引用數據代表由數據驅動的科學決策和基金,也可能成為解決短板發展強項的關鍵策略。」可以請您進一步說明嗎?引用數據如何能用在政策和基金決策上?
文獻計量分析文獻最大的好處是由上而下的切入,有可能總結大量的信息,決定研究版圖中的關鍵特點,但這有可能不會被注意到或有人欣賞,因為傳統在同行評審來自更有局限性的個人知識和經驗的觀點是由下往上。再來,具有高度偏倚的引文特征分布能快又有效地讓人關注范圍內最大或最高的作品。當然,一個領域中最突出的比起其他領域有可能是相對較小的數值,因為不同領域的平均引用數也不同。還有要記得的是根據期間做調整,因為發表較久的論文有較長的時間積累引用數,所以需要相對指標或標準化指標。引用分析可以表現的是研究在領域中的影響力或專業的正面證據,還有影響力與其他不管是科研人員、單位或國家的關聯,這個證據能對影響前后提供更好地理解。由于不是所有的東西都能補助,有邏輯的做法是宣傳或資助那些做出被證明具有影響力的研究的科研人員,但這并不是在說只有哪些在引用指標上有高研究影響力記錄的人才有資格獲得支持。已經有很多人都說過“缺乏證據并不代表證據不存在”,所以,除了過去成功的量化指標記錄外,一定要保留依據知識和直覺進行政策和基金決策的空間,特別是為了支持處在科研早期的研究人員。
這只是完整使用數據驅動來強化研究能力的一部分而已,研究的生命周期比發表論文及其后續吸引的引用來得長多了。在發表前有同行評審,科研人員在發表前要投入大量精力改善研究記錄。做這件事的高校研究人員應該要獲得認可,即使是因為參與單位上持續進行的項目的整體策略獲獎也是好事。這就是為什么科睿唯安最近會收購讓科研人員分享、討論、獲得同行評審以及編校學術論文工作認可的全球領導平臺 Publons 的原因。(https://clarivate.com/blog/news/clarivate-analytics-acquires-market-leader-publons/) 抓取并衡量這個緯度的研究活動能擴展單位的數據,協助其決策。
科學計量學近來有什么創新的發展?
我已經有提到一些了,例如 altmetrics 還有通過取得全文數據能做到的情境和情感分析,基金數據分析也因為論文開始加入這個信息而變得可行。科睿唯安從 2008 年 8 月就開始收錄基金來源,所以我們現在已經有將近十年的數據了。連結基金來源與發表論文還有從引用數所透露出的影響力成為新的前沿趨勢,基金單位一定會想知道他們所做出的基金決定帶來了什么結果和影響。加快產業、高校、政府和私人基金創新的渴望促進了越來越多的跨領域研究,跨領域研究的未來、本質和潛力能帶來更多發現。定義跨領域研究則是個挑戰,可以從很多不同的面向來看,特別是傳統的領域界線已經越來越沒有意義。盡管如此,就我來看,用回顧性和前瞻性的方式研究,結合不同緯度的知識,如何產生重要的研究發現會是科學計量學的沃壤。另外跟這個有點關聯的是科學融合的成長,感謝計算機速度、內存的提升,還有許多學術團體開發出的軟件,讓人可以自己輕松做出多種視覺化圖像。
今天學術出版領域正經歷快速的數字化轉換,現在數據可以被許多人用不同形式儲存在多個平臺上,這樣子的開放取得是否讓信息檢索復雜化?文獻計量學在這個復雜的數字期刊出版中能如何幫助信息檢索?
從印刷到數字媒體的進步是大家樂見的,已經而且將會繼續對信息的散布、使用和分析帶來革命性的改變。我喜歡手上拿著書本和期刊的感覺,我也覺得閱讀印刷資料比在屏幕上閱讀容易,但這也許是印刷本唯一的好處了,當然,要利用數字轉換帶來的可能性需要適應。作者和單位的獨特識別碼 DOIs (Digital Object Identifiers) 是基本必備的,現在也越來越多地方采用。ResearcherID 或 ORCID 這類獨特的作者識別碼因為能解決作者的姓名問題,當其被全球廣泛采用時,將會大大幫助科學計量分析,引用句子分析得以進行,解析出引用事件的背景和情感。區別引用的“質量”這個議題已經討論了好幾十年,但現在終于在技術上得以大規模進行。我所說的“質量”指的是看清參考內容是正面或支持、負面或批評還是單純中立。為了加速這方面的發展,科睿唯安最近宣布資助 ImpactStory 的 oaDO 服務,該服務通過免費快速開放的 API 提供開放獲取全文版本的已發表文章 (https://clarivate.com/blog/science-research-connect/clarivate-analytics-acquires-publons/) 我想我應該提一下“大數據”分析,但不同人對這個詞的理解不同,而且有些過度宣傳了,不過,全文論文還有與其相關的數據集應當要進行挖掘,解析出所有各種新的關聯和連結。這個挖掘不僅限于文字,還可以用在引用上,這已經是正在發生的事了。
這些聽起來都很振奮人心。這里有一個比較個人的問題,Eugene Garfield 是科學計量學的先鋒人員之一,而你跟他密切地工作了好幾年,能跟我們分享與他一起工作的經驗嗎?
能夠跟他一起工作超過三十年真的非常榮幸,他對我來說是 mentor 也是朋友。許多人認為他是商人或是創業家,設計販賣 Web of Science 和 Current contents 這類數據庫商品,但我認為他是第一個也是最重要的研究人員,他對分析和了解數據的熱愛遠勝于其他事物,因此能創造出這些商品。他的學術貢獻(不只發明科學的引文索引)成就了他和科學計量學之父 Derek de Solla Price。噢,我有說到他是個天才嗎?他當然是,但他也是慷慨善良的人。我很想念他。
最近科睿唯安宣布 Eugene Garfield 引用分析創新獎,能請您稍微介紹一下這個獎項嗎?
在 Gene(Eugene 的昵稱)于今年二月底過世后不久,科睿唯安決定以他的名義創立一個獎項來紀念他。我們幾個參與這個獎項設置的人選擇了他一生工作的核心“引用分析”做為獎項主軸,因為被引的文獻是 SCI 構成的重點,而他用了七十年的時間研究一種又一種的形式。這個獎項將會支持跟引用分析有關的研究項目,但不僅限于研究表現的研究,科學結構分析、科學測繪、監控趨勢還有信息檢索引用的功用都包含在內,這些是 Gene 一開始感興趣的領域。第一次的得獎名單會在慶祝 Gene 的一生的活動上公布,預定在今年 9 月 15 到 16 日在菲律賓舉行。除了獎項外,還有 25,000 美元的獎金,以及取得支持研究項目的 Web of Science 數據。我們希望處于科研早期的研究人員來申請,也就是取得博士學位不滿十年的人。
【感謝 David A. Pendlebury 接受意得輯專家視點的采訪,與我們分享這么多有用的觀點!】