科研人科研事

AI潤色效果幾何，這里有四款工具的綜合測評

全職科研工作者，專注混合式研究（質性+量化）、跨學科理論+實證研究、國學愛好者

2024年03月25日 540 次瀏覽

ChatGPT于一年前問世，AI話題熱度至今未退。有人嘆謂新興科技，也有人關心技術和自身有什么關系。在Nature近日發布的一項樣本為1659人的調查中，有超過半數受訪者認為目前AI在科研中的可施展之處在于為非英語母語者作文章潤色及翻譯。

而在ChatGPT之前，市面上不乏以人工智能驅動的翻譯、潤色工具。作為學術出版從業者，我們及用戶最關心的問題不外乎：AI潤色質量如何；能否取代人；哪款工具最好用。

本文帶著祛魅的目的對四款AI工具作了測評，希望能解答以上問題。愿你看過之后善用科技，不因未知而仰望，也無謂傲慢貶損。鑒于出版界目前對AI生成的文字持保守態度，許多期刊、基金、協學會不接受以機器撰寫內容投稿，我們僅將測評范圍劃定在語言潤色功能內。

統計標準定義

本測評以一段約600字的研究型論文為樣本，分別經四款AI工具潤色語言，另外引入人工潤色結果作為對照。

將人工潤色納入對比，一來是模擬科研作者先用AI潤色再自行校對的過程；再則是出于學術道德考量，表明學術文章的署名作者可以借助工具完善內容，卻也應明確對工具作業結果負責的立場。

*樣本文章為中文母語者撰寫，英語是其第二語言。測評前作者已知情同意，原文可見參考文獻。

本測評以人工編輯潤色結果為標準，判斷AI工具的語言編輯效果，評估指標如下：

改對：即工具修改結果與人工編輯改動一致。

改錯：即工具修改結果與人工編輯改動不同，且含語法錯誤。

未改：即工具未識別出人工編輯作出的改動。

改進：即工具識別出人工編輯遺漏的錯誤。

無明顯對錯：即工具修改結果與人工編輯改動盡管不同，但語法正確，僅涉及語言風格、措辭等變化。

編輯效果之改了多少

在深入至“AI能改到什么程度”問題之前，不妨先看看改寫量。

Grammarly未識別出的錯誤最多，不過但凡有改動都校正準確；
Paperpal識別出了所有問題，改對數最多；
QuillBot遺漏了超過半數的錯誤，在29處改動中仍有1處改錯；
ChatGPT的改動總數最多，但改錯率也最高。有超過一半的改動無明顯對錯，這是因為ChatGPT對文章的改寫程度高，至于是好是壞下文還會展開。

Default Alt text

*測評工具均為免費版，分別為Grammarly Free、Paperpal Free、QuillBot Free、ChatGPT 3.5。

編輯質量之改動優劣

錯在哪里

AI工具的潤色或者說改寫邏輯，其一是替換同義詞。換得好能令行文正式、用詞不單一。但對作者判斷是否替換得當的要求也更高，在沒有學科知識結構支撐的情況下，換詞很可能讓術語走樣。

由同義詞替換引發術語出錯也是此次測評中最常見的問題，分為兩類。

1.改變術語意思

ChatGPT在編輯中，將learning改為acquisition（圖3）。不過從data learning到data acquisition，定義的內容已經變了。

Default Alt text

圖3-潤色改變術語意指

圖4中也有類似例子，ChatGPT將原文中的parallel mechanism用同義詞作了替換，parallel和concurrent都有同時發生的意思。但在計算機領域中，并行“parallel mechanism”是并發“concurrent?mechanism”的子集，兩者表達的精準度有別。

Default Alt text

圖4-潤色改變術語精確度

2.祛技術性

在QuillBot的返稿中，計算機術語時間步長time step被改為step，偏移了學術語境。

Default Alt text

圖5-潤色祛除術語專業性

基礎語法編輯效果對比

1.單復數

英語中有集合名詞，以單數形式出現，根據語境其單復數性質會有不同。比如people從不加-s，但所指絕不止一人。

以下例句中的vector就被當作實際意義為復數的集合名詞寫了下來：

Afterwards, the feature map with channel-attention is split into a series of the vector containing feature information along the time dimension.

vector在計算機領域指存放數據或數據結構的序列，可譯為序組，是可數名詞。所以句中的vector理應改為vectors。此處或許是原文作者筆誤，因其樣本文章中多次出現vectors一詞，都用對了單復數。

測評中，ChatGPT、Paperpal、QuillBot對此錯誤都校正準確。Grammarly對單復數未作改動，既沒能判斷單句中的詞性詞意，對上下文用詞一致性的把握也欠火候。

Default Alt text

圖6-對單復數編輯正確的工具

Default Alt text

圖7-對單復數編輯錯誤的工具

2.冠詞

當非母語者的筆觸落在冠詞上，往往伴隨著猶疑。不該添冠詞的地方加多了，會顯得唐突；而把應有的冠詞略掉，句子的韻律生被抽走一拍，可讀性受阻。更重要的是冠詞有其功能性，影響著表意。

樣本例句：

Due to the presence of parallel mechanism in decoder, the inputs after the current time will be set to zero in order to facilitate the calculation.

這句話說的是：由于解碼器的并行機制，輸入計法是如何設置的。前半句中少了兩個冠詞，實際應為“Due to the presence of?a?parallel mechanism in the decoder...”。

decoder特指研究中的解碼器，有點名意味，宜用the修飾。而parallel mechanism則泛指并行機制這一運行邏輯，結合語境前面用a修飾更合理。

這兩處錯誤Grammarly、Paperpal、QuillBot都修改正確；ChatGPT識別出句子少了兩個冠詞，但其中一處校正有誤，將a?parallel mechanism前的冠詞寫作the。

Default Alt text

圖8-對冠詞編輯正確的工具

Default Alt text

圖9-對冠詞編輯錯誤的工具

3.從句用that還是which

拿不準定語從句用that還是用which是個頑疾，許多人初中英語課染病后始終治不好。

拿以下樣本選句為例：

As shown in Fig. 3, the input of the proposed channel-attention-based CNN is a 2D data map which involves senser measurements in multiple time steps.

*此處“senser”是原稿中的拼寫錯誤。

定語“which involves senser measurements in multiple time steps”，意為含多個時間步長的傳感器測量值，修飾2D data map并定義其內容，屬限定定語從句。

如按嚴格的語法應用，此處應該用that而非which，但現代英語已不做硬區分。用that最好，用which也不算錯。

盡管如此，Grammarly、Paperpal、QuillBot都嚴謹地替換為that，ChatGPT按照其熱衷改寫的特性，用動詞ing做后置定語，也無可指摘。

Default Alt text

4.主謂一致

主謂一致性語法難點有二，識別主語及判斷其是否可數。

取樣文章中有如下句子：

Although the size of input and output is seemingly the same, the meanings behind them are totally different.

input/output可同時做可數名詞與不可數名詞。結合語境，句中指機器學習中的輸入輸出序列，為可數名詞。the?size of input and output乍看是單數，但結合下文中的the meanings behind them則不難理解，作者的意思是the size of the input and the size of the output，屬復數。

Grammarly和QuillBot沒有識別出后文的隱藏線索，而ChatGPT和Paperpal則在這句的編輯中展示了對語法和語境的兩重理解。

Default Alt text

圖11-對主謂一致編輯正確的工具

Default Alt text

圖12-對主謂一致編輯錯誤的工具

綜合評語

ChatGPT

ChatGPT得到的編輯指令是“edit and proofread the text into academic language”。編輯結果在修改語法之余做了大量改寫，可以看作是同類工具grammar check + paraphrase兩種功能的組合。文字流暢、貼近母語者水準；擅用同義詞替換邏輯，把簡單詞匯轉寫為“大詞”。后者對人工校對的要求高，替換是否有礙準確性，或用詞是否過于艱深令表達效果失色，都需要專業判斷。此外，編輯結果無法追蹤修改痕跡，需借助第三方軟件對比編輯前后文本，操作起來略有不便。

Default Alt text

Grammarly

改得比較淺，校正停留在基礎語法上。盡管免費版支持設置書面/口語模式及調節受眾理解力（圖14），但在改稿中沒有體現，專業用詞替換或措辭調整的情況均為零。

Default Alt text

Paperpal

與人工編輯的潤色結果非常接近，糾錯和校正的綜合效果好。測評僅啟用了語言編輯功能，不涉及改寫，返稿結果在專業上忠于原文，對學科術語有一定敬意，語言表達則更偏正式。比如將afterwards、after that改為subsequently；make clear改為clarify。其他三款工具除ChatGPT都沒能向前邁這一步。

Default Alt text

Paperpal支持逐句查看扣分點，視圖類似Word的追蹤效果。句首自動歸納問題性質，如重新措辭、主謂一致、大小寫等。但如能更詳細地注釋語法規則，給用戶判斷是與非一些參考會更理想。

QuillBot

語言編輯效果中規中矩，識別問題和改錯準確性在Grammarly之上。QuillBot的語法釋疑相對完善，即對改動之處給出的語法說明在其他三者之上。

Default Alt text

圖16-三款工具的語法問題分析界面

QuillBot允許用戶上傳文檔，平臺會在讀取文檔后將內容自動轉寫成文本開始編輯。遺憾的是，這一功能沒能如我預期保護文檔格式。樣本文章含多處特殊字體或符號， QuillBot都未能識別，只用空格占位。需要說明的是，Grammarly及Paperpal也沒識別出特殊字符，ChatGPT則用[Variable Name]統一指代，但它們均不支持上傳文檔，對格式完整的預期本身也低

參考文獻

https://www.nature.com/articles/d41586-023-02980-0

https://www.science.org/content/page/science-journals-editorial-policies#image-and-text-integrity

https://www.sciencedirect.com/science/article/abs/pii/S0951832022000102

https://www.diffchecker.com/text-compare/

https://chat.openai.com/

https://app.grammarly.com/

https://edit.paperpal.com/

https://quillbot.com/grammar-check

∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵

Paperpal由意得輯母公司開科思研發，匯集逾二十一年的發表支持經驗，是一款意圖提升研究者英語寫作體驗的AI工具, 集語言編輯、文本改寫與生成、投稿檢查三類主要功能。可令各類學術體裁生色，適用于期刊投稿、學位論文、基金標書、會議講演稿等多種內容的編輯與改寫。已獲諸多頂尖大學與主流出版社背書，使用者覆蓋130個國家，累積好評逾60萬則。