如果你是一名在校大學生,或者你是一位大學英語教師,你或許想知道:一篇優秀的英語作文平均句長多少最合適,哪些不地道的“中國式”英語搭配出鏡率最高,如何讓多少有些讓人望而生畏的英語寫作變得“喜聞樂見”?新近出爐的《中國學生英語寫作能力調查藍皮書》會告訴你答案。
為調研中國學生英語寫作能力,中國高校英語寫作教學協同創新聯盟(以下簡稱“聯盟”)今年4月以命題作文的形式,征集10萬篇學生作品。截止到5月10日,共有近30萬名學生在線提交了自己的英語作文。聯盟對收集到的英語作文進行初步分析,形成《中國學生英語寫作能力調查藍皮書》的數據報告部分,對相關數據進行深度分析和挖掘的工作正在進行中。
首都師范大學副校長周建設在接受科技日報記者采訪時指出,中國目前有超過1億在校學生學習英語,通過對海量教學數據的收集和分析更能客觀真實地反映學生英語能力和教學效果。“大數據時代,如何將大數據技術應用到英語寫作教學中,向學生和老師們提供更多數據支持是我們一直在探索的課題”。
大數據分析為英語作文提供“診斷”標準
“語言是人類思維的載體,研究語言,研究怎么應用語言,這是非常值得做的事情,尤其是在大數據時代”,中國工程院院士李德毅表示。他是在近日召開的語言智能與外語能力提升學術研討會上做上述表述的。
為了幫助大家更好地理解大數據技術在英語寫作中的應用,北京語言智能協同研究院副院長張躍舉了個形象的例子。人們去醫院體檢會測量血壓,醫生會根據測到的數值高低給予相應的治療。這里涉及到兩個問題,首先需要一個測量血壓的工具來獲取數據,同時對獲取到的數據進行評判還要有一個診斷標準。而診斷標準緣何而來呢,勢必要通過對海量數據的長期跟蹤研究。對英文作文的“診斷”,自然也不例外。
周建設表示,聯盟通過在線平臺批改網在一個月的時間里搜集到近30萬篇英語作文,在較短的時間里獲得體量如此龐大的英語作文電子數據,這在過去沒有相應技術支持的情況下是難以想象的。“接下來,更重要的是對海量數據進行分析挖掘,獲取有助于英語作文評判的數據標準,同時對提高學生英語作文能力提供有針對性的建議”。
事實上,評判一篇英語作文的優劣有很多客觀的維度,比如詞匯豐富度、從句密度、搭配錯誤率等等。通過對數據的初步分析,張躍和同事們有了一些發現。他告訴科技日報記者,本次搜集到的作文中,平均句長是20.29個單詞,系統共標記2348695處錯誤,其中出現頻率最高的錯誤是主謂不一致,占比為16.83%,緊隨其后的是疑似誤用名詞詞組,占比8.83%。
據介紹,此次英語作文在線征集活動共吸引了來自全國30個省份463所學校的300814名學生和3876位教師的參與。根據學校類別的不同,報告中對985院校、211院校、普通本科、獨立學院、高職高專的學生作文進行了比較分析。“對于參加人數超過3000的學校,我們會單獨為其出具一份報告,便于其更好地了解學生英語寫作的水平”,張躍表示。
在線互動模式讓英語寫作化身“升級”游戲
在英語作文調研活動籌備會議上,張躍和同事們最初預想的目標是能征集5到10萬篇作文。活動開始后,學生和老師們的參與熱情著實出乎張躍的預料。5月10日本是作文征集活動的截止日期,但仍有不少此前沒趕上參加的學校要求加入。
對學生寫作行為數據的分析是此次調研分析的重點之一。報告顯示,參與本次活動的學生平均修改3.88次,即學生在老師看到其最終版本之前,已經自行修改了3.88次。在收到的265684篇有效學生作文中,修改2次及以上的篇數為167234篇,占比62.94%。
令張躍感到吃驚的是,來自北京工商大學的一位王同學將作文修改了225次,其修改次數位列榜首。
是什么吸引著學生投入如此大的熱情來參與此次活動?張躍分析道,一個很重要的原因在于,學生在線提交作文后只需等待幾秒鐘,就能得到機器給出的分數和修改建議,根據反饋修改后再次提交,會得到比先前更高的分數。“及時的互動性和分數不斷攀升帶來的成就感,是學生如此投入的原動力,就像打贏了一場場升級游戲一樣。”
和批改網的及時反饋相比,現實中,高校學生從老師那得到的對英語作文的反饋相對滯后。清華大學外語學院教授張文霞介紹,由于高校英語老師教學任務繁重,學生交上來的英文作文往往在半個月之后才能批改完,收到反饋時學生甚至可能都忘記了當時的寫作內容。
對此,周建設有著相同的看法。他多次參與教育部組織的教學評估,一次抽查英語作業本時發現一整個班的英文作文沒有被批改完。“這不是說老師懶,而是老師的工作量確實太大了,批改作文是一項耗時費力的細活,如果有好的技術來替代這部分工作又何樂而不為呢?”
機器能欣賞到英語作文的美感嗎?
人工智能之父、英國科學家阿蘭·麥席森·圖靈,早在1950年,就發表了一篇題為《機器能思考嗎?》的論文,成為劃時代之作。
機器能否像人一樣欣賞英文作文的美感,從立意的角度對作文進行評判?采訪中,科技日報記者一再向專家們求證這一問題。畢竟一篇作文是有一定思想內涵的,不只是一串串沒有溫度的字符。
對此,周建設坦言,目前人工智能技術沒有發展到能讓機器從立意的角度去考量一篇英語作文。但是,目前英語考試中的作文部分更多的是考察作者的
表達是否規范,遣詞造句是否符合語法要求,從這個角度而言,機器批改作文是可行的。“事實上,托福和GRE等大型考試的作文部分都是機器來閱卷的”。
批改網在得到許多學生和老師支持的同時,也面臨著“更看重語言的形式,而不是看語言的內容”的批評。南京大學外語學院教授王海嘯則認為,批改網的不足給后來者留下了改進的空間。“大數據時代的數據是沒有止盡的,關鍵在于我們怎么挖!”
清華大學張文霞教授補充道,批改網提供的數據可用于英語寫作課堂教學、評測等多個方面,下一步,應將批改網和老師的反饋相結合,按照各自的需求建立所在學校的數據庫,同時,對動態的數據要且建且用且增加。

