free大陆普通话自拍,久热香蕉在线视频免费自,亚洲se在线播放,国产片香蕉国产成人免费看

陜西工人報官方網站 | 陜工網首頁 手機站 今天是
跟帖評論自律管理承諾書  不良信息舉報電話:陜工網(029-87344649)
留言板
您當前的位置:首頁 > 文化 > 評論 光明網評論員:AI作答高考卷,測出了什么?
2024-06-25 16:58:23來源:光明網
分享到:
  字體:【

  光明網評論員:大模型作答高考卷,一個有意思的實驗: 2024年全國高考結束后,上海人工智能實驗室的司南評測體系(Open Compass)選取了包括GPT-4o在內的中外6個開源模型,針對高考全國新課標I卷“語數外”三門課程進行了全卷能力測試。結果顯示,阿里巴巴的Qwen2-72B語文成績奪冠,124分;GPT-4o英語成績居首(似毫無疑問),111分。6個大模型均是數學“學渣”,最高分也沒有超過80分。

  大模型在高考季刷一下話題,很有趣,因為信息披露有限,也不必得出一些可以較真的結論。只是在測評中,也有一些大模型訓練的蛛絲馬跡可以捕捉,助人們更豐富地理解AI。

  比如,6個模型在語文卷中現代文閱讀部分得分差距不大,卻在文言文考題中差距極大,墊底的是來自法國Mistral的對話模型。這可以略窺不同模型在訓練材料中的語言占比,感受一下歐洲大模型對漢語訓練材料的看重程度到底幾何。

  比如,閱卷老師表示,多數模型無法理解“本體”“喻體”“暗喻”等語文概念,寫作文不像寫作文,更像問答題。這是因為AI輸出本質上是一種基于數據的模式匹配,而不是傳遞人的情感體驗,因此無法生成文章之為文章的那個情感紐帶,生成文章字里行間的“潛臺詞”,故而只有“回答”而不能“作文”。

  比如,6個大模型都折戟數學,遠未達到及格水平。尤其耐人尋味的是,它們對數學主觀題目的回答“具有迷惑性”,甚至出現了過程錯誤但答案正確的情況。這句話說白了就是,大模型沒有足夠的邏輯推理能力,但在學到人類這個深度能力之前,它先學會了用數據占有優勢撒謊,還可以編造復雜謊言。(見光明網評論員文章《你被人工智能騙過么》

  實際上,“語數外”三科閱卷老師在整體點評時都提到了主觀題的問題,除了語文數學上述問題之外,英語閱卷人也提出了大模型的作文超字問題——英語已經是三科中客觀性最強的科目。這意味著,大模型在處理復雜上下文時可能會遇到困難,難以準確理解多義性、歧義性和語境變化。而這種多義性與歧義性,以及兼縱理性與情感的處理要求,恰恰是今天大模型們要進軍的醫療、司法等領域決策過程的特征。

  在現實世界里,高考是選拔賽,也是成人禮。綜合理解卷面上的問題與背后的考察意圖,是“人”成熟的一個標識,繼續社會化的重要準備。大模型“參加”這次高考,作為一個黑盒模型,決策過程難以解釋,面對稍微復雜一點的語境,調試性又明顯不足,看來還沒到說成熟的時候。




責任編輯:胡睿琳

關注公眾號,隨時閱讀陜西工人報

新聞推薦

陜工網——陜西工人報 © 2018 sxworker.com. 地址:西安市蓮湖路239號 聯系電話:029-87344649 E-mail:sxworker@126.com

陜ICP備17000697號陜公網安備61010402000820 版權所有 Copyright 2005陜工網 未經書面授權不得轉載或鏡像 網站圖文若涉及侵權,請聯系我們刪除。

'); })();