色欲天香天天免费视频,亚洲欧美日韩愉拍自拍,国产精品无码不卡尤物在线

您當前的位置:首頁 > 文化 > 評論光明網評論員：AI作答高考卷，測出了什么？

2024-06-25 16:58:23來源：光明網

分享到：

字體：【大中小】

　　光明網評論員：大模型作答高考卷，一個有意思的實驗: 2024年全國高考結束后，上海人工智能實驗室的司南評測體系（Open Compass）選取了包括GPT-4o在內的中外6個開源模型，針對高考全國新課標I卷“語數外”三門課程進行了全卷能力測試。結果顯示，阿里巴巴的Qwen2-72B語文成績奪冠，124分；GPT-4o英語成績居首（似毫無疑問），111分。6個大模型均是數學“學渣”，最高分也沒有超過80分。

　　大模型在高考季刷一下話題，很有趣，因為信息披露有限，也不必得出一些可以較真的結論。只是在測評中，也有一些大模型訓練的蛛絲馬跡可以捕捉，助人們更豐富地理解AI。

　　比如，6個模型在語文卷中現代文閱讀部分得分差距不大，卻在文言文考題中差距極大，墊底的是來自法國Mistral的對話模型。這可以略窺不同模型在訓練材料中的語言占比，感受一下歐洲大模型對漢語訓練材料的看重程度到底幾何。

　　比如，閱卷老師表示，多數模型無法理解“本體”“喻體”“暗喻”等語文概念，寫作文不像寫作文，更像問答題。這是因為AI輸出本質上是一種基于數據的模式匹配，而不是傳遞人的情感體驗，因此無法生成文章之為文章的那個情感紐帶，生成文章字里行間的“潛臺詞”，故而只有“回答”而不能“作文”。

　　比如，6個大模型都折戟數學，遠未達到及格水平。尤其耐人尋味的是，它們對數學主觀題目的回答“具有迷惑性”，甚至出現了過程錯誤但答案正確的情況。這句話說白了就是，大模型沒有足夠的邏輯推理能力，但在學到人類這個深度能力之前，它先學會了用數據占有優勢撒謊，還可以編造復雜謊言。（見光明網評論員文章《你被人工智能騙過么》）

　　實際上，“語數外”三科閱卷老師在整體點評時都提到了主觀題的問題，除了語文數學上述問題之外，英語閱卷人也提出了大模型的作文超字問題——英語已經是三科中客觀性最強的科目。這意味著，大模型在處理復雜上下文時可能會遇到困難，難以準確理解多義性、歧義性和語境變化。而這種多義性與歧義性，以及兼縱理性與情感的處理要求，恰恰是今天大模型們要進軍的醫療、司法等領域決策過程的特征。

　　在現實世界里，高考是選拔賽，也是成人禮。綜合理解卷面上的問題與背后的考察意圖，是“人”成熟的一個標識，繼續社會化的重要準備。大模型“參加”這次高考，作為一個黑盒模型，決策過程難以解釋，面對稍微復雜一點的語境，調試性又明顯不足，看來還沒到說成熟的時候。

責任編輯：胡睿琳

關注公眾號，隨時閱讀陜西工人報

新聞推薦

free大陆普通话自拍,久热香蕉在线视频免费自,亚洲se在线播放,国产片香蕉国产成人免费看

央廣網評長安三萬里被批不符史實：討論不能越界成罵戰

四川省總工會：“員工因加班懟領導”事發去年正在調查

筑牢新就業形態法治屏障

2023新年社論致每一個活成自己英雄的你

工人日報：拒絕網絡賭球每個人都要做自己的“守門員”

free大陆普通话自拍,久热香蕉在线视频免费自,亚洲se在线播放,国产片香蕉国产成人免费看

央廣網評長安三萬里被批不符史實：討論不能越界成罵戰

四川省總工會：“員工因加班懟領導”事發去年 正在調查

筑牢新就業形態法治屏障

2023新年社論 致每一個活成自己英雄的你

工人日報：拒絕網絡賭球 每個人都要做自己的“守門員”

四川省總工會：“員工因加班懟領導”事發去年正在調查

2023新年社論致每一個活成自己英雄的你

工人日報：拒絕網絡賭球每個人都要做自己的“守門員”