近日,專業(yè)中文大模型測評(píng)機(jī)構(gòu)SuperCLUE發(fā)布最新一期《SuperCLUE-AutoQA 中文大模型汽車知識(shí)測評(píng)基準(zhǔn)總榜》。在此次測評(píng)中,汽車之家自研“倉頡大模型”以72.96分的總成績位居6個(gè)參評(píng)大模型榜首,較第二名領(lǐng)先13.63 分,優(yōu)勢(shì)尤為突出。這一佳績不僅充分印證了倉頡大模型在汽車垂直領(lǐng)域的卓越性能,為其在更多終端場景的應(yīng)用落地筑牢基礎(chǔ),更直觀展現(xiàn)了汽車之家“ALL in AI”戰(zhàn)略轉(zhuǎn)型的堅(jiān)定決心與階段性突破成果。
據(jù)了解,本次測評(píng)內(nèi)容涵蓋汽車咨詢、汽車對(duì)比、汽車推薦、汽車資訊、用車問題5個(gè)一級(jí)維度及11個(gè)二級(jí)子維度,旨在為中文大模型汽車知識(shí)領(lǐng)域的評(píng)估提供全面且多維的參考。測試題目由SuperCLUE機(jī)構(gòu)獨(dú)立開發(fā),分為客觀題與主觀題兩類,通過兩輪測試綜合考量大模型在信息時(shí)效性、事實(shí)準(zhǔn)確性、答案一致性和理解用戶意圖等方面的能力。測評(píng)結(jié)果顯示,在5個(gè)一級(jí)維度中,汽車之家倉頡大模型在汽車咨詢、汽車對(duì)比、汽車推薦、汽車資訊4個(gè)維度均位居第一;用車問題維度雖位列第二,但差距不足一分。
優(yōu)異成績的背后,是汽車之家倉頡大模型在模型能力、知識(shí)架構(gòu)和數(shù)據(jù)資源層面構(gòu)筑的三重壁壘。
著眼真實(shí)場景 打造三大優(yōu)勢(shì)能力
深耕汽車行業(yè)20年,汽車之家對(duì)行業(yè)發(fā)展和用戶行為已有深刻理解,并以此為基礎(chǔ)重點(diǎn)優(yōu)化倉頡大模型的三項(xiàng)核心能力,使其更適應(yīng)當(dāng)下真實(shí)交互場景,為用戶提供更具價(jià)值的回應(yīng)。
首先,“懂用戶,善理解”。隨著汽車消費(fèi)市場逐漸成熟,用戶向大模型咨詢選購建議時(shí),通常會(huì)提出包含多個(gè)條件的明確需求,例如“家里有兩個(gè)小孩,預(yù)算20萬左右,想要空間大的SUV,最好是今年新款,有什么推薦嗎?”。這要求大模型具備在多條件中提取、整合并推理正確答案的能力。測評(píng)結(jié)果顯示,面對(duì)這類問題時(shí),倉頡大模型的答案準(zhǔn)確性顯著更高。
其次,“不順從,懂澄清”。新車型更新速度快,消費(fèi)者難以及時(shí)掌握全部準(zhǔn)確信息,提問中可能夾帶過時(shí)或錯(cuò)誤內(nèi)容。測評(píng)記錄顯示,與通用大模型往往順應(yīng)用戶表述不同,倉頡大模型會(huì)先依據(jù)自身知識(shí)庫核實(shí)信息,識(shí)別其中不準(zhǔn)確之處并向用戶澄清,確?;卮鸹谡鎸?shí)有效的數(shù)據(jù)。
最后,“不編造,給解法”。實(shí)際交流中,部分提問本身不存在有效答案,例如用戶詢問“一款已停產(chǎn)車型的最新優(yōu)惠政策”。面對(duì)這種情況,倉頡大模型不會(huì)隨意編造答案,而是明確告知車型已停售,補(bǔ)充相關(guān)二手車行情信息,同時(shí)推薦具有類似特點(diǎn)的在售車型,幫助用戶獲得更具參考價(jià)值的選擇。
提升信息質(zhì)量 構(gòu)建專業(yè)知識(shí)圖譜
對(duì)于大模型而言,調(diào)用信息的質(zhì)量直接影響輸出結(jié)果。為提升回答準(zhǔn)確度、最大程度降低AI幻覺出現(xiàn)概率,汽車之家發(fā)揮垂直領(lǐng)域優(yōu)勢(shì),為倉頡大模型構(gòu)建了全新的信息檢索鏈路。
目前,通用大模型較多采用對(duì)用戶提問即時(shí)檢索、擴(kuò)散搜索的方式,即全網(wǎng)搜索包含相關(guān)信息的網(wǎng)頁,再從網(wǎng)頁中提煉、分析和推理后給出回復(fù)。在自媒體盛行的當(dāng)下,互聯(lián)網(wǎng)信息質(zhì)量良莠不齊,采用這一方式的大模型難免接觸大量噪音信息,這也是通用大模型幻覺率較高的主要原因。
而汽車之家依托完備的車型庫體系、海量專業(yè)測評(píng)結(jié)果、真實(shí)口碑信息和全面汽車百科,為倉頡大模型搭建了完整的結(jié)構(gòu)化汽車領(lǐng)域知識(shí)庫和知識(shí)圖譜。因此,倉頡大模型在回答用戶提問時(shí),僅需在這些高質(zhì)量信息中篩選總結(jié),排除了絕大部分干擾信息,既提升了信息處理效率,又有效保障了回答準(zhǔn)確率。
挖掘數(shù)據(jù)資產(chǎn) 筑起專有信息壁壘
數(shù)據(jù)量是影響大模型推理結(jié)果的另一重要因素。QuestMobile發(fā)布的《2025中國移動(dòng)互聯(lián)網(wǎng)半年大報(bào)告》顯示,2025年6月,汽車之家全景生態(tài)總用戶量達(dá)5.02億,日均用戶量達(dá)8151.91萬。龐大的用戶體量疊加20年積累,為倉頡大模型提供了豐厚的數(shù)據(jù)資產(chǎn),其中大量私有化數(shù)據(jù)更是價(jià)值顯著。
不可否認(rèn),汽車之家網(wǎng)站發(fā)布的公開信息,通用大模型也可獲取。因此,正是私有化數(shù)據(jù)的加持,讓倉頡大模型在汽車知識(shí)領(lǐng)域?qū)崿F(xiàn)“遙遙領(lǐng)先”——用戶瀏覽行為、最新成交底價(jià)、真實(shí)續(xù)航里程等未經(jīng)加工的、通用大模型無法獲得的數(shù)據(jù)筑起牢固的信息壁壘,使倉頡大模型相比通用大模型能更深刻理解業(yè)務(wù)場景、更準(zhǔn)確識(shí)別用戶意圖、更全面進(jìn)行推理思考,最終給出更具價(jià)值的回答。
通過本次測評(píng),也能發(fā)現(xiàn)倉頡大模型在部分方面仍有提升空間。對(duì)此,汽車之家CTO項(xiàng)碧波表示:“成立20年以來,汽車之家一直堅(jiān)持‘用戶第一’的價(jià)值觀,不斷在內(nèi)容、產(chǎn)品、技術(shù)、服務(wù)上投入,優(yōu)化用戶看車、買車、用車、換車的體驗(yàn)。在AI時(shí)代,汽車之家敏銳意識(shí)到AI技術(shù)有機(jī)會(huì)幫助我們跨越式提升用戶體驗(yàn),因此在2025年將‘ALL in AI’作為公司核心戰(zhàn)略。倉頡大模型正是為更好解決汽車領(lǐng)域問題而專門研發(fā)的行業(yè)大模型,我們始終認(rèn)為‘行業(yè)問題需要用行業(yè)大模型來解決’。感謝SuperCLUE的測評(píng)和反饋,其全面、務(wù)實(shí)的評(píng)價(jià)體系讓我們對(duì)自研的倉頡大模型有了更客觀的認(rèn)識(shí)。倉頡大模型在汽車知識(shí)領(lǐng)域取得的領(lǐng)先優(yōu)勢(shì),堅(jiān)定了我們持續(xù)投入的信心;同時(shí)評(píng)測反饋的問題也讓我們更清晰地認(rèn)識(shí)到需要提升的方向。汽車之家將繼續(xù)依托20年行業(yè)深耕和全景生態(tài)數(shù)據(jù)優(yōu)勢(shì),不斷迭代模型的理解力、推理力與執(zhí)行力,讓AI真正懂車、懂用戶、懂場景,并將倉頡大模型的能力應(yīng)用到各個(gè)業(yè)務(wù)場景中,為所有買車用戶提供選車省心、買車省錢的智能服務(wù)?!?/p>
據(jù)了解,SuperCLUE是大模型時(shí)代CLUE基準(zhǔn)的發(fā)展與延續(xù)。后者發(fā)起于2019年,是一項(xiàng)致力于科學(xué)、客觀、中立的語言模型測評(píng)基準(zhǔn)。SuperCLUE基于多年測評(píng)經(jīng)驗(yàn),結(jié)合通用大模型在學(xué)術(shù)、產(chǎn)業(yè)與用戶側(cè)的廣泛應(yīng)用,構(gòu)建了多層次、多維度的綜合性測評(píng)基準(zhǔn),其測評(píng)結(jié)果在業(yè)內(nèi)廣受認(rèn)可并被廣泛引用。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )