✈️ Gate 廣場【Gate Travel 旅行分享官召集令】
廣場家人們注意啦!Gate Travel 已經上線~ 機票+酒店一站式預訂,還能用加密貨幣直接付款 💸
所以說,你的錢包和你的旅行夢終於可以談戀愛了 😎 💕
現在廣場開啓 #GateTravel旅行分享官# 活動,邀你來秀旅行靈感 & 使用體驗!💡
🌴 參與方式:
1️⃣ 在【廣場】帶話題 #Gate Travel 旅行分享官# 發帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小島 or 網紅打卡點都行)
講講用 Gate Travel 訂票/訂酒店的奇妙體驗
放放省錢/使用攻略,讓大家省到笑出聲
或者直接寫一篇輕鬆的 Gate Travel 旅行小故事
📦 獎勵安排,走起:
🏆 優秀分享官(1 名):Gate 旅行露營套裝
🎖️ 熱門分享官(3 名):Gate 旅行速乾套裝
🎉 幸運參與獎(5 名):Gate 國際米蘭旅行小夜燈
*海外用戶 旅行露營套裝 以 $100 合約體驗券,旅行速乾套裝 以 $50 合約體驗券折算,國際米蘭旅行小夜燈以 $30合約體驗券折算。
📌 優質內容將有機會得到官方帳號轉發翻牌提升社區曝光!
📌 帖文將綜合互動量、內容豐富度和創意評分。禁止小號刷貼,原創分享更容易脫穎而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
AI大模型裡的不平等:漢語訓練費用是英語的2倍!
來源:Ifanr
作者:莫崇宇
近日,X(原Twitter)用戶@Dylan Patel 展示了一份來自牛津大學的研究:通過對GPT-4 和大多數其他常見LLM 的語言進行研究,研究發現LLM(大語言模型)推理的成本差異很大。
其中英語輸入和輸出要比其他語言便宜得多,簡體中文的成本大約是英語的2 倍,西班牙語的成本是英語的1.5 倍,而緬甸撣語則是英語的15 倍。
究其原理,可以追溯到今年5 月份牛津大學在arXiv 上刊印的一篇的論文。
毫無疑問,在生成式AI 商業化的趨勢下,計算力的耗費成本也會嫁接給用戶,當下許多AI 服務也正是按照需要處理的詞元數量來計費。
論文顯示,研究者通過分析17 種詞元化方法後,發現同一文本被轉換成不同語言詞元序列時長度差異巨大,即使是宣稱支持多語言的詞元化方法,也無法做到詞元序列長度完全公平。
例如,根據OpenAI 的GPT3 tokenizer,倘若給「你的愛意」詞元化,英語只需兩個詞元,而在簡體中文中則需要八個詞元。即使簡體中文文本只有4 個字符,而英文文本有14 個字符。
類似的情況也有很多,Aleksandar Petrov 的網站中提供了許多相關的圖標和數據,感興趣的朋友不妨點擊「進去查看語言之間的差異。
在OpenAI 的官網上也有著類似的頁面,解釋了API 是如何對一段文本進行詞元化,以及顯示該文本的詞元總數。官網也提到,一個詞元通常對應英語文本的約4 個字符,100 個詞元約等於75 個單詞。
除此之外,這種詞元序列長度的差異也會導致處理延遲不公平(某些語言處理同樣內容需要更多時間)和長序列依賴性建模不公平(部分語言只能處理更短的文本)。
簡單點理解,就是某些語言的用戶需要支付更高的成本,承受更大的延遲,獲得更差的性能,從而降低了他們公平地訪問語言技術的機會,也就間接導致了英語使用者和世界其他語言使用之間形成了AI 鴻溝。
僅從輸出的成本來看,簡體中文的成本是英語的兩倍。伴隨著AI 領域的深層次發展,總是「差一步」的簡體中文顯然並不友好。在成本等各方面疊加因素的權衡下,非英語母語的國家也紛紛嘗試開發自己的母語語言大模型。
隨後阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優秀大模型也陸續湧現出來。
在這當中,華為盤古大模型中的NLP 大模型更是行業內首個千億參數中文大模型,擁有1100 億密集參數,經過40TB 的海量數據訓練而成。
正如聯合國常務副秘書長阿米娜·穆罕默德曾經在聯合國大會上警告說,如果國際社會不採取果斷行動,數字鴻溝將成為「不平等的新面孔」。
同理,伴隨著生成式AI 的狂飆突進,AI 鴻溝也很有可能成為新一輪值得關注的「不平等的新面孔」。
所幸的是,平時「慘遭嫌棄」的國內的科技巨頭已然採取了行動。