國產ChatGPT還沒火,數據標注公司已經漲了幾輪。
創業邦(ID:ichuangyebang)原創
作者丨洪雨晗
(資料圖)
編輯丨昝立永
題圖丨unsplash
國內又一AI領域的大牛宣布進軍大模型領域創業。
3月19日晚,創新工場董事長兼CEO李開復在朋友圈發布消息稱其正在親自籌組 Project AI 2.0,一個致力打造 AI 2.0 全新平臺和 AI-first 生產力應用的全球化公司。李開復認為目前的人工智能應用,僅僅是AI 2.0 能力的開端,而在他的計劃中,Project AI 2.0 不僅僅要做中文版 ChatGPT,更要去引領全球的人工智能浪潮。
李開復表示:“AI 2.0帶來的平臺型機會將比移動互聯網大十倍,這也是中國第一次迎來平臺競逐的機會。新平臺上所有用戶入口和界面都將被重寫,能夠建立下一代平臺的公司將會取得巨大的優勢和話語權?!?/p>
上周是人工智能領域有史以來最瘋狂的一個星期,從GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言,再到周末晚李開復朋友圈發布“英雄帖”,人工智能領域的一枚枚重磅炸彈讓人應接不暇。
在大模型以及ChatGPT的消息刷屏,各AI領域的大牛集結向國產大模型發起沖擊之時,其實有一家公司在數月前ChatGPT火熱之時已經賺麻了。
站上風口,老天喂飯
從上周微軟正式宣布,將Microsoft 365服務全面接入聊天機器人技術AI Copilot,以海天瑞聲為代表的數據標注企業漲幅就已超過15%,如果將時間線延長至今年1月份,海天瑞聲的股價已從當時的每股60元上下暴漲至每股近200元,股價翻了三倍多。
即便海天瑞聲緊急發布公告作出風險提示:“自然語言業務對公司整體貢獻大約在10%左右”“公司尚未與OpenAI開展合作,其ChatGPT的產品和服務尚未給公司帶來業務收入”,但資本市場的熱情仍然不減,公司的股價一直在高位徘徊。
資本市場對以海天瑞聲為代表的數據標注企業的偏愛不難理解,有投資人打趣道:“有實際產品就是不一樣,AI這三個月的熱度超過了元宇宙三年間積攢的熱度?!痹贑hatGPT火熱之時,相關概念股自然也是水漲船高,更何況根據海天瑞聲的招股書顯示,其主要客戶名單中有Open AI背后的投資公司微軟的身影。
也就是說海天瑞聲雖然沒有給ChatGPT母公司Open AI提供相關數據標注服務,但其在投資者互動平臺表示微軟一直是公司多年合作的頭部客戶,而且除了微軟外,百度、騰訊、阿里、字節等國內有實力做中文大模型的互聯網大廠幾乎都是海天瑞聲的重要客戶。
海天瑞聲可以說非常幸運,雖然沒有去刻意追尋時代的風口,但其自2005年成立以來卻數次乘上人工智能爆發的東風,實現了迅猛發展,當然,這和海天瑞聲創始人賀琳的專業技術背景密不可分。
據公開資料顯示,海天瑞聲創始人賀琳是68年生人,從北京大學畢業后就一直在中國科學院聲學研究所,從事語音識別、語音合成、漢語語言理解、語音心理測試等方面的研究工作,先后參與了“漢語人機語音對話系統工程”、“漢語語音參數合成”等國家自然科學基金重點項目。
賀琳35歲創立海天瑞聲的原因在于基礎訓練數據的缺乏:“當時我認為這是未來的一個方向,因為大家在工作中都會遇到這樣的瓶頸。一些企業的研究員更想專注于做算法,但又缺乏數據。”
海天瑞聲成立初期主要從事語音采集及利用方面的業務,很明顯,憑借賀琳的專業技術底蘊對采集的開源語音進行加工處理,也因此海天瑞聲在智能語音方面積累了深厚的研究成果。
隨著人工智能行業的迅猛發展,數據標注訓練的市場需求開始涌現,海天瑞聲拓展了業務范圍,在訓練數據方面進行了技術研發,并在此期間拿下了微軟、百度、三星等大客戶。
“我們的許多客戶都是全球性的大型科技公司和頭部人工智能企業,他們的產品需要推廣到世界各個角落,所以產品中的語種/語言功能也需要能夠匹配其所布局的地方區域?!辟R琳表示,隨著人工智能行業的進一步發展,海天瑞聲的業務量猛增,根據海天瑞聲2022年半年報,其在國內市場占有率達12.9%。
還能火多久?
賀琳曾對外表示:“數據是算法發展和演進的‘燃料’,算法、算力、數據這三個要素一定要互相作用,才能使AI行業得以發展?!?/p>
AI數據標注是訓練AI大模型過程中不可或缺的一環,AI數據的處理過程包括對數據的收集、原始數據的清洗以及對數據進行標注,數據標注通常被視為沒有什么技術含量的“dirty work(臟活累活)”,因為數據標注僅僅是工人對文本、圖像、視頻進行分類劃分,把數據轉化為機器模型可以理解的信息。
海天瑞聲的NLP數據標注服務,圖源:海天瑞聲官網
早期的AI模型訓練有一個廣為流傳的說法——“有多少人工,就有多少智能”。舉一個簡單的例子,一個AI模型想要學會識別狼和狗的圖像,那么一種方法就是先用人工識別標注好的數據進行分類,喂給AI模型進行學習,AI模型的能力越強,背后人工的付出就越多。
因而這項工作對勞動力幾乎沒有要求,所以不少企業把這項工作外包給第三方。像Open AI就將部分數據標注工作外包給肯尼亞勞工,但因工作環境糟糕,加之低廉的薪水,從而被不少媒體報道批評。
Meta首席人工智能科學家Yann LeCun就曾評論ChatGPT稱:“(它)并不具有創新性,也不具有革命性……它只是個巧妙的組合”。
其實不僅是Open AI,國內不少專門的數據標注公司也是設立在十八線的鄉鎮城市,國內媒體《三聯生活周刊》就有一篇報道專門講述了黃土高原縣城里的一群寶媽成了AI訓練師。就連海天瑞聲也不例外的將其最基礎的數據分類、標注公司外包給了第三方。
可以說,很長一段時間以來,AI數據的處理和標注其實就是一個簡單的人力“內卷”的生意。誰的人工更便宜,誰就能接到更多的訂單,誰的勞動力更多,誰就能接到更大的數據包標注工作。
然而,隨著行業對ChatGPT研究越多,發現傳統的數據標注工作已難以支撐起GPT-4這樣的人工智能模型,GPT-4可以根據人工標注的反饋結果來不斷優化自身模型,專業的標注、評估和反饋相當于ChatGPT進化過程中的獎勵函數。
海天瑞聲CV標注,圖源:海天瑞聲官網
不少有志于自身打造中文世界大模型的公司已開始意識到這件事情,不再外包數據標注的工作。不少標注師的工作也從圖像是貓還是狗變成了一些涉及意識形態和價值觀判斷的工作,在一些專業細分領域還涉及了行業的Know-How,工作門檻已開始提高,普通標注師進行簡單的圖像、文字劃分已難以完成這部分工作。
這些變化已開始對現在的AI數據標注行業造成了沖擊,雖然在人工智能迅猛發展的今天,部分初始階段的普通數據標注需求依然存在,但數據標注公司想要長久發展,就需要在無監督(含自監督)、半監督的機器學習技術上有投入和積累,還需要不斷提高數據標注師的素質能力,升級自己的人才梯隊,而不是簡單的外包給人力成本更低的第三方。
從“dirty work”到有一定技術門檻的工作,沒有人能躺著掙到錢,海天瑞聲想要繼續站在風口,必須開始行動起來了。


