字節跳動推薦平台技術公開,項亮:底層架構有時(shí)比上(shàng)層算法更重要(yào / yāo)
允中發自凹非寺
量子(zǐ)位報道(dào)公衆号 QbitAI
字節跳動已正式吹響進軍雲計算市場号角。
12 月 2 日,火山引擎全系列雲産品亮相,共推出(chū)了(le/liǎo) 78 項雲産品服務,涵蓋雲基礎、視頻及内容分發、數據中台、開發中台、人(rén)工智能等五大(dà)類。
火山引擎雲産品以(yǐ)性價比、提升業務價值作爲(wéi / wèi)重要(yào / yāo)賣點。發布會上(shàng),字節跳動 AML(應用機器學習)負責人(rén)項亮出(chū)現在(zài)“新雲·智享盛宴”分會場,詳細介紹了(le/liǎo)智能推薦如何結合雲服務爲(wéi / wèi)企業創造價值,并首次向外界分享了(le/liǎo)火山引擎智能推薦系統的(de)技術演進和(hé / huò)應用實踐。
項亮是(shì)《推薦系統實踐》的(de)作者,其所在(zài)的(de)字節跳動 AML 團隊,爲(wéi / wèi)火山引擎的(de)智能推薦技術服務提供了(le/liǎo)全力支持。
以(yǐ)下爲(wéi / wèi)項亮演講全文。
項亮演講原文
很多人(rén)理解推薦就(jiù)是(shì)推薦算法,機器學習模型怎麽做的(de)、這(zhè)些模型怎麽調參,覺得這(zhè)些很重要(yào / yāo)。其實我想說(shuō),推薦系統裏底層的(de)工程架構、系統架構非常重要(yào / yāo),某種程度上(shàng)會超過上(shàng)層的(de)算法。
我們在(zài)内部很多實踐裏也(yě)看到(dào),底層工程架構、系統架構如果出(chū)現問題,對業務造成的(de)影響是(shì)大(dà)于(yú)算法的(de)。這(zhè)就(jiù)是(shì)火山引擎爲(wéi / wèi)什麽要(yào / yāo)推出(chū)推薦系統平台這(zhè)樣一(yī / yì /yí)個(gè)偏底層架構的(de)産品。
我給大(dà)家分三個(gè)方面介紹一(yī / yì /yí)下智能推薦平台:首先介紹推薦在(zài)不(bù)同産品、不(bù)同業務中究竟發揮什麽作用,以(yǐ)及智能推薦平台會給企業帶來(lái)什麽價值;然後我會稍微詳細介紹一(yī / yì /yí)下平台各個(gè)模塊大(dà)概是(shì)做什麽的(de),具有什麽能力;最後介紹一(yī / yì /yí)些我們客戶使用推薦系統的(de)案例。
可以(yǐ)做選擇的(de)地(dì / de)方,就(jiù)可以(yǐ)做推薦
我做推薦系統已經十幾年了(le/liǎo)。很早之(zhī)前,很多人(rén)認爲(wéi / wèi)推薦就(jiù)是(shì)錦上(shàng)添花的(de)工作。但是(shì)在(zài)今日頭條、抖音這(zhè)些産品的(de)成長中,個(gè)性化推薦發揮了(le/liǎo)重要(yào / yāo)的(de)作用。推薦也(yě)逐漸成爲(wéi / wèi)了(le/liǎo)互聯網信息分發的(de)主流模式。
信息分發到(dào)現在(zài)一(yī / yì /yí)共經過了(le/liǎo)四個(gè)階段,這(zhè)些階段一(yī / yì /yí)方面有先後順序,另一(yī / yì /yí)方面也(yě)不(bù)完全是(shì)替代關系。比如最早的(de)門戶時(shí)代,信息分發的(de)方式是(shì)分類索引;到(dào)了(le/liǎo)谷歌做搜索引擎,這(zhè)是(shì)基于(yú)用戶的(de)主動性,通過搜索的(de)方式發現信息;再往後出(chū)現了(le/liǎo)臉書、YouTube,還有國(guó)内的(de)微博、微信這(zhè)些産品,用戶基于(yú)訂閱關注獲得信息;然後就(jiù)是(shì)推薦引擎,從“人(rén)找信息”變成了(le/liǎo)“信息找人(rén)”。這(zhè)是(shì)在(zài)移動互聯網時(shí)代快速發展起來(lái)的(de),現在(zài)已經成爲(wéi / wèi)了(le/liǎo)比較主流的(de)信息分發方式。
所有可以(yǐ)選擇的(de)地(dì / de)方,爲(wéi / wèi)了(le/liǎo)解決用戶選擇困難,基本都可以(yǐ)上(shàng)推薦系統。比如今日頭條,用戶看新聞,肯定是(shì)适合用推薦的(de),還有大(dà)家熟悉的(de)短視頻。分類信息也(yě)可以(yǐ)做推薦,信息的(de)分類一(yī / yì /yí)般會有很多,手機屏幕再大(dà)也(yě)是(shì)有限的(de),一(yī / yì /yí)屏展示不(bù)了(le/liǎo)多少内容。電商的(de)熱門推薦也(yě)一(yī / yì /yí)樣。
說(shuō)起電商的(de)推薦,商品詳情頁這(zhè)個(gè)地(dì / de)方,以(yǐ)前最早亞馬遜做了(le/liǎo)打包交叉銷售,當用戶買了(le/liǎo)一(yī / yì /yí)本書的(de)時(shí)候,可以(yǐ)推薦别的(de)書。最開始大(dà)家隻考慮推薦的(de)商品和(hé / huò)當前買的(de)東西是(shì)否相關,但現在(zài)都會考慮個(gè)性化推薦,不(bù)僅要(yào / yāo)和(hé / huò)當前商品相關,還要(yào / yāo)和(hé / huò)消費者的(de)興趣産生關系。
新用戶冷啓動也(yě)已經涉及到(dào)推薦。一(yī / yì /yí)般有産品會專門做精選頁面、熱門頁面給新用戶。雖然是(shì)新用戶,也(yě)可以(yǐ)通過推薦的(de)技術提升效果。像大(dà)屏,現在(zài)智能電視很普及,我們家已經沒有傳統電視了(le/liǎo),智能電視的(de)節目也(yě)是(shì)需要(yào / yāo)推薦的(de)。
另外還有社交、應用市場、音視頻、小說(shuō)的(de)推薦,基本上(shàng)可以(yǐ)看到(dào),凡是(shì)可以(yǐ)做選擇的(de)地(dì / de)方都可以(yǐ)做推薦,對效果的(de)影響也(yě)很大(dà)。
定好目标,剩下的(de)交給機器學習
智能推薦可以(yǐ)幫助客戶提升流量活躍度、銷售貢獻度和(hé / huò)效率。但是(shì),搭建整個(gè)推薦系統是(shì)非常耗費資源的(de)事情。你做推薦系統,肯定要(yào / yāo)做得更實時(shí),特征回流要(yào / yāo)快,這(zhè)些東西都消耗大(dà)量的(de)人(rén)力成本,試錯成本也(yě)很大(dà)。
企業可以(yǐ)直接在(zài)成熟的(de)推薦平台上(shàng)做推薦系統。字節跳動每天增加 1500 次 AB test,大(dà)量的(de)實驗可以(yǐ)規避各種錯誤,現在(zài)把推薦系統平台通過火山引擎開放出(chū)來(lái),降低大(dà)家的(de)試錯成本。
火山引擎智能推薦平台,第一(yī / yì /yí)個(gè)特點是(shì)端到(dào)端。這(zhè)個(gè)詞這(zhè)些年經常有人(rén)提,我估計有些人(rén)還不(bù)是(shì)特别理解。十年前業界的(de)推薦做不(bù)到(dào)端到(dào)端,比如有人(rén)買了(le/liǎo)《射雕英雄傳》,就(jiù)推薦一(yī / yì /yí)本和(hé / huò)《射雕英雄傳》相似的(de)書,基于(yú)當時(shí)的(de)技術和(hé / huò)建模方式,直接就(jiù)是(shì)通過算法工程師自己腦子(zǐ)裏的(de)策略實現的(de)。
現在(zài)的(de)技術是(shì)可以(yǐ)做到(dào)直接提升你想提升的(de)業務目标。比如你想實現什麽效果,模型可以(yǐ)直接預估這(zhè)個(gè)目标,最終結果按照預估的(de)結果排。先把目标定下來(lái),剩下的(de)都是(shì)機器學習的(de)事兒,這(zhè)就(jiù)是(shì)端到(dào)端,這(zhè)個(gè)能力會全流程提供給客戶。
第二是(shì)實時(shí)性,比如消費者購買商品的(de)行爲(wéi / wèi),下次給他(tā)推薦的(de)時(shí)候,能不(bù)能用上(shàng)剛剛發生的(de)行爲(wéi / wèi),這(zhè)也(yě)很關鍵。業界開始做實時(shí)的(de)推薦系統,可能就(jiù)是(shì) 2013、2014 左右的(de)時(shí)候。據我所知,現在(zài)很多企業并沒有做到(dào)完全的(de)實時(shí),大(dà)部分人(rén)還是(shì)今天訓練幾個(gè)模型,明天就(jiù)按照今天的(de)模型預估用戶的(de)興趣。我們所有系統都是(shì)實時(shí)的(de),特征實時(shí)更新、模型實時(shí)訓練,可以(yǐ)給用戶實時(shí)的(de)反饋。
再往下就(jiù)是(shì)大(dà)規模。我們在(zài)内部具備的(de)處理大(dà)規模數據的(de)推薦系統、廣告系統的(de)能力,對外會同步提供。
然後是(shì)行業定制。我們提供了(le/liǎo)一(yī / yì /yí)些行業模闆,包括内容、電商等我們有實踐的(de)行業。當然有很多行業我們沒有做,但是(shì)智能推薦平台上(shàng)會基于(yú)我們對外合作中積累的(de)行業經驗,給每個(gè)行業提供現成的(de)模闆,希望大(dà)家配置的(de)時(shí)候不(bù)用配太多東西,就(jiù)可以(yǐ)快速構建推薦系統。
另外,很多企業都希望自己有研發能力,希望系統不(bù)要(yào / yāo)太黑盒了(le/liǎo)。我們提供的(de)平台是(shì)兼具黑白盒能力的(de)平台,你既可以(yǐ)實現:什麽都不(bù)管,就(jiù)把數據接對了(le/liǎo),目标定對了(le/liǎo),系統就(jiù)可以(yǐ)做到(dào);你也(yě)可以(yǐ)實現:深度開發,比如系統裏面調調模型,加加特征,這(zhè)個(gè)也(yě)是(shì)支持的(de)。
接下來(lái)是(shì)更加細節的(de)指标,比如模型種類,支持很多種不(bù)同的(de)模型。我們對各種模型都做了(le/liǎo)充分的(de)内部探索,提供出(chū)來(lái)的(de)是(shì)真正有用的(de)。比如多目标,現在(zài)推薦系統往往不(bù)隻是(shì)有一(yī / yì /yí)個(gè)目标,我們提供了(le/liǎo)多目标的(de)支持。還有很多比較細節的(de)技術。
用好推薦平台,提升的(de)不(bù)僅僅是(shì)營收
字節内部有很多産品,都是(shì)通過推薦中台把産品在(zài)底層打通的(de)。比如A産品上(shàng)有一(yī / yì /yí)個(gè)方法特别有用,B産品借鑒過去也(yě)很快,我們希望把這(zhè)樣的(de)能力同步到(dào)對外部客戶的(de)服務中。火山引擎的(de)智能推薦平台,就(jiù)是(shì)基于(yú)字節推薦中台打造的(de)。
在(zài)主要(yào / yāo)功能上(shàng),火山引擎智能推薦平台提供的(de)推薦類型非常豐富,黑白盒功能也(yě)介紹過,第三就(jiù)是(shì)校驗和(hé / huò)歸因分析。做推薦,數據是(shì)非常關鍵的(de),比如給平台的(de)數據是(shì)錯的(de),那推薦肯定做不(bù)好,往往這(zhè)一(yī / yì /yí)步是(shì)很多推薦系統工作中最耗時(shí)的(de)部分,所以(yǐ)我們平台會給大(dà)家提供校驗和(hé / huò)歸因功能,方便大(dà)家把數據做對。另外大(dà)家在(zài)實際工作中不(bù)隻是(shì)模型,還有各種各樣的(de)運營策略,我們也(yě)提供這(zhè)種能力。
最後講一(yī / yì /yí)些客戶案例:
一(yī / yì /yí)家電商客戶,在(zài)很多位置接入了(le/liǎo)信息流的(de)個(gè)性化推薦。比如個(gè)性化搜索,以(yǐ)前搜索和(hé / huò)推薦聽起來(lái)是(shì)兩個(gè)不(bù)同的(de)技術,但是(shì)在(zài)電商裏,搜索結果也(yě)需要(yào / yāo)個(gè)性化。火山引擎的(de)智能推薦平台,幫助這(zhè)家客戶在(zài)推薦場景中獲得人(rén)均 GMV100% 的(de)增長,提升了(le/liǎo)平台收入和(hé / huò)用戶體驗。
電視現在(zài)也(yě)非常互聯網化了(le/liǎo),也(yě)可以(yǐ)接推薦系統。比如一(yī / yì /yí)些客戶關心時(shí)長和(hé / huò)付費轉化率,這(zhè)是(shì)可以(yǐ)通過機器學習模型預估的(de),也(yě)取得了(le/liǎo)不(bù)錯的(de)效果,無論是(shì)首頁的(de)個(gè)性化推薦還是(shì)頻道(dào)頁推薦、詳情頁推薦。
此外還有内容社區、廣告等案例,最後講的(de)一(yī / yì /yí)個(gè)是(shì)手機廠商的(de)應用商店,這(zhè)是(shì)我們技術 toB 做得最早的(de)業務,從幾年前就(jiù)開始做了(le/liǎo)。客戶在(zài)使用我們平台過程中,研發團隊的(de)能力也(yě)得到(dào)了(le/liǎo)提升,從這(zhè)兩條曲線就(jiù)可以(yǐ)看到(dào),雙方效果的(de)差距越來(lái)越小。這(zhè)也(yě)說(shuō)明,智能推薦平台的(de)作用不(bù)僅是(shì)提升營收,還能夠爲(wéi / wèi)客戶創造更多價值。
希望未來(lái)我們有機會爲(wéi / wèi)更多客戶服務。我的(de)分享就(jiù)到(dào)這(zhè)裏,謝謝大(dà)家!
— 完 —