聯邦學習致力解構大模型下的數據生態與安全之困

來源：新華網時間：2023-06-02 11:58:33

AIGC正在改變世界，自從 ChatGPT 對話機器人的橫空出世后，一石激起千層浪，人工智能也正在從感知理解走向生成創造，這是一個關鍵里程碑。ChatGPT上線后很快風行一時，短短4個月時間里，國內至少30個研發機構與企業紛紛推出自有品牌的大模型與相關產品。生成式AI大模型完成了從0到1的飛躍，是信息技術革命發展到特定歷史階段的產物，并且已成為未來發展趨勢，推動AI邁向通用人工智能。

然而，馬斯克卻公開表示ChatGPT“好得可怕”（scary good），危險的強人工智能或許已離不我們不遠。今年4月，馬斯克、《人類簡史》作者Yuval Noah Harari、紐約大學教授馬庫斯等1000多名人工智能專家和行業大佬在公開信中呼吁：“ChatGPT等AI研究室需暫停研發6個月！”給出的理由是“只有當我們確信它們的影響是積極的，并且它們的風險是可控的時候，才能開發更強大的人工智能系統。”

喜憂參半，大模型飛速發展的同時也面臨著諸多風險隱憂，數據隱私泄露、安全漏洞、數據濫用、數據壟斷、不公平性、公域數據即將耗盡等已然成為大模型的主要“隱患”。香港科技大學講座教授、加拿大工程院及加拿大皇家學院兩院院士楊強及其團隊正在嘗試通過聯邦學習和大模型結合的方式，解構大模型下的數據生態與安全之困。

(資料圖片僅供參考)

分散的小模型協作，或將解構大模型發展之困

4月18日，OpenAI CEO Sam Altman在討論大模型發展的趨勢的時候認為，讓模型變得更大將不會進一步帶來新進展。他說，“我認為我們正處于將模型做大這一時代的盡頭。我們將以其他方式使它們變得更好。”未來模型參數應該向更小的方向發展，或者以多個小模型協作的方式工作。

“讓大模型變小”已經成為眾多研究者非常感興趣的一條路，大家先后做了很多嘗試，先是 Meta 開源了 LLaMA，讓學界和小公司可以訓練自己的模型。隨后斯坦福研究者啟動了 Lamini，為每個開發者提供了從 GPT-3 到 ChatGPT 的快速調優方案。

今年4月，隱私計算聯邦學習開源平臺FATE（Federated AI Technology Enabler）正式發布聯邦大模型FATE-LLM功能模塊，同樣是“小模型協作”的思路，FATE-LLM則是通過將聯邦學習和大模型結合，在各參與方的敏感數據不出本地域的前提下，根據各方實際數據量進行算力投入，聯合進行大模型訓練。

基于此技術方案，多個機構可以通過FATE內置的預訓練模型進行橫向聯邦，利用各自隱私數據進行聯邦大模型微調，從而提升自身大模型應用的效果。聯邦大模型不僅主要解決的是大模型訓練階段的隱私保護問題，未來還將研究在使用大模型的過程中如何保護用戶的隱私。

這種用小模型聯動大模型的方式，也很好地詮釋了小模型協作的精髓。聯邦學習作為一種分布式機器學習新范式，其“數據不動模型動，數據可用不可見”的特點有助于各參與方在保護各自數據安全與用戶隱私的前提下，進行AI協作，打破數據孤島。

也正是因為聯邦學習的這一屬性，為未來大模型的發展提供新的思路：聯邦學習與大模型結合，或將有助于構建安全合規的數據生態大陸。

近期聯邦大模型對現有大模型的支持已經在實操層面上有了很多新進展，FATE開源社區TSC Maintainer、開發專委會核心成員范濤表示：“目前的FATE-LLM可以提供對主流大模型的支持，4月發布了聯邦大模型FATE-LLM對GPT-2等大模型的支持，5月發布了對清華GLM大模型的支持。”

聯邦大模型，也需要面對“原生困境”

和大模型面臨的隱憂類似，即便是以大化小，聯邦大模型從根本地解決了大模型面臨的一些問題，但是聯邦大模型依然有著自己要解決的“原生困境”。

公平性是否能夠得到保障？數據隱私性是否能夠有效保護？規模大小不一的異構模型集如何統一調配訓練？這些也給聯邦大模型的研究者們提出了難題。從2018年開始，楊強教授和其團隊始終致力于聯邦學習的研究，如今，面對聯邦大模型可能遇到的技術難題，楊強教授認為，想要在多個維度實現“既要，又要”（既要安全可信，又要高效可用），那么就必須在“平衡”上做文章。

楊強教授認為，“未來，人工智能模型一定會成為我們貼身的人工智能助理，這就要求人工智能對個人的需求有更強的適配能力和更好的理解能力，這個時候，就會用到私域數據，包括個人的生理的數據、物聯網數據以及一些和個人非常強相關的數據。聯邦大模型針對這個問題可以做到很好的平衡：一方面數據是分布的，另一方面，這些大大小小的模型有的是分布式的，有的是個人化的、定制化的，他們一起對聯邦大模型總體產生性能的提升、效率的提升以及安全隱私的保護。”

然而，即便是“為解決數據隱私問題而生”的聯邦大模型，自身依然有要面對的安全性難題，對此，微眾銀行人工智能首席科學家范力欣認為：“針對數據竊取，我們通過加密數據來進行防御；針對模型竊取則是通過水印機制來進行制約。目前我們已經有一套技術方案能夠支撐和有效地管理、追蹤整個模型的全生命周期的合法使用，這同樣對模型的知識產權進行了很好的保護。另外，針對數據攻擊、數據投毒這一部分行為，我們通過進行模型鎖定、參數鎖定和數據樣本鎖定的方式去防御數據投毒。”

但在諸多的大模型發展的隱憂中，不僅僅有私域數據的隱私保護問題，還有樣本分布不均衡導致模型本身的公平性問題，這該如何解決？范力欣表示，樣本分布不均衡導致模型不公平性的問題在大模型之前或者聯邦學習之前已經提出來了，這個問題的基本的解決方案是有整體思路的：在訓練模型時我們不僅僅是提升模型性能，而是對公平性、可解釋性、魯棒性等一系列跟倫理相關的目標都作為優化的約束條件或者優化的多目標一起來參與學習訓練。

這種思路在理論上提出了“多目標聯邦學習優化”的“可信聯邦學習”技術框架。在實際應用中，需要用相應的算法去一一衡量這些不同目標之間的平衡。

范力欣說：“我們模型性能要好，這是一個基本要求，但同時我們要保證它的公平性、可解釋性要做到可度量的，并且跟模型性能一起來進行優化。比如我們聯合多家機構承擔的國家科技部科技創新2030-‘新一代人工智能’重大項目里面就應用了這樣的解決方案，效果顯著。”

聯邦大模型從誕生開始就備受矚目，未來將助力重塑金融、零售、工業等多行業的數字化形態。相關應用場景包括在金融領域的智能客服、內容風控、金融資訊情感分析、文本意圖識別、營銷場景智能創意生成和優化等。盡管機構自身擁有的數據量和算力可能不足，卻仍然可以通過發揮大模型的優勢，安全合規地提升客服、營銷、風控的效果。

人工智能正在經歷從計算、感知到認知的發展階段。聯邦學習、可信聯邦學習以及聯邦學習大模型，在保證安全、高效的要求下，進一步滿足了可解釋性和普惠性等人工智能倫理的核心命題，將看似為難的“既要，又要”，變成了可以將之平衡的解決方案，這也將為人工智能生態的良性可持續發展提供助力。（新華網曹素妨）

關鍵詞：

責任編輯：FD31

上一篇：快資訊丨建德市蓮花鎮開展科技工作者人才專場活動

下一篇：最后一頁