
學習
對人工智慧對齊問題的探討
先前我們曾在一篇文章中談論到會限制 AI 發展的因素,其中一項是關於人類的限制。這邊的限制涉及法規以及道德層面的議題,也正是因為這些議題過於複雜,所以推進速度並不算快,因為這涉及對整個社會的穩定與安全議題。 如果 AI 失控,做出對人類有害的舉動時,人類已將大量的控制權交給 AI,那人類該如何自保? 這裡頭涉及了事前的干預,也就是避免 AI 產生這類意圖,或者在產生這類意圖時,有機制能防止他採取行動。而涉及了事後的補救,也就是當事情已發生,還可以如何回復原樣。但現階段討論較多的,大多是事前干預。 但事前干預,該如何干預?什麼樣的干預方向才恰當?這些問題暫時都沒有標準答案,但我們需要做出對齊,確保我們對這些事情的看法一致。 而「AI 對齊」(AI alignments)就是應確保 AI 的行為能與人類價值觀相匹配,確保 AI 以對人類和社會有益的方式行事,不會因此侵害人類的人身安全與和權利。 今天看了一篇騰訊研究院的文章(大模型時代AI價值對齊的問題、對策和展望),有些不錯的收穫。加上內容大多是基於英美語系國家的的科學研究,而非中國本地,