AI沒有偏見?它們從人類的語言中學(xué)會(huì)了性別和種族歧視

新消費(fèi)
2017
04/14
15:33
量子位
分享
評(píng)論

AI沒有偏見?它們從人類的語言中學(xué)會(huì)了性別和種族歧視

在性別和種族問題上,人工智能能夠消除人類的偏見嗎?

《科學(xué)》上發(fā)表的一項(xiàng)最新研究給我們潑了一盆冷水。普林斯頓大學(xué)信息技術(shù)政策中心計(jì)算機(jī)科學(xué)家Arvind Narayanan和他的同事們發(fā)現(xiàn),機(jī)器學(xué)習(xí)算法會(huì)輕易模仿其訓(xùn)練數(shù)據(jù)集中隱含的偏見。

他們從網(wǎng)上用爬蟲收集了220萬詞的英語文本,用來訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)。結(jié)果,系統(tǒng)也會(huì)展示出了與這些文本相同的偏見。

在較為中性的例子中,人工智能系統(tǒng)更有可能將“花朵”和“音樂”與“愉快”聯(lián)系起來,而“昆蟲”或“武器”等不太愉快的詞不太可能建立這種聯(lián)系。但人工智能也也更有可能將歐洲裔美國人的名字與“快樂”聯(lián)系起來,非洲裔美國人的概率較低。同樣地,這種算法往往會(huì)將“婦女”和“女孩”與藝術(shù)關(guān)聯(lián),而不會(huì)與數(shù)學(xué)關(guān)聯(lián)。

“在機(jī)器學(xué)習(xí)執(zhí)行的所有感知任務(wù)中,都應(yīng)該擔(dān)心它是否會(huì)體現(xiàn)人類的偏見。”Narayanan說,“這可能會(huì)進(jìn)一步創(chuàng)造一種反饋回路,延續(xù)這些偏見。”

為了展示自然語言學(xué)習(xí)所能引發(fā)的偏見,Narayanan和他的同事根據(jù)心理學(xué)家揭示人類偏見時(shí)使用的內(nèi)隱聯(lián)想測驗(yàn)(IAT),創(chuàng)造了新的統(tǒng)計(jì)學(xué)測驗(yàn)。他們的成果發(fā)表在2017年4月14日出版的《科學(xué)》雜志上,這也是首份展示“文字嵌入”(word embedding)中體現(xiàn)的人類偏見的科研成果。

所謂“文字嵌入”,其實(shí)是一種普遍應(yīng)用于機(jī)器學(xué)習(xí)和自然語言處理過程的統(tǒng)計(jì)建模技術(shù)。文字嵌入需要了解一個(gè)人的語言在空間上的不同點(diǎn),并通過重現(xiàn)幾何關(guān)系的方式來分析這些點(diǎn)之間的語義關(guān)系。

猶他大學(xué)計(jì)算機(jī)科學(xué)家Suresh Venkatasubramanian表示,人工智能從訓(xùn)練數(shù)據(jù)集中學(xué)會(huì)了偏見或許算不上令人震驚的發(fā)現(xiàn),但這項(xiàng)研究駁斥了之前的一個(gè)論調(diào):人工智能天生比人類更加客觀。

由于人工智能在硅谷和世界各地的科技巨頭中十分流行,所以這項(xiàng)結(jié)果意義重大。

要理解潛在的影響,可能需要閱讀一下普利策獎(jiǎng)獲獎(jiǎng)文章《機(jī)器偏見》(Machine Bias),這個(gè)系列的文章展示了原本用來預(yù)測潛在犯罪分子的電腦程序是如何對(duì)黑形成偏見的。有鑒于此,一些研究人員考慮在部署機(jī)器學(xué)習(xí)算法的過程中,識(shí)別并減輕人類偏見所產(chǎn)生的負(fù)面影響。

“訓(xùn)練流程和訓(xùn)練數(shù)據(jù)的好壞決定了最終的算法。”Venkatasubramanian說,“它們不會(huì)生來就自動(dòng)獲得客觀立場。”

哈弗福特學(xué)院計(jì)算機(jī)科學(xué)家Sorelle Friedler表示,這項(xiàng)新的研究邁出了重要的一步,揭示出各種機(jī)器學(xué)習(xí)中可能存在的語言偏見。作為機(jī)器學(xué)習(xí)公平、負(fù)責(zé)、透明小組的組織者,F(xiàn)riedler指出,過去的研究主要調(diào)查了已經(jīng)使用的特定機(jī)器學(xué)習(xí)算法的偏見。

“我很喜歡這項(xiàng)研究,因?yàn)樗麄儧]有試圖調(diào)查單一的‘活躍’系統(tǒng),而是分析了很多活躍系統(tǒng)的一塊基石。”他說。

Narayanan和他在普林斯頓大學(xué)及英國巴斯大學(xué)的同事首先采用了文字嵌入聯(lián)想測驗(yàn)(WEAT),以此復(fù)制以往的心理學(xué)研究中的種族和性別歧視例子。但他們還開發(fā)了文字嵌入事實(shí)聯(lián)想測驗(yàn)(WEFAT),不僅僅局限于文字聯(lián)想。第二項(xiàng)測試顯示,機(jī)器學(xué)習(xí)語言聯(lián)想的統(tǒng)計(jì)學(xué)強(qiáng)度,與女性2015年在50種不同工作中占據(jù)的比例相關(guān)性極強(qiáng)。

就連研究人員都對(duì)語言使用和美國勞工部統(tǒng)計(jì)數(shù)據(jù)之間的強(qiáng)相關(guān)性感到意外。“完全根據(jù)語言使用來看,考慮職業(yè)與性別詞匯的使用關(guān)系,我們發(fā)現(xiàn)女性在任何一個(gè)職位上的相關(guān)性都達(dá)到90%。”Narayanan說。

針對(duì)這項(xiàng)新研究開發(fā)的統(tǒng)計(jì)測試,不僅暴露了機(jī)器學(xué)習(xí)領(lǐng)域的潛在偏見問題,還可以成為一項(xiàng)有用的工具,用來分析特定社會(huì)偏見在文字發(fā)展史上的演變過程。正如研究人員證明的那樣,這些測試也有助于心理學(xué)實(shí)驗(yàn)室測試所揭露的偏見與現(xiàn)實(shí)世界的實(shí)際影響之間的相關(guān)性。(Narayanan將此歸功于他的同事多樣化的學(xué)術(shù)背景,該團(tuán)隊(duì)包括機(jī)器學(xué)習(xí)專家Aylin Caliskan和認(rèn)知科學(xué)家Joanna Bryson。)

使用機(jī)器學(xué)習(xí)技術(shù)——尤其是深度學(xué)習(xí)技術(shù)——的科技巨頭和創(chuàng)業(yè)公司,都應(yīng)該盡快克服其人工智能系統(tǒng)的潛在偏見。Friedler解釋道,人們現(xiàn)在逐步意識(shí)到這個(gè)問題,并且開始展開針對(duì)性的討論,但尚未就如何處理偏見達(dá)成系統(tǒng)性的一致意見。

可以考慮從數(shù)據(jù)集中去掉偏見因素,但可能因此失去一些有用的語言和文化意義。人們需要作出艱難的道德抉擇,尋找具體的偏見和應(yīng)對(duì)策略,避免這些偏見對(duì)日漸強(qiáng)大、越發(fā)普及的人工智能系統(tǒng)產(chǎn)生負(fù)面影響。

“我們需要判斷哪些偏見在語言上有用,哪些會(huì)產(chǎn)生社會(huì)問題。”Friedler說,“如果我們認(rèn)為存在社會(huì)問題,就應(yīng)該有意識(shí)地移除這些信息。”

來源:量子位

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
ai
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場。

相關(guān)熱點(diǎn)

急性腎損傷(AKI)是指腎臟突然不能過濾血液中的廢物,這種疾病會(huì)直接破壞重癥病人的腎臟系統(tǒng)。
業(yè)界
榮耀總裁趙明在世界互聯(lián)網(wǎng)大會(huì)物聯(lián)網(wǎng)分論壇,發(fā)表了題為《物聯(lián)網(wǎng):消費(fèi)革命的黃金十年》的演講中指出,全球?qū)⒂瓉鞩oT爆發(fā)性增長期,企業(yè)對(duì)物聯(lián)網(wǎng)將迎來消費(fèi)革命的“黃金十年”。
業(yè)界
11月5日,搜狗公布了未經(jīng)審計(jì)的2018年第三季度財(cái)報(bào)。財(cái)報(bào)顯示,截至9月30日,搜狗總收入超18.8億元,同比增長10%,非美國通用會(huì)計(jì)準(zhǔn)則凈利潤1.9億元,整體業(yè)務(wù)發(fā)展穩(wěn)健。
業(yè)界
盡管AI影響范圍如此之廣,但仍然還只是亞馬遜、谷歌等大體量企業(yè)的“玩具”以及部分創(chuàng)業(yè)公司的顯著標(biāo)簽。對(duì)于絕大多數(shù)企業(yè)來說,AI 的成本高、全面部署困難等特性依然為它的落地帶來不小的困擾。
滾動(dòng)
銀河水滴創(chuàng)始人兼CEO黃永禎同時(shí)宣布,銀河水滴工業(yè)視覺平臺(tái)“IndustryAI”的工業(yè)視覺檢測算法將面向工業(yè)用戶三年免費(fèi)開放。
業(yè)界

相關(guān)推薦

1
3