每10份音頻就有8份被“胡編”？OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝存重大缺陷

2024-10-28 15:47:13 財(cái)聯(lián)社

　　每10份音頻就有8份被“胡編”？OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝存重大缺陷

　　財(cái)聯(lián)社10月28日訊(編輯瀟湘)生成式人工智能領(lǐng)域的領(lǐng)軍者OpenAI，曾吹噓其人工智能轉(zhuǎn)錄工具Whisper具有接近“人類水平的穩(wěn)定性和準(zhǔn)確性”。

　　然而，隨著該轉(zhuǎn)錄工具在各行各業(yè)被越來(lái)越多地普及使用，其問(wèn)題似乎也正開(kāi)始凸顯——根據(jù)業(yè)內(nèi)媒體對(duì)十多位軟件工程師、開(kāi)發(fā)人員和學(xué)術(shù)研究人員的采訪，如今Whisper所存在的一個(gè)重大缺陷已愈發(fā)不容忽視：它很容易會(huì)編造大段文字，甚至是整段句子。

　　這些業(yè)內(nèi)專家表示，一些編造出的文字——在行業(yè)內(nèi)被稱為“幻覺(jué)”，可能包括種族言論、暴力措辭，乃至完全杜撰出的醫(yī)療建議。

　　專家們?cè)絹?lái)越擔(dān)心這種“胡編亂造”可能造成嚴(yán)重后果，因?yàn)閃hisper當(dāng)前正被全球多個(gè)行業(yè)用于翻譯和轉(zhuǎn)錄采訪內(nèi)容、生成文本以及為視頻制作字幕。雖然OpenAI曾警告不應(yīng)在“高風(fēng)險(xiǎn)領(lǐng)域”使用該工具，但目前一些美國(guó)醫(yī)療中心都正開(kāi)始使用基于Whisper的工具，來(lái)記錄患者與醫(yī)生間的對(duì)話。

　　據(jù)經(jīng)常使用Whisper的研究人員和工程師表示，他們?cè)诠ぷ髦薪?jīng)常會(huì)遇到該工具出現(xiàn)“幻覺(jué)”。例如，密歇根大學(xué)的一名研究人員在研究公共會(huì)議的轉(zhuǎn)錄準(zhǔn)確率時(shí)發(fā)現(xiàn)，他所審核的每十份音頻轉(zhuǎn)錄中，便有八份存在“幻覺(jué)”。

　　一位機(jī)器學(xué)習(xí)工程師則稱，在他分析的100多個(gè)小時(shí)的Whisper轉(zhuǎn)錄中，他最初發(fā)現(xiàn)大約有一半存在“幻覺(jué)”。第三位開(kāi)發(fā)人員指出，在他用Whisper創(chuàng)建的26000份記錄中，幾乎每一份都發(fā)現(xiàn)了胡編亂造的現(xiàn)象。

　　即使是在那些錄制良好的簡(jiǎn)短音頻樣本里，問(wèn)題也依然存在。在最近的一項(xiàng)研究中，計(jì)算機(jī)科學(xué)家們?cè)趯彶榈某^(guò)13000個(gè)清晰音頻片段中發(fā)現(xiàn)有187個(gè)存在“幻覺(jué)”問(wèn)題。

　　研究人員表示，這種趨勢(shì)將導(dǎo)致在數(shù)百萬(wàn)段錄音中出現(xiàn)數(shù)以萬(wàn)計(jì)的錯(cuò)誤轉(zhuǎn)錄。

　　后果嚴(yán)重

　　曾在拜登政府領(lǐng)導(dǎo)白宮科技政策辦公室工作的Alondra Nelson表示，這種錯(cuò)誤可能會(huì)造成“非常嚴(yán)重的后果”，尤其是在醫(yī)院里。

　　目前，包括明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi)的超過(guò)30000名臨床醫(yī)生和40個(gè)衛(wèi)生系統(tǒng)，已開(kāi)始使用法國(guó)AI診療公司Nabla基于Whisper打造的工具。

　　Nabla公司的首席技術(shù)官M(fèi)artin Raison表示，該工具根據(jù)醫(yī)學(xué)語(yǔ)言進(jìn)行了微調(diào)，以轉(zhuǎn)錄和總結(jié)醫(yī)生與病人間的互動(dòng)。該工具轉(zhuǎn)錄的就診記錄目前已多達(dá)約700萬(wàn)次。該公司官員還指出，他們知道Whisper會(huì)產(chǎn)生幻覺(jué)，并正在努力解決這個(gè)問(wèn)題。

　　目前擔(dān)任普林斯頓高等研究院教授的Nelson表示，“沒(méi)有人希望出現(xiàn)誤診。(該領(lǐng)域)應(yīng)該有更高的標(biāo)準(zhǔn)�！�

　　目前，Whisper還被用于為聾人和聽(tīng)力障礙者制作字幕——這是一個(gè)特別容易因出現(xiàn)錯(cuò)誤轉(zhuǎn)錄而陷入困境的人群，因?yàn)槊@人和聽(tīng)力障礙者完全無(wú)法識(shí)別“隱藏在所有文本中”的編造內(nèi)容。

　　這種幻覺(jué)在Whisper中的普遍存在，已促使眾多專家、倡導(dǎo)者和OpenAI前員工呼吁美國(guó)政府考慮制定人工智能法規(guī)。他們指出，OpenAI至少需要解決這一缺陷。今年2月因擔(dān)心公司的發(fā)展方向而從OpenAI辭職的工程師William Saunders就表示，如果OpenAI愿意優(yōu)先解決這個(gè)問(wèn)題，這個(gè)問(wèn)題似乎是可以解決的。而如果你長(zhǎng)期把它放在那里，而人們對(duì)它的功能過(guò)于自信，并把它集成到所有這些其他系統(tǒng)中，那就有麻煩了。

　　雖然大多數(shù)開(kāi)發(fā)人員都認(rèn)為轉(zhuǎn)錄工具不可避免會(huì)拼錯(cuò)單詞或出現(xiàn)其他錯(cuò)誤，但不少工程師和研究人員表示，他們從未見(jiàn)過(guò)其他人工智能轉(zhuǎn)錄工具像Whisper一樣容易產(chǎn)生幻覺(jué)。

　　目前，該工具已被集成到OpenAI旗艦聊天機(jī)器人ChatGPT的某些版本中，同時(shí)也是甲骨文和微軟云計(jì)算平臺(tái)的內(nèi)置產(chǎn)品，為全球數(shù)千家公司提供服務(wù)。它還可用于將文本轉(zhuǎn)錄和翻譯成多種語(yǔ)言。

　　僅在上個(gè)月，開(kāi)源人工智能平臺(tái)HuggingFace上的一個(gè)Whisper最新版本就被下載了420多萬(wàn)次。該平臺(tái)的機(jī)器學(xué)習(xí)工程師Sanchit Gandhi表示，Whisper是最流行的開(kāi)源語(yǔ)音識(shí)別模型，從呼叫中心到語(yǔ)音助手，都內(nèi)置了Whisper。

　　康奈爾大學(xué)教授Allison Koenecke和弗吉尼亞大學(xué)教授Mona Sloane，目前已研究了他們從卡內(nèi)基梅隆大學(xué)的研究資料庫(kù)TalkBank中獲得的數(shù)千個(gè)簡(jiǎn)短音頻片段。他們發(fā)現(xiàn)，近40%的幻聽(tīng)是有害的或令人擔(dān)憂的，因?yàn)檎f(shuō)話者的原意可能被曲解或歪曲。

　　研究人員并不確定Whisper和類似工具產(chǎn)生幻覺(jué)的原因，但軟件開(kāi)發(fā)人員表示，這些胡編亂造往往發(fā)生在出現(xiàn)停頓、背景聲音或音樂(lè)播放時(shí)。OpenAI此前在網(wǎng)上披露的信息中曾建議，不要在決策情境中使用Whisper，因?yàn)闇?zhǔn)確性上的缺陷會(huì)導(dǎo)致結(jié)果上的明顯缺陷。

　　而針對(duì)最新爆料，有OpenAI發(fā)言人回應(yīng)稱，OpenAI會(huì)在接下來(lái)的模型更新中加入相應(yīng)的反饋機(jī)制。

來(lái)源：財(cái)聯(lián)社

編輯：張嘉怡

廣告等商務(wù)合作，請(qǐng)點(diǎn)擊這里

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人

中新經(jīng)緯版權(quán)所有，未經(jīng)書面授權(quán)，任何單位及個(gè)人不得轉(zhuǎn)載、摘編或以其它方式使用。

關(guān)注中新經(jīng)緯微信公眾號(hào)(微信搜索“中新經(jīng)緯”或“jwview”)，看更多精彩財(cái)經(jīng)資訊。

今日推薦