閱讀以下內容:AI對好萊塢字幕的培訓勝於腳本

甚至沒有那些瘋狂的,只能從一個人 - 人類 - 腦字幕上的字幕,例如”觸角濕po“ 從陌生人的東西免受你有樁坡。一個新報告大西洋 斷言,劇本作者對他們的辛勤工作和專有內容的焦慮,用於訓練試圖從事工作的事情,這確實沒有什麼可擔心的。只是使用字幕捕捉他們用人類心和人類大腦而不是腳本本身寫的語言。看?更好!

根據媒體的報導,在Apple,Anthropic,Meta,Nvidia,Salesforce,Salesforce,Bloomberg等的大型AI-Training數據集中發現了大約53,000部電影和85,000部電視劇集的字幕。據報導,其中的每部電影都在1950年至2016年提名,至少有616集辛普森一家,170集Seinfeld,45集的雙峰,以及每一集電線,,,,女高音, 和絕命毒師。該集合還包括來自圖書,YouTube視頻字幕,甚至字幕,以捕獲各種獎項節目中的預編輯對話。

想看看您最喜歡的電影或演出是否包含在現場中?大西洋報告中包含一個搜索工具。 (可能是。)

所有這些數據都來自一個名為opensubtitles.org的網站,該網站始於高尚的目的 - 輔助Google翻譯和其他翻譯工具 - 但似乎在版權方面總是有點粗略。至少有人對這一發展感到高興;據報導,數據集的創作者之一JörgTiedemann告訴大西洋他非常滿意,因為它被用來進一步侵蝕了作家房間的辛勤工作,即使這不是他的最初意圖。

那麼,為什麼要使用字幕而不是實際的劇本呢?根據媒體的說法,字幕“有價值,因為它們是一種原始的書面對話形式”,它反映了口語對話的節奏和復雜性。報告繼續說:“寫得很好的演講是AI培訓數據世界中罕見的商品,對於培訓聊天機器人自然而然地'說話'的聊天機器人可能特別有價值。”所有這些都提出了一個問題:如果這項技術如此拼命地需要竊取他人的“寫得很好的演講”才能使用自己的聲音,那麼它是否真的應該說話?