- 絮言.狂想#055:瞬間融入東歐反共小國 - 29/08/2023
- 絮言.狂想#054:» ¡我,迷失在、這場「標點」༄遊戲! « - 09/08/2023
- 絮言.狂想#053:匈集 - 22/07/2023
今集我哋睇下過去兩個月發生嘅語言新聞啦!ChatGPT同GPT4呢啲人工智能AI繼續改變語言界,一方面幫冰島保育語言,另一方面幫Duolingo呃錢!Twitter嘅演算法就冇咁高智能,反而係白紙黑字噉打壓外語?「白」呢個字,又點樣喺威爾斯將一個歷史悠久嘅盛事,變成一場風波呢?意大利修訂語言法,真係可以將你以言入罪?
另外,「同朕check下」可以講做「同朕朕下」?點解呢?一齊嚟傾下啦!
成爲 Patreon 會員除咗有足本逐字稿,仲有得投票、參與Discord,同埋以下豐富嘅額外內容添!
-手機語言大雜燴
-「回流詞」係乜嘢?
如果想單次打賞,亦都可以請我哋飲杯咖啡!
本集特別鳴謝:Klaus、Anthony、サム、阿擇
Subscribe to our newsletter!
00:00 機械人變聲器
03:40 GPT可以保育語言?
12:33 英文太好嘅弊處
20:46 Duolingo掠水計劃
27:42 Elon Musk公開Twitter原始碼,發現……!
33:42 正字特警!
43:36 熱愛語言的人有福了
48:12 飲水.思源:check(mate)
連結:
- 絮言三子同AI玩DSE
- Dalek聲
- 呃ChatGPT難唔難?
- 更正:Duolingo Max(人工智能)除咗西班牙文,仲可以用喺法文,前提係你用iOS
- Duolingo消失嘅grammar notes
- 冰島用GPT保育語言
- Duolingo Max
- Twitter唔鍾意你唔用英文
- 意大利禁英文
- 威爾斯文化節有歧視標語?
- 更正:呢句唔係全國Eisteddfod嘅標語,係Llangollen國際音樂節(其中一個大型eisteddfod)嘅標語
- 049:ChatGPT
以:我有個學生呢,我教佢廣東話嘅時候呢,佢……佢同我講咗一個詞語,我成世人都未聽過。Jaa1 si1,佢話jaa1 si1啊。
苗:咩jaa1 si1?咩意思?
以:我唔知。我話你邊度揾出嚟㗎?CantoDict呀?佢話:ChatGPT。
靳:ChatGPT嘅廣東話都係唔係好可靠㗎,我發覺。
苗:笑咗。嘩,呢啲真係學壞手勢喎。好有問題喎。
[jingle]
以:歡迎返到嚟《絮言.狂想》第五十一集,我係以色列。
苗:我係三苗。
靳:我係靳尼啊。
以:呢一集可以錄到,真係得來不易啊,因為呢,我哋啱啱經歷咗大半個鐘嘅苦難,先可以問始到錄音。
靳:唉,真係……
以:到底發生咩事呢?
苗:大半個鐘嘅技術問題啫。
以:你自己解釋!
靳:唔知我個咪定係我部電腦出現咗技術問題,跟住就變咗一個……唔知啊,Dalek嘅聲。
苗:係,如果大家有睇Doctor Who呢,就好似嗰個……嗰個Dalek,好似嗰個……點樣叫啊?嗰個形狀。乜乜機械人。
以:我都唔知。
苗:咪有個搞笑版㗎嘛,有個……
靳:總之係機械人聲。
苗:即係有啲人即係insult啲Dalek,係……
以:好似結婚蛋糕噉樣。
苗:越講越……越亂喎。好似垃圾桶噉樣㗎嘛。
以:佢有好多波波嗰個……垃圾桶囉,咪。
靳:成個垃圾桶噉嘅樣。
苗:成個……成個桶噉樣。
以:垃圾桶裏面有隻魷魚嗰個啊。
苗:畀條片大家聽下。噉呢,啱啱呢,阿靳尼就係噉嘅聲囉。就係不斷喺度oaö噉樣。有啲電音。
靳:öa……
以:係啊!嗱!唔係!Dalek佢係有輔音㗎,啱啱靳尼呢,佢講嘢呢,係冇晒輔音。
靳:係冇輔音。
以:我哋淨係……
靳:啲輔音係食晒噉樣。
苗:嗰個技術問題非常之奇怪。
靳:真係有啲……
以:喺度唱緊Old MacDonald噉樣。
靳:eieio。
以:eieio。
苗:即係平時呢,靳尼把聲都好有磁性㗎啦。今次係更加有磁性。即係電音噉樣,咁磁性。
以:係電磁嘅聲音。
靳:簡直就係磁力共振啊,呢個。
以:係。所以呢個故事教訓我哋呢,科技真係信唔過啊。雖然去到二〇二三年喇,但係仲係搞唔掂呢啲基本嘅技術嘢。
靳:呢個故事嘅教訓,就係千祈唔好用科技。
苗:即係正所謂「現代嘅解決方法,就有現代嘅問題」。
以:係咪調轉咗㗎?
苗:係啊。Modern solutions produce modern problems.
以:嗰啲解決方法,產生一啲新嘅問題呀?
苗:係啊,冇錯。
以:哦,OK。的確係嘅。我哋一直都喺度改善緊我哋嘅setup啦,係啊,我哋有更加好嘅軟件、硬件啦。噉但係同時間亦都有新嘅問題。雖然我係未換過咪嘅。
靳:我都未換過嘅,其實。
苗:大家都未換過咪囉。
靳:我係試過唔記得帶咪啫。同埋用三苗個咪囉。
以:係喎,你上次用三苗個咪㗎喎。
靳:係啊。
以:哦,可能因為你冷落咗你支咪呢,佢唔開心,就同你作反啊。
苗:佢話:哼!佢傲嬌啊!個咪。
靳:係啊。真係有幾個禮拜冇用喇,發覺係。
以:佢掛住你啊,同你發脾氣。
靳:發脾氣咪唔用佢!
以:所以呢,嗱,如果大家想我哋有更加靚聲、更加可靠嘅咪嘅話呢,噉就……噉就記住嚟Patreon度支持我哋嘞!
苗:嘩!唔得啊!呢個。好夾硬嚟啊。
以:我哋會好好噉用……喂!我……咩啊!真係㗎喎,我哋一開始講嘅時候,我哋講緊營運嘅費用吖嘛!噉係包括我哋嘅軟件、硬件嘅。
苗:係,營運成本,冇錯,冇錯。
以:所以我哋……係啊,可能唔知幾時會upgrade呢?噉就靠大家支持喇。係喇。
[03:40]
以:噉講起一啲科技嘅問題呢,不如我哋睇下我哋上次冇講到嘅新聞啊!即係其實係舊聞啦,噉但係因為我哋上次就忙住喺度吹水啦,因為又有去旅行啊,又喺度慶祝我哋五十集啊,於是呢,就冇時間講新聞嘞。噉我哋就發覺呢,呢兩個月都發生咗幾多事下喎。
苗:變咗舊聞㗎喇喎。
以:係啊,舊聞啊。冇所謂啦,我哋討論,小組討論。試加以討論。
苗:好,我同意你嘅睇法。
以:哎啊,冇口試啊,今年。我哋取代嗰個中文口試啊。
苗:係,我好贊同一號同學嘅睇法。
以:我哋睇一啲科技嘢先啦。因為呢,我哋上一集之前嗰集,就喺度講緊親愛嘅AI吖嘛。我哋就喺度討論緊ChatGPT,或者呢啲大型語言模型產生嘅問題啦,噉然之後,我哋三個人呢,就一齊玩咗ChatGPT啦。噉如果大家未睇嗰條片嘅話呢,記住睇返喇。我哋同佢玩得好開心。噉但係之後呢,就有好多唔同嘅國家啦,同組織啦,都開始用呢啲技術嚟到達成佢哋一啲新嘅目標喎。例如咩呢?
苗:呢一單呢,就係都係同ChatGPT有關嘅。噉呢,OpenAI呢,就都……其實幾耐之前喇,都。出咗一篇……一篇blog post啦,一篇網誌啦,就話冰島政府呢,就竟然利用呢個GPT4呢,就去幫助保育冰島文呢樣嘢嘅。噉佢係點樣做㗎呢?噉佢就講到呢,通常呢一啲語言模型有個問題,就係一啲比較小眾嘅語言呢,佢係都係唔識,或者唔係好叻嘅。個原因就係因為佢哋嘅training data非常之少啦,即係佢畀佢輸入嘅資料、畀佢睇嘅文,其實唔係真係咁多啊。你會諗下,成個互聯網咁大,一定會有好多英文嘅文,甚至乎其實中文啊、或者你話法文、西班牙文,都有好多好多嘅材料嘅。但係冰島呢個咁細嘅國家,得三十幾萬人,其實就好少呢啲材料嘅。
以:我哋早兩集講過呢啲模型,係需要好多好多嘅輸入啦。噉所以我哋就話佢哋會加劇咗可能啲語言之間嘅不均等啦。因為當大嘅語言好多人用嘅時候,就自然會有個好啲嘅結果出到嚟囉,有好多嘅AI囉。噉冰島文就細好多啦,噉所以就應該你……我估你而家同我個ChatGPT講冰島文,可能會cap cap地。我估啦。三苗應該試下。
苗:我諗都始終會冇英文咁好嘅。
靳:因為而家嘅ChatGPT呢,其實係呢個GPT嘅三點五嚟嘅,噉樣。噉就真係有好多人呢,試過呢,用唔同嘅語言同呢個ChatGPT傾偈,即係呢個舊啲嘅version啦。因為ChatGPT 4係付費嘅項目嚟㗎嘛。
苗:要課金啊。
靳:噉就真係有人試過用啲小眾啲嘅語言,例如話冰島文呢,噉佢哋係會整一啲即係唔啱grammar啊,或者會作啲唔存在嘅字出嚟啊,噉樣嘅情況。
苗:佢大致上都算啱嘅,但係就硬係有少少唔係好自然囉。
靳:有啲唔對路囉,就係。
以:即係「不自然語言處理」。
靳:係嘞。不自然嘅語言處理,係咪嗰個「不正常人類研究中心」啲friend嚟㗎?
苗:係啊,即係你相比起話英文,基本上你而家用嘅話,其實冇任何文法嘅問題囉。佢可能會講啲錯嘅資訊,但係佢會好啱grammar噉樣講畀你聽囉。
以:哦,係吖,係吖,係吖。因為GPT佢講英文、用英文係好叻嘅。就係佢講乜嘢先係個問題啫,噉但係可能佢其他語言就講都唔識講囉。哦,即係好似你叫佢教你廣東話,佢會教你啲唔存在嘅字㗎嘛!我記得我見過㗎。我有個學生呢,我教佢廣東話嘅時候呢,佢同我講咗個詞語,我成世人都未聽過。我話你邊度搵出嚟㗎?CantoDict呀?佢話ChatGPT。
靳:ChatGPT嘅廣東話都係唔係好可靠㗎,我發覺。
苗:喂,呢個OK喎。係咩字嚟㗎?笑咗。
以:我想揾出嚟,我想揾出嚟。
苗:嘩,呢啲真係學壞手勢喎。好有問題喎。
以:Jaa1 si1,佢話jaa1 si1啊。
苗:咩jaa1 si1?咩意思?
以:我唔知。
靳:係㗎!我之前呢,去瑞士之前呢,叫佢教我啲即係common嘅瑞士德文嘅詞語啊,或者瑞士德文會講嘅嘢呢,佢一係就畀咗標準德文我,一係就畀咗啲我查唔到嘅嘢我。
苗:應該都係作出嚟㗎喇。
以:應該就係類似噉喇。
靳:係啊,作出嚟㗎,應該。
以:但係你好難證實囉。
苗:佢好有自信噉樣……噉樣吹水。
靳:一本正經地胡說八道啊。
苗:啱啊,呢個就係ChatGPT嗰個座右銘。
以:噉我一睇冰島文呢單嘢嘅時候呢,我就諗緊:佢點樣利用嗰個GPT嚟到幫佢保育呢?係咪即係用GPT嚟到gen多啲文本吖,定係……定係愛嚟翻譯吖,定係點樣呢?
苗:佢嗰個大致上個原理,就係佢改善個GPT對於冰島文嘅理解,噉就從而就即係可以將呢個冰島文嘅知識保育咗係佢嗰個……嗰個演算法裏面囉。即係變咗係教咗個電腦識得講冰島文,噉樣嘅概念。
以:即係佢幫個GPT。
苗:噉佢點樣做嘅呢?佢就請咗四十個唔同嘅志願者啦,就不斷去同ChatGPT去傾偈啦,其實就係。噉但係點樣傾呢?就係佢會問佢一條問題啦,然後呢,嗰啲志願者呢,就會叫ChatGPT講四個答案出嚟嘅,就直接叫佢生成四個答案。之後呢,嗰一啲參與者呢,就會揀一啲啱嘅答案,然之後再同返ChatGPT講,就話:啊,呢啲就啱,呢啲就錯。噉就不斷去做呢個過程啦,就可以慢慢調教返佢啊。即係好似一個老師喺度教啲學生,個學生做練習,個老師就話:哦,你呢度錯,你呢度啱,就慢慢噉樣教識返佢囉。噉樣之後嗰個結果呢,都係……都幾好㗎,發……起碼佢畀我哋嘅嗰啲例子係……係當然係啱㗎,佢先會post出嚟啦。但係佢都有比較到直接生成咗出嚟嗰段字,同埋佢人手再改咗之後嗰段字囉。其實都真係爭少少㗎。所以其實都見到都有……都仲有一啲進步空間嘅。
The rest of the transcript is available to Patreon members.