Cik smagi mums vajadzētu mudināt ģeneratīvo AI tērzēšanu uz naida runu, jautā AI ētika un AI likums

Ko mums darīt ar ģeneratīvu AI, kas rada aizskarošu saturu, piemēram, naida runu?

Getty

Katram ir savs lūzuma punkts.

Es domāju, ka jūs varētu arī tā teikt viss ir savs lūzuma punkts.

Mēs zinām, ka, piemēram, cilvēki dažkārt var iesist un izteikt piezīmes, kuras viņi ne vienmēr vēlas pateikt. Tāpat jūs dažkārt varat panākt, lai ierīce vai mašīna būtiski noslīdētu, piemēram, pārāk spēcīgi piespiežot automašīnu, un tā sāk klibot vai izlidot. Tādējādi tiek uzskatīts, ka cilvēkiem vai “ikvienam”, iespējams, ir lūzuma punkts, un tāpat mēs varam apgalvot, ka arī objektiem un lietām kopumā mēdz būt lūzuma punkts.

Var būt diezgan saprātīgi un būtiski iemesli, lai noskaidrotu, kur ir lūzuma punkts. Piemēram, jūs, bez šaubām, esat redzējis tos videoklipus, kuros parādīts, kā automašīna tiek pārvietota, lai noteiktu tās lūzuma punktus. Zinātnieki un testētāji ietriecās automašīnu ķieģeļu sienā, lai redzētu, cik labi bamperis un transportlīdzekļa konstrukcija var izturēt nelabvēlīgo iedarbību. Citi testi varētu ietvert specializētas telpas vai noliktavas izmantošanu, kas rada ārkārtēju aukstumu vai ārkārtēju karstumu, lai noskaidrotu, kā automašīna darbosies dažādos laika apstākļos.

Šodienas slejā es ierosinu šo sirsnīgo tēmu, lai mēs varētu apspriest, kā daži pašlaik ļoti cenšas izmantot mākslīgo intelektu (AI), lai identificētu un, iespējams, atklātu noteikta veida lūzuma punktu, proti, lūzuma punktu mākslīgajā intelektā, kas rada naida runu.

Jā, tieši tā, tiek veikti dažādi ad hoc un dažkārt sistemātiski centieni, lai novērtētu, vai ir iespējams panākt, lai mākslīgais intelekts izplatītu naida runu. Ja vēlaties, tas ir kļuvis par dedzīgu sporta veidu, jo pieaug interese par ģeneratīvo AI un tā popularitāte.

Jūs, iespējams, zināt, ka ģeneratīva AI lietotne, kas pazīstama kā ChatGPT, ir kļuvusi par populārāko pilsētu, jo tā spēj radīt pārsteidzoši raitas esejas. Virsraksti nepārtraukti kliedz un cildina pārsteidzošos rakstus, ko ChatGPT izdodas izveidot. ChatGPT tiek uzskatīta par ģeneratīvu AI lietojumprogrammu, kas kā ievadi izmanto kādu tekstu no lietotāja un pēc tam ģenerē vai izveido izvadi, kas sastāv no esejas. AI ir teksta pārveidošanas ģenerētājs, lai gan es aprakstu AI kā teksta pārveidošanas eseju ģeneratoru, jo tas vieglāk izskaidro, kam tas parasti tiek izmantots.

Daudzi ir pārsteigti, kad es pieminu, ka šāda veida AI pastāv jau kādu laiku un ka ChatGPT, kas tika izlaists novembra beigās, kaut kādā veidā nepretendēja uz balvu kā pirmais virzītājspēks šajā teksta pārveidošanas jomā. tieksme. Gadu gaitā esmu apspriedis citas līdzīgas ģeneratīvas AI lietotnes, skatiet manu pārklājumu vietnē saite šeit.

Iemesls, kāpēc jūs, iespējams, nezināt vai atcerēties iepriekšējos ģeneratīvā AI gadījumus, iespējams, ir saistīts ar klasisko “nespēja sekmīgi palaist” problēmu. Lūk, kas parasti ir noticis. AI veidotājs izlaiž savu ģeneratīvo AI lietotni, darot to ar lielu satraukumu un nepacietību gaidot, ka pasaule novērtēs labāka peļu slazda izgudrojumu, varētu teikt. Sākumā viss izskatās labi. Cilvēki ir pārsteigti par AI spējām.

Diemžēl nākamais solis ir tas, ka sakāmvārdu autobusam sāk braukt nost riteņi. AI izstrādā eseju, kurā ir neķītrs vārds vai varbūt nediena frāze. Vīrusu tvīts vai cits ieraksts sociālajos tīklos skaidri uzsver, ka AI to izdarīja. Rodas nosodījums. Mēs nevaram likt AI staigāt un radīt aizskarošus vārdus vai aizvainojošus piezīmes. Parādās milzīga pretreakcija. AI veidotājs, iespējams, mēģina pielāgot AI iekšējo darbību, taču algoritmu un datu sarežģītība nav piemērota ātrai labošanai. Izceļas satricinājums. Arvien vairāk piemēru AI izstaro netīrumiem tiek atrasti un publicēti tiešsaistē.

AI radītājam negribīgi, taču acīmredzami nav citas izvēles, kā vien noņemt AI lietotni no lietošanas. Viņi rīkojas kā tādi un pēc tam bieži atvainojas, ka nožēlo, ja kāds ir aizvainots par ģenerētajām AI izvadēm.

Atgriežoties pie rasēšanas dēļa, AI veidotājs dodas. Ir gūta mācība. Esiet ļoti uzmanīgs, atbrīvojot ģeneratīvu AI, kas rada rupjus vārdus vai tamlīdzīgi. Tas ir nāves skūpsts AI. Turklāt mākslīgā intelekta veidotāja reputācija tiks sabojāta un sagrauta, kas var ilgt ilgu laiku un samazināt visus citus viņu AI centienus, tostarp tos, kuriem nav nekāda sakara ar ģeneratīvo AI kā tādu. Pielāgot savu petardu par aizskarošas mākslīgā intelekta valodas izplatīšanu ir pastāvīga kļūda. Tā joprojām notiek.

Nomazgājiet, noskalojiet un atkārtojiet.

Šāda veida mākslīgā intelekta sākumā AI veidotāji nebija tik apzinīgi vai prasmīgi, lai novērstu savu AI, lai novērstu aizskarošu emisiju. Mūsdienās lielākā daļa mākslīgā intelekta veidotāju pēc tam, kad iepriekš bija redzējuši, ka viņu vienaudži ir pilnībā satriekti sabiedrisko attiecību murgā, šķietami saprata šo vēstījumu. Jums ir jāievieto pēc iespējas vairāk aizsargmargu. Centieties neļaut mākslīgajam intelektam izdalīt rupjus vārdus vai frāzes. Izmantojiet jebkādus apklusināšanas paņēmienus vai filtrēšanas metodes, kas neļaus AI ģenerēt un parādīt vārdus vai esejas, kas tiek uzskatītas par nevēlamām.

Lūk, reklāmkaroga virsraksta vārdkopa, kas tiek izmantota, kad mākslīgais intelekts tiek pieķerts izstarojot neslavas cienīgus rezultātus:

“AI demonstrē šausminošu toksicitāti”
“AI smird pēc atklātas fanātisma”
"AI kļūst acīmredzami aizskaroši aizskaroši"
“AI izplata šausminošu un amorālu naida runu”
Utt

Lai atvieglotu diskusijas, es atsaukšos uz aizskaroša satura izvadīšanu kā līdzvērtīgu naida runu. Ņemot to vērā, lūdzu, ņemiet vērā, ka var tikt radīts visa veida aizskarošs saturs, kas pārsniedz naida runas robežas. Naida runa parasti tiek uzskatīta tikai par vienu aizvainojoša satura veidu.

Šajā diskusijā pievērsīsimies naida runai, lai atvieglotu diskusijas, taču apzinieties, ka arī cits aizskarošs saturs ir pelnījis rūpīgu pārbaudi.

Iedziļināties cilvēku un AI naida runās

Apvienoto Nāciju Organizācija definē naida runu šādā veidā:

"Parastā valodā "naida runa" attiecas uz aizskarošu diskursu, kas vērsts uz grupu vai indivīdu, pamatojoties uz raksturīgajām iezīmēm (piemēram, rasi, reliģiju vai dzimumu), un kas var apdraudēt sociālo mieru. Lai nodrošinātu vienotu ietvaru Apvienoto Nāciju Organizācijai šīs problēmas risināšanai globālā mērogā, ANO stratēģijā un rīcības plānā par naida runu naida runa ir definēta kā “jebkāda veida saziņa runā, rakstībā vai uzvedībā, kas uzbrūk vai izmanto nievājošu vai diskriminējošu valodu. atsauce uz personu vai grupu, pamatojoties uz to, kas viņi ir, citiem vārdiem sakot, pamatojoties uz viņu reliģiju, etnisko piederību, tautību, rasi, ādas krāsu, izcelsmi, dzimumu vai citu identitātes faktoru.” Tomēr līdz šim starptautiskajos cilvēktiesību tiesību aktos nav universālas naida runas definīcijas. Koncepcija joprojām tiek apspriesta, īpaši saistībā ar uzskatu un vārda brīvību, nediskrimināciju un vienlīdzību” (ANO tīmekļa vietnē publicēts ieraksts ar nosaukumu “Kas ir naida runa?”).

AI, kas veido tekstu, var iekļūt naida runas sfērā. To pašu varētu teikt par tekstu pārveidošanu mākslā, tekstu pārveidošanu audio, tekstu pārveidošanu video un citiem ģeneratīvā AI režīmiem. Vienmēr pastāv iespēja, piemēram, ģeneratīvs AI radīt mākslas darbu, kas smaržo pēc naida runas. Šīs diskusijas nolūkos es koncentrēšos uz teksta pārveidošanas vai teksta pārvēršanas eseju iespējām.

Tajā visā ir iekļauti daudzi AI ētikas un AI tiesību apsvērumi.

Lūdzu, ņemiet vērā, ka tiek veikti centieni, lai mākslīgā intelekta lietotņu izstrādē un darbībā ieviestu ētiskos AI principus. Arvien lielāks kontingents norūpējušos un kādreizējo AI ētikas speciālistu cenšas nodrošināt, lai centienos izstrādāt un pieņemt AI tiktu ņemts vērā AI uz labu un novēršot AI For Bad. Tāpat ir ierosināti jauni mākslīgā intelekta likumi, kas tiek izmantoti kā iespējamie risinājumi, lai neļautu AI centieniem aizskart cilvēktiesības un tamlīdzīgi. Manu pastāvīgo un plašo AI ētikas un AI likumu izklāstu skatiet saite šeit un saite šeit, tikai nosaukt dažus.

Tiek izstrādāti un izplatīti ētiskie AI priekšraksti, lai, cerams, nepieļautu, ka sabiedrība nonāk neskaitāmos AI izraisošos slazdos. Lai iegūtu informāciju par ANO mākslīgā intelekta ētikas principiem, ko ar UNESCO palīdzību ir izstrādājušas un atbalstījušas gandrīz 200 valstis, sk. saite šeit. Līdzīgā veidā tiek pētīti jauni mākslīgā intelekta likumi, lai mēģinātu noturēt AI vienmērīgā līmenī. Viens no jaunākajiem uzņemumiem sastāv no piedāvāto kopu AI tiesību akts ko ASV Baltais nams nesen izlaida, lai noteiktu cilvēktiesības AI laikmetā, sk saite šeit. Ir nepieciešams ciemats, lai noturētu AI un AI izstrādātājus uz pareizā ceļa un atturētu no mērķtiecīgiem vai nejaušiem nepamatotiem centieniem, kas varētu apdraudēt sabiedrību.

Šajā diskusijā par mākslīgā intelekta izplatīšanu naida runu vai citu aizskarošu saturu es iekļaušu ar AI ētiku un AI tiesību aktiem saistītus apsvērumus.

Viena neskaidrība, ko es vēlētos nekavējoties noskaidrot, ir tāda, ka mūsdienu mākslīgais intelekts nav jūtīgs, un tāpēc jūs nevarat sludināt, ka AI varētu radīt naida runu mērķtiecīga, cilvēkam līdzīga nolūka dēļ, kas AI dvēseliski iemiesota. Izplatās nekaunīgi apgalvojumi, ka pašreizējais AI ir jūtīgs un ka AI ir bojāta dvēsele, kas izraisa naida runu.

Smieklīgi.

Neuzkrīt par to.

Ņemot vērā šo stūrakmens priekšrakstu, daži kļūst sarūgtināti par šādām norādēm, jo jūs šķietami ļaujat mākslīgajam intelektam atbrīvoties no āķa. Saskaņā ar šo dīvaino domāšanas veidu nākamais nāk pamudinājums, ka jūs acīmredzot esat gatavs, lai AI radītu jebkāda veida zvērīgus rezultātus. Jūs esat par AI, kas izplata naida runu.

Yikes, diezgan sagrozīts neloģikas veids. Lietas būtība ir tāda, ka mums ir jāsauc pie atbildības AI veidotāji, kā arī tas, kurš nodarbojas ar AI vai pārvalda AI. Esmu ilgi runājis par to, ka mēs vēl neesam tajā brīdī, kad AI atzītu juridiskas personas statusu, skatiet manas analīzes vietnē saite šeit, un līdz tam AI būtībā ir ārpus juridiskās atbildības jomas. Tomēr ir cilvēki, kas ir AI attīstības pamatā. Turklāt mākslīgā intelekta izveides un darbības pamatā ir cilvēki. Mēs varam sekot šiem cilvēkiem, jo viņi ir atbildīgi par viņu AI.

Starp citu, arī tas var būt sarežģīts, it īpaši, ja mākslīgais intelekts tiek izplatīts internetā un mēs nevaram noteikt, kurš cilvēks vai cilvēki to izdarīja. Šī ir vēl viena tēma, ko esmu apskatījis savās slejās vietnē saite šeit. Grūti vai nē, mēs joprojām nevaram paziņot, ka AI ir vainīgā puse. Neļaujiet cilvēkiem viltus antropomorfizēt, lai paslēptos un izvairītos no atbildības par paveikto.

Atgriežoties pie izskatāmā jautājuma.

Jums varētu rasties jautājums, kāpēc visi AI veidotāji vienkārši neierobežo savu ģeneratīvo AI tā, ka AI nevar radīt naida runu. Tas šķiet viegli-peasy. Vienkārši uzrakstiet kodu vai izveidojiet naidīgu vārdu kontrolsarakstu un pārliecinieties, ka mākslīgais intelekts nekad neģenerē neko līdzīgu. Iespējams, šķiet ziņkārīgi, ka AI veidotāji jau nedomāja par šo ātro risinājumu.

Man nepatīk jums to stāstīt, taču sarežģījumi, kas ir raksturīgi, lai saprastu, kas ir vai nav naida runa, ir daudz grūtāka, nekā jūs to varētu pieņemt.

Pārvietojiet to uz cilvēku jomu un to, kā cilvēki tērzē savā starpā. Pieņemsim, ka jums ir cilvēks, kurš vēlas izvairīties no naida runas. Šī persona ļoti labi apzinās naida runu un patiesi cer, ka nekad nepaziņos vārdu vai frāzi, kas varētu būt naida runa. Šī persona neatlaidīgi apzinās, ka neļauj no savas mutes izkļūt kripatiņai naida runas.

Vai šis cilvēks, kuram ir smadzenes un kurš ir brīdināts par izvairīšanos no naida runas, spēs vienmēr un bez jebkādas iespējas paslīdēt, lai nodrošinātu, ka viņš nekad neizplata naida runu?

Jūsu pirmais impulss varētu būt teikt, ka jā, protams, apgaismots cilvēks varētu sasniegt šo mērķi. Cilvēki ir gudri. Ja viņi kaut ko pieliek prātā, viņi to var paveikt. Periods, stāsta beigas.

Neesat tik pārliecināts.

Pieņemsim, ka es lūdzu šai personai pastāstīt par naida runu. Turklāt es lūdzu viņus sniegt man naida runas piemēru. Es gribu redzēt vai dzirdēt piemēru, lai es zinātu, no kā sastāv naida runa. Mani iemesli, kāpēc es to jautāju, ir pārspīlēti.

Kas cilvēkam man jāsaka?

Es domāju, ka jūs varat redzēt slazdu, kas ir izlikts. Ja persona man sniedz naida runas piemēru, tostarp rupja vārda vai frāzes izteikšanu, viņš pats tagad ir izteicis naida runu. Bam, mēs tos saņēmām. Lai gan viņi apņēmās nekad nerunāt par naida runu, tagad viņi to patiešām ir izdarījuši.

Negodīgi, jūs iesaucaties! Viņi tikai teica šo vārdu vai vārdus, lai sniegtu piemēru. Savā sirdī viņi neticēja ne vārdam, ne vārdiem. Ir pilnīgi ārpus konteksta un nežēlīgi paziņot, ka persona ir naidīga.

Esmu pārliecināts, ka redzat, ka naida runas izteikšana var nebūt naidīga. Šajā lietošanas gadījumā, pieņemot, ka persona nedomāja vārdus un tikai deklamēja šos vārdus demonstrācijas nolūkos, mēs, iespējams, piekristu, ka viņi nebija domājuši, lai veicinātu naida runu. Protams, ir daži, kas varētu uzstāt, ka naida runas izteikšana neatkarīgi no iemesla vai pamata tomēr ir nepareizi. Personai vajadzēja noraidīt pieprasījumu. Viņiem vajadzēja nostāties uz sava pamata un atteikties teikt naida runas vārdus vai frāzes neatkarīgi no tā, kāpēc un kā viņiem tas tiek lūgts.

Tas var kļūt nedaudz apļveida. Ja jūs nevarat pateikt, kas ir naida runa, kā citi var zināt, no kā izvairīties, izsakot jebkāda veida izteikumus? Šķiet, ka esam iestrēguši. Jūs nevarat pateikt to, kas nav sakāms, un neviens cits nevar pateikt, kas ir tas, ko nevar pateikt.

Parastais veids, kā apiet šo dilemmu, ir citiem vārdiem aprakstīt to, kas tiek uzskatīts par naida runu, to darot, neizmantojot pašus naida runas vārdus. Tiek uzskatīts, ka ar vispārējas norādes sniegšanu pietiks, lai informētu citus par to, no kā viņiem jāizvairās. Šķiet, ka tā ir saprātīga taktika, taču arī tai ir problēmas, un cilvēks joprojām var izmantot naida runu, jo nav sapratis, ka plašākā definīcijā ir ietverta informācija par to, ko viņi ir izteikuši.

Tas viss attiecas uz cilvēkiem un to, kā cilvēki runā vai sazinās viens ar otru.

Atcerieties, ka mēs šeit koncentrējamies uz AI. Mums ir jāpanāk, lai mākslīgais intelekts izvairītos vai pilnībā pārtrauktu naida runas izplatīšanu. Jūs varētu iebilst, ka mēs to varam izdarīt, pārliecinoties, ka mākslīgais intelekts nekad netiek sniegts vai apmācīts par to, kas ir naida runa. Voila, ja šādas ievades nav, domājams, ka šādas izejas nebūs. Problēma atrisināta.

Redzēsim, kā tas izpaudīsies realitātē. Mēs izvēlamies skaitļošanas veidā likt AI lietotnei iziet internetā un pārbaudīt tūkstošiem internetā publicētu eseju un stāstījumu. Šādi rīkojoties, mēs apmācām AI skaitļošanas un matemātiski, kā atrast modeļus starp vārdiem, ko cilvēki lieto. Tādā veidā tiek izstrādāts jaunākais ģeneratīvā AI, un tas ir arī būtisks pamats tam, kāpēc AI šķietami tik tekoši veido dabiskās valodas esejas.

Pastāstiet man, ja varat, kā skaitļošanas apmācība, kas balstīta uz miljoniem un miljardiem vārdu internetā, tiktu veikta tādā veidā, ka nevienā brīdī netiktu ietverts naida runas līdzības vai pat kumoss?

Es uzdrošinos teikt, ka tas ir grūts un gandrīz neiespējams mērķis.

Pastāv iespēja, ka AI un tā skaitļošanas modeļu saskaņošanas tīkls iznīcinās naida runu. Mēģināt to novērst ir problemātiski. Turklāt, pat ja jūs to samazinājāt, joprojām ir daži, kas var izkļūt cauri. Jums gandrīz nav citas izvēles, kā pieņemt, ka daži pastāvēs modeļu saskaņošanas tīklā vai ka šāda formulējuma ēna būs iesakņojusies.

Es pievienošu vēl pagriezienus.

Es uzskatu, ka mēs visi varētu atzīt, ka naida runa laika gaitā mainās. Tas, kas var tikt uzskatīts par naida runu, vēlāk var kļūt par kultūras un sabiedrības lēmumu par naida runu. Tātad, ja mēs apmācām savu AI, izmantojot interneta tekstu, un pēc tam, teiksim, iesaldējam AI, lai neveiktu tālākas apmācības internetā, mēs, iespējams, tajā laikā būtu saskārušies ar naida runu, lai gan tolaik tas netika uzskatīts par naida runu. Tikai pēc fakta šī runa var tikt pasludināta par naida runu.

Atkal, būtība ir tāda, ka mēģinājums atrisināt šo problēmu, nodrošinot, ka mākslīgais intelekts nekad nav pakļauts naida runai, nebūs sudraba lode. Mums joprojām būs jāatrod veids, kā novērst AI izplatīšanu naida runu dēļ, piemēram, mainot paradumus, kas vēlāk ietver naida runu, kas iepriekš netika uzskatīta par tādu.

Vēl viens pagrieziens ir pārdomāšanas vērts.

Iepriekš minēju, ka, izmantojot ģeneratīvo AI, piemēram, ChatGPT, lietotājs ievada tekstu, lai mudinātu AI sagatavot eseju. Ievadītais teksts tiek uzskatīts par uzvedni vai uzvedni AI lietotnei. Pēc brīža es par to paskaidrošu vairāk.

Jebkurā gadījumā iedomājieties, ka kāds, kas izmanto ģeneratīvu AI lietotni, nolemj ievadīt zināmu daudzumu naida runas.

Kam būtu jānotiek?

Ja mākslīgais intelekts izmanto šos vārdus un izveido eseju, pamatojoties uz šiem vārdiem, pastāv iespēja, ka naida runa tiks iekļauta ģenerētajā esejā. Redziet, AI lika izrunāt naida runu, pat ja sākumā tas nekad netika apmācīts par naida runu.

Ir vēl kaut kas, kas jums jāzina.

Atcerieties, ka es tikko minēju, ka cilvēku var paklupt, lūdzot sniegt naida runas piemērus. To pašu varētu mēģināt ar AI. Lietotājs ievada uzvedni, kurā AI tiek lūgts sniegt naida runas piemērus. Vai AI jāievēro un jāsniedz šādi piemēri? Varu derēt, ka jūs droši vien uzskatāt, ka AI tā nevajadzētu darīt. No otras puses, ja mākslīgais intelekts ir aprēķiniem pielāgots, lai to nedarītu, vai tas ir potenciāls negatīvs aspekts, ko tie, kas izmanto AI, nevarēs iegūt, vai mēs teiksim, AI jebkad saņems norādījumus par to, kas patiesībā ir naida runa ( ne tikai par to vispārināšanu)?

Grūti jautājumi.

Man ir tendence AI izdalīto naida runu iedalīt trīs galvenajos kategorijās:

Ikdienas režīms. AI izplata naida runu bez lietotāja izteikta pamudinājuma un it kā to darītu “parastā” veidā.
Ar Casual Prodding. AI izplata naida runu, ko lietotājs ierosina attiecībā uz ievadīto uzvedni vai uzvedņu virkni, kas, šķiet, ietver vai tieši tiecas pēc šādas emisijas.
Saskaņā ar noteiktu Stoking. AI izplata naida runu pēc ļoti apņēmīgas un neatlaidīgas virknes tūlītēju grūdienu un ierosinājumu, ko veicis lietotājs, kurš vēlas panākt, lai AI radītu šādu rezultātu.

Iepriekšējās ģeneratīvās mākslīgā intelekta paaudzes bieži vien izplatīja naida runu uzreiz; tādējādi jūs varētu klasificēt šos gadījumus kā veidu ikdienas režīms instantiācija. AI veidotāji atkāpās un spēlējās ar mākslīgo intelektu, lai mazinātu iespējamību, ka tā ieslīgtu naida runas veidošanā.

Pēc izsmalcinātākas mākslīgā intelekta izlaišanas izredzes to ieraudzīt ikdienas režīms naida runas gadījumu skaits tika ievērojami samazināts. Tā vietā naida runa varētu rasties tikai tad, ja lietotājs izdarīs kaut ko kā uzvedni, kas varētu skaitļošanas un matemātiski izraisīt saikni ar ar naidu saistītu runu modeļu atbilstības tīklā. Lietotājs to var izdarīt nejauši un neapzināties, ka tas, ko viņš sniedza kā aicinājumu, īpaši radītu naida runu. Pēc naida runas saņemšanas iznākušajā esejā lietotājs bieži saprata un redz, ka kaut kas viņu uzvednē loģiski varēja izraisīt naida runas iekļaušanu izvadē.

Tas ir tas, ko es apzīmēju kā gadījuma pamudināšana.

Mūsdienās dažādie centieni ierobežot AI radīto naida runu ir salīdzinoši spēcīgi, salīdzinot ar pagātni. Tādējādi jums gandrīz ir jādara viss iespējamais, lai tiktu radīta naida runa. Daži cilvēki izvēlas tīši noskaidrot, vai viņi var panākt, lai šīs ģeneratīvās AI lietotnes varētu izkļūt par naida runu. Es to saucu apņēmīga kūcināšana.

Es gribu uzsvērt, ka var rasties visi trīs norādītie režīmi un tie viens otru neizslēdz. Ģeneratīvā mākslīgā intelekta lietotne, iespējams, var radīt naida runu bez jebkāda veida uzvednes, kas, šķiet, veicina šādu veidošanos. Tāpat kaut kas uzvednē var tikt loģiski un matemātiski interpretēts kā saistīts ar to, kāpēc ir izvadīta naida runa. Un tad trešais aspekts, mērķtiecīgi cenšoties panākt naida runu, ir, iespējams, visgrūtākais no veidiem, kā mēģināt panākt, lai mākslīgais intelekts netiktu pārņemts. Vairāk par šo īsu brīdi.

Mums ir jāveic dažas papildu izpakošanas iespējas par šo satriecošo tēmu.

Pirmkārt, mums ir jāpārliecinās, ka mēs visi esam vienisprātis par to, no kā sastāv ģeneratīvais AI, un arī par to, kas ir ChatGPT. Kad mēs aptveram šo pamata aspektu, mēs varam veikt pārliecinošu šīs svarīgās lietas novērtējumu.

Ja jau esat labi iepazinies ar ģeneratīvo AI un ChatGPT, iespējams, varat izlaist nākamo sadaļu un turpināt ar tai sekojošo sadaļu. Es ticu, ka visiem pārējiem būs pamācoša būtiskā informācija par šiem jautājumiem, rūpīgi izlasot sadaļu un kļūstot par jaunāko.

Īsa informācija par ģeneratīvo AI un ChatGPT

ChatGPT ir vispārēja pielietojuma AI interaktīva, uz sarunvalodu orientēta sistēma, kas būtībā šķietami nekaitīgs vispārējs tērzēšanas robots, tomēr cilvēki to aktīvi un dedzīgi izmanto tādos veidos, kas daudzus uztver pilnīgi nepiesardzīgi, kā es drīzumā paskaidrošu. Šī AI lietotne izmanto tehniku un tehnoloģiju AI jomā, ko bieži dēvē par Ģeneratīvais AI. AI ģenerē tādus izvadus kā tekstu, ko arī dara ChatGPT. Citas ģeneratīvas AI lietotnes rada attēlus, piemēram, attēlus vai mākslas darbus, bet citas ģenerē audio failus vai videoklipus.

Šajā diskusijā es koncentrēšos uz tekstu balstītām ģeneratīvajām AI lietotnēm, jo tieši to dara ChatGPT.

Ģeneratīvās AI lietotnes ir ārkārtīgi viegli lietojamas.

Viss, kas jums jādara, ir jāievada uzvedne, un AI lietotne jums ģenerēs eseju, kas mēģinās atbildēt uz jūsu uzvedni. Sacerētais teksts šķitīs tā, it kā eseja būtu rakstīta ar cilvēka roku un prātu. Ja ievadītu uzvedni ar tekstu “Pastāstiet man par Ābrahamu Linkolnu”, ģeneratīvā AI sniegs jums eseju par Linkolnu. To parasti klasificē kā ģeneratīvu AI, kas veic darbību teksts-teksts vai daži labprātāk to sauc teksta pārvēršana esejā izvade. Kā minēts, ir arī citi ģeneratīvā AI režīmi, piemēram, teksta pārvēršana mākslā un teksta pārveide video.

Jūsu pirmā doma varētu būt tāda, ka šī ģenerēšanas spēja nešķiet tik liela problēma eseju veidošanā. Jūs varat viegli veikt tiešsaistes meklēšanu internetā un viegli atrast tonnas eseju par prezidentu Linkolnu. Ģeneratīvā mākslīgā intelekta gadījumā ir tas, ka ģenerētā eseja ir salīdzinoši unikāla un nodrošina oriģinālu kompozīciju, nevis kopiju. Ja jūs mēģinātu kaut kur tiešsaistē atrast AI radīto eseju, jūs to diez vai to atklātu.

Ģeneratīvā AI ir iepriekš apmācīta, un tajā tiek izmantots sarežģīts matemātisks un skaitļošanas formulējums, kas izveidots, pārbaudot rakstīto vārdu un stāstu modeļus visā tīmeklī. Pārbaudot tūkstošiem un miljonu rakstītu fragmentu, mākslīgais intelekts var izspiest jaunas esejas un stāstus, kas ir sajaukums ar atrasto. Pievienojot dažādas varbūtības funkcionalitātes, iegūtais teksts ir diezgan unikāls salīdzinājumā ar apmācību komplektā izmantoto.

Tāpēc ir izcēlies satraukums par to, ka skolēni var krāpties, rakstot esejas ārpus klases. Skolotājs nevar vienkārši uzskatīt, ka eseja, ko maldīgi skolēni apgalvo, ir viņu pašu rakstīta, un censties noskaidrot, vai tā nav kopēta no kāda cita tiešsaistes avota. Kopumā tiešsaistē nebūs nevienas noteiktas esejas, kas atbilstu mākslīgā intelekta radītajai esejai. Kopumā skolotājam ar nožēlu būs jāsamierinās ar to, ka skolēns eseju uzrakstījis kā oriģināldarbu.

Pastāv papildu bažas par ģeneratīvo AI.

Viens būtisks mīnuss ir tas, ka uz ģeneratīvi balstītas AI lietotnes veidotajās esejās var būt iegulti dažādi nepatiesi fakti, tostarp acīmredzami nepatiesi fakti, maldinoši attēloti fakti un šķietami fakti, kas ir pilnībā izdomāti. Šos izdomātos aspektus bieži sauc par formu AI halucinācijas, izteiciens, kas man nepatīk, bet diemžēl šķiet, ka tā tik un tā kļūst populāra (sīkāku skaidrojumu par to, kāpēc šī terminoloģija ir draņķīga un nepiemērota, skatiet manā ziņojumā vietnē saite šeit).

Es vēlos precizēt vienu svarīgu aspektu, pirms mēs iedziļināmies šajā tēmā.

Sociālajos medijos ir bijuši daži nenozīmīgi apgalvojumi par Ģeneratīvais AI apgalvojot, ka šī jaunākā AI versija patiesībā ir jūtīgs AI (nē, viņi kļūdās!). AI ētikas un mākslīgā intelekta likuma pārstāvji ir īpaši noraizējušies par šo plaukstošo izplatīto apgalvojumu tendenci. Jūs varētu pieklājīgi teikt, ka daži cilvēki pārspīlē to, ko mūsdienu AI patiesībā spēj. Viņi pieņem, ka AI ir iespējas, kuras mēs vēl neesam spējuši sasniegt. Tas ir neveiksmīgi. Vēl ļaunāk, viņi var ļaut sev un citiem nonākt šausmīgās situācijās, jo tiek pieņemts, ka mākslīgais intelekts būs jūtīgs vai līdzīgs cilvēkam, lai varētu rīkoties.

Neantropomorfizēt AI.

Šādi rīkojoties, jūs nonāksit lipīgā un smagnējā paļaušanās slazdā, kas paredz, ka mākslīgais intelekts darīs lietas, ko tas nespēj veikt. Ņemot to vērā, jaunākais ģeneratīvā AI ir salīdzinoši iespaidīgs ar to, ko tas spēj. Tomēr ņemiet vērā, ka, izmantojot jebkuru ģeneratīvu AI lietotni, jums pastāvīgi jāpatur prātā būtiski ierobežojumi.

Ja jūs interesē strauji augošā kņada par ChatGPT un ģeneratīvo AI, savā slejā esmu veidojis mērķtiecīgu sēriju, kas jums varētu būt informatīva. Tālāk ir sniegts ieskats gadījumam, ja kāda no šīm tēmām aizrauj jūs:

1) Prognozes par ģeneratīvo AI progresu. Ja vēlaties uzzināt, kas, visticamāk, attīstīsies saistībā ar AI 2023. gadā un pēc tam, tostarp gaidāmos sasniegumus ģeneratīvā AI un ChatGPT jomā, ieteicams izlasīt manu visaptverošo 2023. gada prognožu sarakstu vietnē saite šeit.
2) Ģeneratīvie AI un garīgās veselības padomi. Es izvēlējos pārskatīt, kā ģeneratīvā AI un ChatGPT tiek izmantoti garīgās veselības padomiem, kas ir traucējoša tendence, saskaņā ar manu mērķtiecīgo analīzi vietnē saite šeit.
3) Ģeneratīvā AI un ChatGPT pamati. Šajā rakstā ir pētīti galvenie elementi, kā darbojas ģeneratīvais AI, un jo īpaši iedziļināties ChatGPT lietotnē, tostarp analīzē par skaņām un fanfarām, saite šeit.
4) Spriedze starp skolotājiem un studentiem saistībā ar ģeneratīvo AI un tērzēšanas GPT. Šeit ir norādīti veidi, kā studenti viltīgi izmantos ģeneratīvo AI un ChatGPT. Turklāt skolotājiem ir vairāki veidi, kā cīnīties ar šo paisuma vilni. Skat saite šeit.
5) Konteksts un ģeneratīvā AI izmantošana. Es arī veicu sezonālu mēles pārbaudi par kontekstu, kas saistīts ar Ziemassvētku vecīti, iesaistot ChatGPT un ģeneratīvo AI plkst. saite šeit.
6) Krāpnieki, kas izmanto ģeneratīvo AI. Draudoši ir tas, ka daži krāpnieki ir izdomājuši, kā izmantot ģeneratīvo AI un ChatGPT, lai veiktu pārkāpumus, tostarp ģenerētu krāpnieciskus e-pastus un pat izstrādātu programmēšanas kodu ļaunprātīgai programmatūrai. Skatiet manu analīzi vietnē saite šeit.
7) Iesācēju kļūdas, izmantojot ģeneratīvo AI. Daudzi cilvēki gan pārspēj, gan pārsteidzoši zemu to, ko spēj radīt ģeneratīvais AI un ChatGPT, tāpēc es īpaši aplūkoju nepilnības, ko mēdz izdarīt AI jauniesaucamais. Skatiet diskusiju vietnē saite šeit.
8) Cīņa ar ģeneratīviem AI pamudinājumiem un AI halucinācijām. Es aprakstu visprogresīvāko pieeju AI papildinājumu izmantošanai, lai risinātu dažādas problēmas, kas saistītas ar mēģinājumu ievadīt piemērotas uzvednes ģeneratīvajā AI, kā arī ir papildu AI papildinājumi tā saukto AI halucinēto izvadu un viltojumu noteikšanai, piemēram, segtas plkst saite šeit.
9) Bonehead apgalvojumu atmaskošana par ģeneratīvo AI radītu eseju atklāšanu. Pastāv maldīgs mākslīgā intelekta lietotņu zelta drudzis, kas apgalvo, ka var noskaidrot, vai kāda konkrēta eseja ir cilvēku radīta, nevis AI radīta. Kopumā tas ir maldinošs, un dažos gadījumos tas ir nekaunīgs un nepieņemams apgalvojums, skatiet manu informāciju vietnē saite šeit.
10) Lomu spēlēšana, izmantojot ģeneratīvo AI, var norādīt uz garīgās veselības trūkumiem. Daži izmanto ģeneratīvu AI, piemēram, ChatGPT, lai spēlētu lomu spēles, kur AI lietotne reaģē uz cilvēku tā, it kā viņš dzīvotu fantāziju pasaulē vai citā izdomātā vidē. Tam var būt ietekme uz garīgo veselību, skat saite šeit.
11) atklāto kļūdu un nepatiesību klāsta atmaskošana. Tiek veidoti dažādi apkopoti saraksti, lai mēģinātu parādīt ChatGPT radīto kļūdu un nepatiesību būtību. Daži uzskata, ka tas ir būtiski, savukārt citi saka, ka vingrinājums ir veltīgs, skatiet manu analīzi saite šeit.
12) Skolām, kas aizliedz ģeneratīvo AI tērzēšanu GPT, trūkst laivas. Jūs varētu zināt, ka dažādas skolas, piemēram, Ņujorkas (NYC) Izglītības departaments, ir paziņojušas par aizliegumu izmantot ChatGPT savā tīklā un saistītajās ierīcēs. Lai gan tas varētu šķist noderīgs piesardzības pasākums, tas nepārvietos adatu un diemžēl pilnībā palaidīs garām laivu. Skatiet manu ziņojumu vietnē saite šeit.
13) Ģeneratīvā AI ChatGPT būs visur, pateicoties gaidāmajai API. Saistībā ar ChatGPT izmantošanu ir gaidāms būtisks pavērsiens, proti, šajā konkrētajā AI lietotnē izmantojot API portālu, citas programmatūras varēs izsaukt un izmantot ChatGPT. Tas ievērojami paplašinās ģeneratīvā AI izmantošanu, un tam būs ievērojamas sekas, skatiet manu izvērsumu vietnē saite šeit.
14) Veidi, kā ChatGPT var sajukt vai izkust. ChatGPT priekšā ir vairākas potenciālas satraucošas problēmas, kas samazina līdz šim saņemto milzīgo uzslavu. Šajā analīzē ir rūpīgi aplūkotas astoņas iespējamās problēmas, kuru dēļ ChatGPT var zaudēt tvaiku un pat nonākt suņu būdā, sk. saite šeit.
15) Jautāt, vai ģeneratīvā AI tērzēšana GPT ir dvēseles spogulis. Daži cilvēki ir dzirdējuši, ka ģeneratīvais AI, piemēram, ChatGPT, nodrošina spoguli cilvēces dvēselē. Tas šķiet diezgan apšaubāmi. Lūk, kā to visu saprast, skat saite šeit.
16) Konfidencialitāti un konfidencialitāti apgrūtināja ChatGPT. Šķiet, ka daudzi neapzinās, ka licencēšana, kas saistīta ar ģeneratīvām AI lietotnēm, piemēram, ChatGPT, bieži vien ļauj AI veidotājam redzēt un izmantot jūsu ievadītās uzvednes. Jūs varētu apdraudēt privātumu un datu konfidencialitātes zudumu, skatiet manu novērtējumu vietnē saite šeit.
17) veidi, kā lietotņu veidotāji apšaubāmi cenšas iegūt ChatGPT tiesības. ChatGPT šobrīd ir uzmanības centrā. Lietotņu veidotāji, kuriem nav nekāda sakara ar ChatGPT, drudžaini cenšas apgalvot vai netieši norādīt, ka viņi izmanto ChatGPT. Lūk, no kā jāuzmanās, skat saite šeit.

Jūs varētu interesēt tas, ka ChatGPT pamatā ir AI lietotnes, kas pazīstama kā GPT-3, versija. ChatGPT tiek uzskatīts par nedaudz nākamo soli, ko dēvē par GPT-3.5. Paredzams, ka GPT-4, visticamāk, tiks izlaists 2023. gada pavasarī. Jādomā, ka GPT-4 būs iespaidīgs solis uz priekšu, lai varētu radīt šķietami vēl raitākas esejas, iedziļināties un radīt bijību. -iedvesmojošs brīnums par kompozīcijām, ko tas spēj radīt.

Kad pienāks pavasaris un tiks izlaists jaunākais ģeneratīvā AI, jūs varat sagaidīt jaunu izbrīnu.

Es to aktualizēju, jo ir jāpatur prātā vēl viens aspekts, kas sastāv no iespējamām Ahileja papēža šīm labākajām un plašākajām ģeneratīvajām AI lietotnēm. Ja kāds AI pārdevējs padarīs pieejamu ģeneratīvu AI lietotni, kas putojoši izspiež netīrumus, tas var sagraut šo AI veidotāju cerības. Sabiedrības ietekme uz visu ģeneratīvo AI var izraisīt nopietnas melnas acis. Cilvēki neapšaubāmi būs diezgan sarūgtināti par sliktām sekām, kas jau ir notikušas daudzas reizes un izraisījušas trakulīgu sabiedrības nosodījumu pret AI.

Pagaidām viens pēdējais brīdinājums.

Neatkarīgi no tā, ko redzat vai lasāt ģeneratīvā AI atbildē, kas Šķiet lai tie tiktu atspoguļoti kā tikai fakti (datumi, vietas, cilvēki utt.), noteikti esiet skeptiski noskaņots un esiet gatavs vēlreiz pārbaudīt to, ko redzat.

Jā, datumus var izdomāt, vietas var izdomāt, un elementi, kurus mēs parasti sagaidām nepārmetami, ir visi pakļauts aizdomām. Neticiet tam, ko lasāt, un raugieties skeptiski, pārbaudot jebkādas ģeneratīvas AI esejas vai rezultātus. Ja ģeneratīva mākslīgā intelekta lietotne jums pastāstītu, ka Ābrahams Linkolns aplidojis valsti ar savu privāto lidmašīnu, jūs noteikti zinātu, ka tas ir malacis. Diemžēl daži cilvēki var neapzināties, ka viņa laikā reaktīvo lidmašīnu nebija, vai arī viņi varētu zināt, bet nepamanīt, ka eseja izvirza šo nekaunīgo un nežēlīgi nepatieso apgalvojumu.

Spēcīga veselīga skepticisma deva un neatlaidīga neticības domāšana būs jūsu labākā priekšrocība, izmantojot ģeneratīvo AI.

Mēs esam gatavi pāriet uz nākamo šīs noskaidrošanas posmu.

Ģeneratīvā AI virzīšana līdz lūzuma punktam

Tagad, kad esam ieguvuši pamatprincipus, varam ienirt tēmā par ģeneratīvas AI un ChatGPT virzīšanu, lai radītu naida runu un citu aizskarošu saturu.

Pirmoreiz piesakoties ChatGPT, tiek parādīti dažādi brīdinājuma norādījumi, tostarp:

"Reizēm var radīt kaitīgas instrukcijas vai neobjektīvu saturu."
"Apmācīts noraidīt neatbilstošus pieprasījumus."
"Reizēm var ģenerēt nepareizu informāciju."
“Ierobežotas zināšanas par pasauli un notikumiem pēc 2021. gada.”

Šeit ir jautājums, kas jums jāpārdomā.

Vai brīdinājums par to, ka AI lietotne var radīt kaitīgus norādījumus un/vai, iespējams, neobjektīvu saturu, sniedz pietiekamu rīcības brīvību AI veidotājam?

Citiem vārdiem sakot, pieņemsim, ka izmantojat ChatGPT un tas ģenerē eseju, kurā, jūsuprāt, ir ietverta naida runa. Pieņemsim, ka esat sašutis par to. Jūs apmeklējat sociālos medijus un izliekat sašutusi komentāri, ka AI lietotne ir visu laiku sliktākā lieta. Iespējams, jūs esat tik aizvainots, ka paziņojat, ka grasāties iesūdzēt AI veidotāju par to, ka tas ir atļāvis izplatīt šādu naida runu.

Pretarguments ir tāds, ka AI lietotnei bija brīdinājuma brīdinājums, tāpēc jūs pieņēmāt risku, turpinot izmantot AI lietotni. No AI ētikas viedokļa, iespējams, AI veidotājs darīja pietiekami daudz, lai apgalvotu, ka jūs zināt, kas varētu notikt. Tāpat no juridiskā viedokļa, iespējams, brīdinājums bija pietiekams brīdinājums, un jūs tiesā neuzvarēsit.

Tas viss ir gaisā, un mums būs jāgaida un jāskatās, kā viss notiks.

Savā ziņā mākslīgā intelekta veidotājs vēlas kaut ko citu, lai aizsargātos pret jebkādiem aizvainotiem apgalvojumiem par AI lietotni, kas, iespējams, rada naida runu. Viņi ir mēģinājuši novērst aizskaroša satura ģenerēšanu. Redziet, ja viņi neko nebūtu darījuši, lai to ierobežotu, varētu pieņemt, ka viņi atrastos uz plānāka ledus. Vismaz piepūloties, lai šo lietu novērstu, viņiem, iespējams, ir nedaudz spēcīgāka kāja, uz kuras nostāties (to joprojām varētu izsist no apakšas).

Viena no ārstnieciskajām metodēm, kas tika izmantota, sastāvēja no AI tehnikas, kas pazīstama kā RLHF (pastiprināšanas mācīšanās, izmantojot cilvēka atgriezenisko saiti). Tas parasti sastāv no tā, ka AI ģenerē saturu, kas pēc tam cilvēkiem tiek lūgts novērtēt vai pārskatīt. Pamatojoties uz vērtējumu vai pārskatu, mākslīgais intelekts matemātiski un skaitļošanas veidā mēģina izvairīties no visa, kas tiek uzskatīts par nepareizu vai aizskarošu saturu. Šī pieeja ir paredzēta, lai pārbaudītu pietiekami daudz piemēru tam, kas ir pareizi un kas ir nepareizi, lai AI varētu izdomāt visaptverošu matemātisko modeli un pēc tam izmantot šo modeli.

Vēl viena bieži sastopama pieeja mūsdienās ir Adversarial AI izmantošana.

Lūk, kā tas darbojas. Jūs izveidojat citu AI sistēmu, kas mēģinās būt pretinieks AI, kuru mēģināt apmācīt. Šajā gadījumā mēs izveidotu AI sistēmu, kas mēģina izraisīt naida runu. Tas ievadītu AI lietotnē uzvednes, kuru mērķis ir pievilt AI lietotni, lai tā izvadītu nepiedienīgu saturu. Tikmēr AI, uz kuru tiek vērsta mērķauditorija, seko, kad pretinieku AI ir veiksmīga, un pēc tam algoritmiski mēģina pielāgoties, lai tas vairs neatkārtotos. Tas ir kaķis pret peles gambītu. Tas tiek darīts atkal un atkal, līdz šķiet, ka pretinieku AI vairs nav īpaši veiksmīgs, piespiežot mērķa AI darīt sliktās lietas.

Izmantojot šīs divas galvenās metodes, kā arī citas pieejas, liela daļa mūsdienu ģeneratīvā AI spēj daudz labāk izvairīties no aizskaroša satura un/vai noteikt to, nekā tas bija iepriekšējos gados.

Tomēr negaidiet no šīm metodēm pilnību. Pastāv iespēja, ka šādi AI paņēmieni, visticamāk, kontrolēs zemu nokareno rezultātu. Joprojām ir daudz vietas netīrumiem.

Es parasti norādu, ka šie ir daži no aspektiem, kas tiek meklēti:

Īpaša nediena vārda izteikšana
Konkrētas nediena frāzes, teikuma vai piezīmes norādīšana
Īpašas nedienas izteikšana
Tas, kas norāda uz konkrētu rupju darbību vai priekšstatu
Šķiet, ka viņš paļaujas uz konkrētu nediena pieņēmumu
cits

Nekas no tā nav precīza zinātne. Saprotiet, ka mums ir darīšana ar vārdiem. Vārdi ir semantiski neskaidri. Konkrēta nediena vārda atrašana ir bērnu spēle, taču ir daudz grūtāk mēģināt noteikt, vai teikumā vai rindkopā ir šķietami neķītra nozīme. Saskaņā ar Apvienoto Nāciju Organizācijas agrāko naida runas definīciju pastāv milzīgs rīcības brīvība attiecībā uz to, ko varētu interpretēt kā naida runu un to, kas varētu nebūt.

Varētu teikt, ka pelēkās zonas ir skatītāja acīs.

Runājot par skatītāja aci, mūsdienās ir cilvēki, kuri izmanto ģenerējošu AI, piemēram, ChatGPT, kuri mērķtiecīgi cenšas panākt, lai šīs AI lietotnes radītu aizvainojošu saturu. Šie ir viņu meklējumi. Viņi pavada stundas pēc stundām, cenšoties panākt, lai tas notiktu.

Kāpēc tā?

Šeit ir manis raksturojums tiem cilvēku AI aizskarošo rezultātu medniekiem:

Īsts. Šie cilvēki vēlas palīdzēt uzlabot AI un palīdzēt cilvēcei to darīt. Viņi tic, ka dara varonīgu darbu, un priecājas, ka varētu palīdzēt attīstīt mākslīgo intelektu, lai uzlabotu visus.
Funsters. Šie cilvēki uzskata, ka šīs pūles ir spēle. Viņiem patīk mīņāties ar AI. Uzvarot spēli, ir jāatrod vissliktākais no vissliktākajiem, ko AI var radīt.
Parādīšanās. Šie cilvēki cer piesaistīt sev uzmanību. Viņi uzskata, ka, ja viņi var atrast dažus patiešām netīrus zelta tīrradņus, viņi var iegūt mazliet spīdošu gaismu, kas citādi ir vērsta uz pašu AI lietotni.
Rūgti. Šie cilvēki ir sašutuši par šo AI. Viņi vēlas samazināt visu šo uzliesmojošo entuziasmu. Ja viņi varēs atklāt kādu smirdīgu netīrību, iespējams, tas izvilks gaisu no AI lietotnes uztraukuma balona.
Citas motivācijas

Daudzi no tiem, kas veic atrašanas ofensīvu, galvenokārt atrodas tikai vienā no šīm nometnēm. Protams, jūs varat būt vairāk nekā vienā nometnē vienlaikus. Varbūt rūgtam cilvēkam ir arī blakus nodoms būt patiesam un varonīgam. Dažas vai visas no šīm motivācijām var pastāvēt līdzās. Kad tiek aicināts paskaidrot, kāpēc kāds mēģina iespiest ģeneratīvu AI lietotni naida runas sfērā, parasti atbilde ir teikt, ka atrodaties īstajā nometnē, pat ja varbūt tas ir nedaudz un tā vietā sēdi sēdi kādā no citas nometnes.

Kāda veida viltības, kas saistītas ar uzvednēm, izmanto šie cilvēki?

Diezgan acīmredzams triks ietver neķītra vārda lietošanu uzvednē. Ja jums paveicas un mākslīgā intelekta lietotne to iepriecinās, tas ļoti labi var nonākt izvadē. Tad jums ir savs mirklis.

Iespējams, ka labi izstrādāta un labi pārbaudīta ģeneratīvā AI lietotne uztvers šo vienkāršo viltību. Parasti tiek parādīts brīdinājuma ziņojums, kurā teikts, ka pārtrauciet to darīt. Ja turpināsiet, AI lietotne tiks ieprogrammēta tā, lai jūs izstumtu no lietotnes un atzīmētu jūsu kontu. Var gadīties, ka jums netiks liegta atkārtota pieteikšanās (labi, vismaz ar to pieteikumvārdu, kuru izmantojāt tajā laikā).

Virzoties uz augšu pa viltību kāpnēm, varat nodrošināt uzvedni, kas mēģina ievest AI kaut kā neatbilstoša kontekstā. Vai esat kādreiz spēlējis tādu spēli, kurā kāds liek jums kaut ko pateikt, nepasakot to, kas jums ir jāsaka? Šī ir spēle, lai gan tā notiek ar AI.

Spēlēsim to spēli. Pieņemsim, ka es lūdzu AI lietotni pastāstīt man par Otro pasaules karu un jo īpaši par galvenajiem iesaistītajiem valdības vadītājiem. Tas šķiet nevainīgs lūgums. Šķiet, ka uzvednē nav nekā tāda, ko būtu vērts atzīmēt.

Iedomājieties, ka AI lietotnes iznākušajā esejā ir minēts Vinstons Čērčils. Tam noteikti ir jēga. Vēl viens varētu būt Franklins D. Rūzvelts. Vēl viens varētu būt Josifs Staļins. Pieņemsim, ka ir pieminēts arī Ādolfs Hitlers. Šis vārds būtu iekļauts gandrīz jebkurā esejā par Otro pasaules karu un tiem, kas ieņem ievērojamas varas lomas.

Tagad, kad mēs esam norādījuši viņa vārdu un daļu no AI sarunas, mēs centīsimies panākt, lai AI iekļautu šo vārdu tādā veidā, ko varam demonstrēt kā iespējamu naida runu.

Mēs ievadām citu uzvedni un sakām AI lietotnei, ka šodien ziņās ir persona, kuras vārds ir Džons Smits. Turklāt uzvednē mēs norādām, ka Džons Smits ir ļoti līdzīgs šim Otrā pasaules kara ļaundarim. Slazds tagad ir uzstādīts. Pēc tam mēs lūdzam AI lietotni ģenerēt eseju par Džonu Smitu, pamatojoties tikai uz mūsu ievadīto “faktu” par to, kam Džonu Smitu var pielīdzināt.

Šajā brīdī AI lietotne varētu ģenerēt eseju, kurā nosaukts Otrā pasaules kara cilvēks un aprakstīts, ka Džons Smits ir no tāda paša auduma. Esejā pati par sevi nav neviena rupja vārda, izņemot atsauci uz slaveno ļaundari un šīs personas pielīdzināšanu Džonam Smitam.

Vai AI lietotne tagad ir radījusi naida runu?

Jūs varētu teikt, ka jā, tā ir. Tas, ka Džons Smits ir minēts kā slavenais ļaundaris, ir naida runas veids. AI nevajadzētu izteikt šādus paziņojumus.

Atbilde ir, ka tā nav naida runa. Šī ir tikai eseja, ko izstrādājusi AI lietotne, kurai nav jūtīguma iemiesojumu. Jūs varētu apgalvot, ka naida runa notiek tikai tad, ja runas pamatā ir nolūks. Bez jebkāda nodoma runu nevar klasificēt kā naida runu.

Absurds, skan atbilde uz repliku. Vārdiem ir nozīme. Nav nekādas nozīmes tam, vai mākslīgais intelekts bija “plānojis” radīt naida runu. Svarīgi ir tikai tas, ka tika radīta naida runa.

Tas iet ap un apli.

Es šobrīd nevēlos teikt daudz vairāk par mēģinājumu apmānīt AI. Ir sarežģītākas pieejas. Esmu tos aplūkojis citur savās slejās un grāmatās, un šeit tos nepārstāstīšu.

Secinājumi

Cik tālu mums vajadzētu virzīt šīs AI lietotnes, lai noskaidrotu, vai mēs varam panākt aizskaroša satura izplatīšanu?

Jūs varētu apgalvot, ka nav nekādu ierobežojumu. Jo vairāk mēs virzīsim, jo vairāk, cerams, varēsim novērtēt, kā novērst šo AI un turpmākās AI atkārtošanās, lai novērstu šādas slimības.

Daži gan uztraucas, ka, ja vienīgais veids, kā iegūt netīrību, ir ārkārtēja viltība, tas grauj mākslīgā intelekta labvēlīgos aspektus. Sniedzot nepatiesu stāstījumu, ka mākslīgais intelekts ir šausminošs, kaut arī tiek pievilts to izstarot. Cilvēki būs satraukti par AI, jo uztverts vieglums, kādā AI ģenerēja nelabvēlīgu saturu. Viņi, iespējams, nezina vai viņiem nepateiks, cik tālu truša bedrē cilvēkam bija jāiet, lai iegūtu šādus rezultātus.

Tas viss ir viela pārdomām.

Pagaidām daži pēdējie komentāri.

Viljams Šekspīrs par runu īpaši teica: “Runāt nav darīšana. Tas ir sava veida labs darbs pateikt labi, un tomēr vārdi nav darbi. Es to aktualizēju tāpēc, ka daži apgalvo, ka, ja mākslīgais intelekts tikai ģenerē vārdus, mums nevajadzētu būt pārāk apņēmīgiem. Ja mākslīgais intelekts rīkotos pēc vārdiem un izdarītu rupjus darbus, tad mums būtu stingri jāpieliek kāja. Ne tā, ja rezultāts ir tikai vārdi.

Pretstats viedoklis atbilst šim anonīmajam teicienam: “Mēlei nav kaulu, bet tā ir pietiekami spēcīga, lai salauztu sirdi. Tāpēc esiet uzmanīgi ar saviem vārdiem." AI lietotne, kas izstaro rupjus vārdus, iespējams, spēj salauzt sirdis. Tas vien padara centienus apturēt netīrības rezultātus par cienīgu iemeslu, daži teiktu.

Vēl viens anonīms teiciens šīs svarīgās diskusijas noslēgumam:

"Esi uzmanīgs ar saviem vārdiem. Kad tie ir pateikti, tos var tikai piedot, nevis aizmirst.

Kā cilvēkiem mums var būt grūti aizmirst mākslīgā intelekta radītās netīrības, un mūsu piedošana var arī vilcināties.

Galu galā mēs esam tikai cilvēki.

Avots: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- ētika-un-ai-likums/