Juridiskā pastardiena ģeneratīvai AI tērzēšanai GPT, ja tiks pieķerta plaģiātismā vai pārkāpumā, brīdina par AI ētiku un AI likumu

Dodiet kredītu tur, kur pienākas kredīts.

Tā ir mazliet gudra gudrība, kurai jūs, iespējams, esat audzināts, lai stingri ticētu. Patiešām, kāds pieņem vai iztēlojas, ka mēs visi zināmā mērā varētu piekrist, ka tas ir godīgs un saprātīgs dzīves noteikums. Kad kāds dara kaut ko tādu, kas ir pelnījis atzinību, pārliecinieties, ka viņš saņem pelnīto atzinību.

Pretrunīgais viedoklis šķistu daudz mazāk pārliecinošs.

Ja kāds staigāja apkārt, uzstājot, ka kredītam vajadzētu nav var tikt atpazīts, kad pienākas kredīta termiņš, labi, jūs varētu apgalvot, ka šāda pārliecība ir nepieklājīga un, iespējams, nepamatota. Mēs bieži jūtamies skaļi satraukti, kad kredīts tiek izkrāpts kādam, kurš ir paveicis kaut ko ievērojamu. Es uzdrošinos teikt, ka mēs īpaši neciešam, ja citi nepatiesi uzņemas atzinību par citu darbu. Tas ir satraucošs dubultspēks. Personai, kurai vajadzēja saņemt kredītu, tiek liegts mirklis saulē. Turklāt viltnieks bauda uzmanības centrā, lai gan viņi nepamatoti mudina mūs piesavināties mūsu labvēlīgās jūtas.

Kāpēc viss šis diskurss par kredītu iegūšanu vispareizākajos veidos un nepareizo un nicināmo veidu novēršanu?

Jo šķiet, ka mēs saskaramies ar līdzīgu grūtību, kad runa ir par jaunāko mākslīgā intelekta (AI) tehnoloģiju.

Jā, tiek apgalvots, ka tas acīmredzami notiek, izmantojot AI veidu, kas pazīstams kā Ģeneratīvais AI. Ir daudz domstarpību, ka Generative AI, šo dienu karstākais AI, jau ir uzņēmies atzinību par to, par ko tas nav pelnījis atzinību. Un tas, visticamāk, pasliktināsies, jo ģeneratīvais AI tiek arvien vairāk paplašināts un izmantots. Arvien vairāk kredītu piesaista ģeneratīvajam AI, bet diemžēl tie, kas ir pelnījuši patieso atzinību, paliek putekļos.

Mans piedāvātais veids, kā skaidri apzīmēt šo šķietamo parādību, ir izmantot divas smalkas frāzes:

  • 1) Plaģiāts mērogā
  • 2) Autortiesību pārkāpums lielā mērogā

Es pieņemu, ka jūs varētu zināt par ģeneratīvo AI, pateicoties plaši populārajai AI lietotnei, kas pazīstama kā ChatGPT un kuru novembrī izlaida OpenAI. Es drīzumā pastāstīšu vairāk par ģeneratīvo AI un ChatGPT. Turies.

Tūlīt ķersimies pie lietas būtības, kas, tā sakot, izraisa cilvēku kazas.

Daži ir dedzīgi sūdzējušies, ka ģeneratīvais AI potenciāli atņem cilvēkus, kuri ir radījuši saturu. Redziet, lielākā daļa ģeneratīvo AI lietotņu ir dati, kas iegūti, pārbaudot internetā atrodamos datus. Pamatojoties uz šiem datiem, algoritmi var uzlabot plašu iekšējo modeļu saskaņošanas tīklu AI lietotnē, kas pēc tam var radīt šķietami jaunu saturu, kas pārsteidzoši izskatās tā, it kā to būtu izdomājis cilvēks, nevis automatizācijas gabals.

Šis ievērojamais sasniegums lielā mērā ir saistīts ar interneta skenēta satura izmantošanu. Bez interneta satura apjoma un bagātības kā datu apmācības avota ģeneratīvais mākslīgais intelekts būtu gandrīz tukšs un to izmantotu maz vai nebūtu interesants. Liekot AI pārbaudīt miljoniem tiešsaistes dokumentu un tekstu, kā arī visa veida saistīto saturu, modeļu atbilstība tiek pakāpeniski iegūta, lai mēģinātu atdarināt cilvēku radītu saturu.

Jo vairāk tiek pārbaudīts saturs, jo pastāv iespēja, ka raksta atbilstība tiks uzlabota un mīmika kļūs vēl labāka, viss pārējais paliek vienāds.

Lūk, jautājums par miljoniem dolāru:

  • Lielais jautājums: Ja jums vai citiem ir pieejams saturs internetā, par kuru tika apmācīta kāda ģeneratīva AI lietotne, iespējams, darot to bez jūsu tiešas atļaujas un, iespējams, pilnīgi bez jūsu izpratnes, vai jums ir tiesības uz daļu no pīrāga par to, kāda vērtība rodas no ka ģeneratīvā AI datu apmācība?

Daži dedzīgi apgalvo, ka vienīgā pareizā atbilde ir , jo īpaši, ka šie cilvēku satura veidotāji patiešām ir pelnījuši savu darbību. Lieta ir tāda, ka jums būtu grūti atrast kādu, kurš būtu saņēmis savu daļu, un vēl ļaunāk, gandrīz neviens nav ieguvis nekādu daļu. Interneta satura veidotājiem, kas netīši un neapzināti ir piedalījušies, būtībā tiek liegta viņu likumīgā atbildība.

To var raksturot kā zvērīgu un nežēlīgu. Mēs tikko izpakojām gudro gudrību, ka kredīts ir jādod tur, kur pienākas kredīts. Ģeneratīvā AI gadījumā acīmredzot tā nav. Šķiet, ka tiek bezkaunīgi pārkāpts ilgstošais un tikumīgais īkšķis par kredītu.

Oho, replika skan, jūs pilnībā pārspīlējat un nepareizi formulējat situāciju. Protams, ģeneratīvais AI pārbaudīja saturu internetā. Protams, tas bija ļoti noderīgi kā daļa no ģeneratīvā AI datu apmācības. Jāatzīst, ka iespaidīgās ģeneratīvās AI lietotnes mūsdienās nebūtu tik iespaidīgas bez šīs pārdomātās pieejas. Taču jūs esat gājis pārāk tālu, sakot, ka satura veidotājiem ir jāpiešķir jebkāda veida nopelns.

Loģika ir šāda. Cilvēki izmanto internetu un mācās no interneta, darot to regulāri un bez satraukuma. Persona, kas lasa emuārus par santehniķi un pēc tam pārmērīgi skatās brīvi pieejamus santehnikas labošanas videoklipus, nākamajā dienā var aiziet un strādāt par santehniķi. Vai viņiem ir jāatdod daļa no sava santehnikas pārveduma emuāra autoram, kurš rakstīja par izlietnes santehniku? Vai viņiem ir jāmaksā maksa video emuāra autoram, kurš izveidoja videoklipu, kurā parādītas, kā salabot sūcošu vannu?

Gandrīz noteikti nē.

Ģeneratīvā AI datu apmācība ir tikai veids, kā izstrādāt modeļus. Kamēr ģeneratīvā mākslīgā intelekta rezultāti nav tikai pārbaudītā izmeklējuma atgūšana, jūs varat pārliecinoši apgalvot, ka tie ir “mācījušies” un tāpēc uz tiem neattiecas nekāda īpaša kredīta piešķiršana kādam konkrētam avotam. Ja vien jūs nevarat noķert ģeneratīvo AI, veicot precīzu regurgitāciju, norādes liecina, ka AI ir vispārinājusies ārpus jebkura konkrēta avota.

Kredīts nevienam nepienākas. Vai arī varētu teikt, ka kredīts pienākas ikvienam. Par godu tiek piešķirts kolektīvais teksts un cits cilvēces saturs, kas atrodams internetā. Mēs visi saņemam kredītu. Ir bezjēdzīgi mēģināt precīzi noteikt kredītu konkrētam avotam. Priecājieties, ka mākslīgais intelekts tiek pilnveidots un ka cilvēce gūs labumu. Šiem ierakstiem internetā vajadzētu justies pagodinātiem, ka tie ir veicinājuši AI attīstību nākotnē un to, kā tas palīdzēs cilvēcei mūžībā.

Man būs vairāk sakāmā par abiem šiem pretrunīgajiem uzskatiem.

Tikmēr vai jūs sliecaties uz nometni, kurā teikts, ka kredīta termiņš ir novēlots tiem, kuriem ir tīmekļa vietnes internetā, vai arī jums šķiet, ka pretējā puse, kas saka, ka interneta satura veidotāji ir noteikti nav norautība ir pārliecinošāka poza?

Mīkla un mīkla ir saplūdušas kopā.

Izpakosim šo.

Šodienas slejā es pievērsīšos šīm izteiktajām bažām, ka ģeneratīvais AI būtībā plaģiātu vai, iespējams, pārkāpj internetā publicēta satura autortiesības (tiek uzskatīts par intelektuālā īpašuma tiesību vai IP problēmu). Mēs aplūkosim šo šaubu pamatojumu. Šīs diskusijas laikā es laiku pa laikam atsaukšos uz ChatGPT, jo tā ir ģeneratīvā AI gorilla, kas sver 600 mārciņas, taču paturiet prātā, ka ir daudz citu ģeneratīvo AI lietotņu, un tās parasti ir balstītas uz tiem pašiem vispārējiem principiem.

Tikmēr jūs varētu domāt, kas patiesībā ir ģeneratīvais AI.

Vispirms apskatīsim ģeneratīvā AI pamatprincipus un tad varēsim rūpīgi aplūkot aktuālos jautājumus.

Tajā visā ir iekļauti daudzi AI ētikas un AI tiesību apsvērumi.

Lūdzu, ņemiet vērā, ka tiek veikti centieni, lai mākslīgā intelekta lietotņu izstrādē un darbībā ieviestu ētiskos AI principus. Arvien lielāks kontingents norūpējušos un kādreizējo AI ētikas speciālistu cenšas nodrošināt, lai centienos izstrādāt un pieņemt AI tiktu ņemts vērā AI uz labu un novēršot AI For Bad. Tāpat ir ierosināti jauni mākslīgā intelekta likumi, kas tiek izmantoti kā iespējamie risinājumi, lai neļautu AI centieniem aizskart cilvēktiesības un tamlīdzīgi. Manu pastāvīgo un plašo AI ētikas un AI likumu izklāstu skatiet saite šeit un saite šeit, tikai nosaukt dažus.

Tiek izstrādāti un izplatīti ētiskie AI priekšraksti, lai, cerams, nepieļautu, ka sabiedrība nonāk neskaitāmos AI izraisošos slazdos. Lai iegūtu informāciju par ANO mākslīgā intelekta ētikas principiem, ko ar UNESCO palīdzību ir izstrādājušas un atbalstījušas gandrīz 200 valstis, sk. saite šeit. Līdzīgā veidā tiek pētīti jauni mākslīgā intelekta likumi, lai mēģinātu noturēt AI vienmērīgā līmenī. Viens no jaunākajiem uzņemumiem sastāv no piedāvāto kopu AI tiesību akts ko ASV Baltais nams nesen izlaida, lai noteiktu cilvēktiesības AI laikmetā, sk saite šeit. Ir nepieciešams ciemats, lai noturētu AI un AI izstrādātājus uz pareizā ceļa un atturētu no mērķtiecīgiem vai nejaušiem nepamatotiem centieniem, kas varētu apdraudēt sabiedrību.

Šajā diskusijā es iekļaušu ar AI ētiku un AI likumu saistītus apsvērumus.

Ģeneratīvā AI pamati

Visplašāk zināmais ģeneratīvā AI gadījums ir AI lietotne ar nosaukumu ChatGPT. ChatGPT ienāca sabiedrības apziņā novembrī, kad to izlaida mākslīgā intelekta pētījumu firma OpenAI. Kopš tā laika, kad ChatGPT ir ieguvis lielus virsrakstus un pārsteidzoši pārsniedzis tai atvēlētās piecpadsmit slavas minūtes.

Es domāju, ka jūs, iespējams, esat dzirdējuši par ChatGPT vai varbūt pat zināt kādu, kas to ir izmantojis.

ChatGPT tiek uzskatīta par ģeneratīvu AI lietojumprogrammu, jo tajā tiek ievadīts kāds teksts no lietotāja un pēc tam ģenerē vai sagatavo izlaidumu, kas sastāv no esejas. AI ir teksta pārveidošanas ģenerētājs, lai gan es aprakstu AI kā teksta pārveidošanas eseju ģeneratoru, jo tas vieglāk izskaidro, kam tas parasti tiek izmantots. Varat izmantot ģeneratīvo mākslīgo intelektu, lai sacerētu garas kompozīcijas, vai arī varat to iegūt, lai sniegtu diezgan īsus, saturīgus komentārus. Tas viss ir pēc jūsu solīšanas.

Viss, kas jums jādara, ir jāievada uzvedne, un AI lietotne jums ģenerēs eseju, kas mēģinās atbildēt uz jūsu uzvedni. Sacerētais teksts šķitīs tā, it kā eseja būtu rakstīta ar cilvēka roku un prātu. Ja ievadītu uzvedni ar tekstu “Pastāstiet man par Ābrahamu Linkolnu”, ģeneratīvā AI sniegs jums eseju par Linkolnu. Ir arī citi ģeneratīvā AI režīmi, piemēram, teksta pārvēršana mākslā un teksta pārveide video. Šeit es koncentrēšos uz teksta pārvēršanas variantu.

Jūsu pirmā doma varētu būt tāda, ka šī ģenerēšanas spēja nešķiet tik liela problēma eseju veidošanā. Jūs varat viegli veikt tiešsaistes meklēšanu internetā un viegli atrast tonnas eseju par prezidentu Linkolnu. Ģeneratīvā mākslīgā intelekta gadījumā ir tas, ka ģenerētā eseja ir salīdzinoši unikāla un nodrošina oriģinālu kompozīciju, nevis kopiju. Ja jūs mēģinātu kaut kur tiešsaistē atrast AI radīto eseju, jūs to diez vai to atklātu.

Ģeneratīvā AI ir iepriekš apmācīta, un tajā tiek izmantots sarežģīts matemātisks un skaitļošanas formulējums, kas izveidots, pārbaudot rakstīto vārdu un stāstu modeļus visā tīmeklī. Pārbaudot tūkstošiem un miljonu rakstītu fragmentu, mākslīgais intelekts var izspiest jaunas esejas un stāstus, kas ir sajaukums ar atrasto. Pievienojot dažādas varbūtības funkcionalitātes, iegūtais teksts ir diezgan unikāls salīdzinājumā ar apmācību komplektā izmantoto.

Pastāv daudzas bažas par ģeneratīvo AI.

Viens būtisks mīnuss ir tas, ka uz ģeneratīvi balstītas AI lietotnes veidotajās esejās var būt iegulti dažādi nepatiesi fakti, tostarp acīmredzami nepatiesi fakti, maldinoši attēloti fakti un šķietami fakti, kas ir pilnībā izdomāti. Šos izdomātos aspektus bieži sauc par formu AI halucinācijas, izteiciens, kas man nepatīk, bet diemžēl šķiet, ka tā tik un tā kļūst populāra (sīkāku skaidrojumu par to, kāpēc šī terminoloģija ir draņķīga un nepiemērota, skatiet manā ziņojumā vietnē saite šeit).

Vēl viena problēma ir tāda, ka cilvēki var viegli uzņemties atzinību par ģeneratīvu AI veidotu eseju, neskatoties uz to, ka viņi paši nav sastādījuši eseju. Iespējams, esat dzirdējuši, ka skolotāji un skolas ir diezgan noraizējušās par ģeneratīvu AI lietotņu parādīšanos. Studenti var izmantot ģeneratīvo AI, lai rakstītu viņiem piešķirtās esejas. Ja skolēns apgalvo, ka eseja ir sarakstīta ar viņu pašu roku, ir maza iespēja, ka skolotājs spēs noteikt, vai tā ir viltota ar ģeneratīvo AI. Manu analīzi par šo studentu un skolotāju mulsinošo aspektu skatiet manā pārskatā vietnē saite šeit un saite šeit.

Sociālajos medijos ir bijušas dažas neprātīgas pretenzijas par Ģeneratīvais AI apgalvojot, ka šī jaunākā AI versija patiesībā ir jūtīgs AI (nē, viņi kļūdās!). AI ētikas un mākslīgā intelekta likuma pārstāvji ir īpaši noraizējušies par šo plaukstošo izplatīto apgalvojumu tendenci. Jūs varētu pieklājīgi teikt, ka daži cilvēki pārspīlē to, ko mūsdienu AI patiesībā spēj. Viņi pieņem, ka AI ir iespējas, kuras mēs vēl neesam spējuši sasniegt. Tas ir neveiksmīgi. Vēl ļaunāk, viņi var ļaut sev un citiem nonākt šausmīgās situācijās, jo tiek pieņemts, ka mākslīgais intelekts būs jūtīgs vai līdzīgs cilvēkam, lai varētu rīkoties.

Neantropomorfizēt AI.

Šādi rīkojoties, jūs nonāksit lipīgā un smagnējā paļaušanās slazdā, kas paredz, ka mākslīgais intelekts darīs lietas, ko tas nespēj veikt. Ņemot to vērā, jaunākais ģeneratīvā AI ir salīdzinoši iespaidīgs ar to, ko tas spēj. Tomēr ņemiet vērā, ka, izmantojot jebkuru ģeneratīvu AI lietotni, jums pastāvīgi jāpatur prātā būtiski ierobežojumi.

Pagaidām viens pēdējais brīdinājums.

Neatkarīgi no tā, ko redzat vai lasāt ģeneratīvā AI atbildē, kas Šķiet lai tie tiktu atspoguļoti kā tikai fakti (datumi, vietas, cilvēki utt.), noteikti esiet skeptiski noskaņots un esiet gatavs vēlreiz pārbaudīt to, ko redzat.

Jā, datumus var izdomāt, vietas var izdomāt, un elementi, kurus mēs parasti sagaidām nepārmetami, ir visi pakļauts aizdomām. Neticiet tam, ko lasāt, un raugieties skeptiski, pārbaudot jebkādas ģeneratīvas AI esejas vai rezultātus. Ja ģeneratīva AI lietotne jums paziņo, ka Ābrahams Linkolns ar savu privāto lidmašīnu aplidojis valsti, jūs neapšaubāmi zinātu, ka tas ir malacis. Diemžēl daži cilvēki var neapzināties, ka viņa laikā reaktīvo lidmašīnu nebija, vai arī viņi varētu zināt, bet nepamanīt, ka eseja izvirza šo nekaunīgo un nežēlīgi nepatieso apgalvojumu.

Spēcīga veselīga skepticisma deva un neatlaidīga neticības domāšana būs jūsu labākā priekšrocība, izmantojot ģeneratīvo AI.

Mēs esam gatavi pāriet uz nākamo šīs noskaidrošanas posmu.

Internets un ģeneratīvais AI ir kopā

Tagad, kad jums ir priekšstats par to, kas ir ģeneratīvais AI, mēs varam izpētīt satraucošo jautājumu par to, vai ģeneratīvais AI ir godīgi vai negodīgi "piesaistot", vai daži teiktu. klaji izmantojot Interneta saturs.

Šeit ir manas četras svarīgas tēmas, kas attiecas uz šo lietu:

  • 1) Double Trouble: plaģiāts un autortiesību pārkāpumi
  • 2) Mēģināsim pierādīt plaģiātu vai autortiesību pārkāpumu
  • 3) Pamatojoties uz plaģiātu vai autortiesību pārkāpumu
  • 4) Gaidāmas legālās mīnas

Es aplūkošu katru no šīm svarīgajām tēmām un piedāvāšu saprātīgus apsvērumus, par kuriem mums visiem vajadzētu rūpīgi pārdomāt. Katra no šīm tēmām ir lielākas mīklas neatņemama sastāvdaļa. Jūs nevarat skatīties tikai uz vienu gabalu. Tāpat jūs nevarat aplūkot nevienu gabalu atsevišķi no citiem gabaliem.

Šī ir sarežģīta mozaīka, un visa mīkla ir pienācīgi harmoniski jāapsver.

Dubultās problēmas: plaģiāts un autortiesību pārkāpumi

Divkāršā problēma, ar ko saskaras tie, kas ražo un nodarbojas ar ģeneratīvo AI, ir tas, ka viņu preces var darīt divas sliktas lietas:

  • 1) Plaģiāts. Ģeneratīvo AI varētu interpretēt kā plaģiāts saturs, kas pastāv internetā saskaņā ar interneta skenēšanu, kas notika AI datu apmācības laikā.
  • 2) Autortiesību pārkāpums. Ģeneratīvo AI var uzskatīt par uzņēmumu Autortiesību pārkāpums saistīts ar interneta saturu, kas tika skenēts datu apmācības laikā.

Lai precizētu, internetā ir daudz vairāk satura, nekā parasti tiek skenēts ģeneratīvā AI datu apmācībai. Parasti tiek izmantota tikai neliela daļa no interneta. Tādējādi mēs varam pieņemt, ka jebkuram saturam, kas netika skenēts datu apmācības laikā, nav īpašas nozīmes ar ģeneratīvo AI.

Tomēr tas ir nedaudz apstrīdams, jo jūs, iespējams, varētu novilkt līniju, kas savieno citu skenēto saturu ar saturu, kas netika skenēts. Vēl viens svarīgs nosacījums ir tas, ka pat tad, ja ir saturs, kas nav skenēts, to joprojām var uzskatīt par plaģiātu un/vai autortiesību pārkāpumiem, ja ģeneratīvā mākslīgā intelekta izvadi, iespējams, nonāk vienā un tajā pašā vārdnīcā. Mana doma ir tāda, ka tajā visā ir daudz šķību.

Grunts līnija: Ģeneratīvais AI ir pārpildīts ar iespējamiem mākslīgā intelekta ētikas un AI tiesību juridiskiem sarežģījumiem, kad runa ir par plaģiātu un autortiesību pārkāpumiem kas ir pamatā dominējošajai datu apmācības praksei.

Līdz šim mākslīgā intelekta veidotāji un AI pētnieki ir slidojuši cauri šim gandrīz bez skrambām, neskatoties uz draudošo un nestabili karājošo zobenu, kas karājas virs tiem. Līdz šim pret šo praksi ir ierosinātas tikai dažas tiesas prāvas. Iespējams, esat dzirdējis vai redzējis ziņu rakstus par šādām juridiskām darbībām. Viens, piemēram, ietver Midjourney un Stability AI uzņēmumus, kas pārveido tekstu uz attēlu, pārkāpjot internetā publicēto māksliniecisko saturu. Vēl viens ir saistīts ar teksta pārveidošanas kodu pārkāpumu pret GitHub, Microsoft un OpenAI, jo programmatūra Copilot ražo AI lietotnes. Getty Images arī ir centies sekot līdzi Stabilitātes AI teksta-attēla pārkāpumiem.

Varat paredzēt, ka tiks iesniegtas vēl vairākas šādas tiesas prāvas.

Šobrīd ir nedaudz iespēja uzsākt šīs tiesas prāvas, jo iznākums ir salīdzinoši nezināms. Vai tiesa nostāsies AI veidotāju pusē vai arī uzvarēs tie, kuri uzskata, ka viņu saturs ir negodīgi izmantots? Dārga juridiska cīņa vienmēr ir nopietna lieta. Lielo juridisko izmaksu tērēšana ir jāsalīdzina ar iespēju uzvarēt vai zaudēt.

Šķiet, ka mākslīgā intelekta veidotājiem gandrīz nav citas izvēles, kā vien cīnīties. Ja viņi kaut nedaudz piekāptos, pastāv iespēja, ka izraisītu papildu tiesas prāvu straumes (būtībā tas pavērtu iespēju, ka arī citi uzvarēs). Tiklīdz ūdenī būs likumīgas asinis, atlikušās likumīgās haizivis sasniegs uzskatīto “vieglu punktu”, un noteikti notiks dauzīga naudas asinspirts.

Daži uzskata, ka mums ir jāpieņem jauni AI likumi, kas aizsargātu AI veidotājus. Aizsardzība var būt pat ar atpakaļejošu spēku. Tas ir balstīts uz to, ka, ja mēs vēlamies redzēt ģeneratīvus AI sasniegumus, mums ir jānodrošina AI veidotājiem drošās zonas skrejceļš. Tiklīdz tiesas prāvas sāks gūt uzvaras pret AI veidotājiem, ja tas notiks (mēs vēl nezinām), ir jāuztraucas par to, ka ģeneratīvais AI izzudīs, jo neviens nevēlēsies sniegt atbalstu AI uzņēmumiem.

Kā prasmīgi norādīts nesenajā Bloomberg likuma rakstā ar nosaukumu “ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI”, ko sagatavojuši Dr. Ilia Kolochenko un Gordon Platt, Bloomberg Law, 2023. gada februāris, šeit ir divi svarīgi fragmenti, kas atspoguļo šos uzskatus.

  • “ASV tiesību zinātnieku un intelektuālā īpašuma tiesību profesoru vidū šobrīd notiek karstas debates par to, vai ar autortiesībām aizsargāto datu neatļauta nokasīšana un turpmāka izmantošana ir autortiesību pārkāpums. Ja dominē to juristu viedoklis, kuri šādā praksē saskata autortiesību pārkāpumus, šādu AI sistēmu lietotāji var būt atbildīgi arī par sekundāriem pārkāpumiem un, iespējams, saskarties ar juridiskām sekām.
  • "Lai visaptveroši risinātu problēmu, likumdevējiem būtu jāapsver ne tikai esošo autortiesību tiesību aktu modernizēšana, bet arī ar AI saistītu likumu un noteikumu kopuma ieviešana."

Atgādiniet, ka kā sabiedrība mēs esam ieviesuši tiesisko aizsardzību izplešanās par internetu, kā to tagad liecināja Augstākā tiesa, pārskatot slaveno vai bēdīgi slaveno 230. pantu. Tādējādi šķiet saprātīgi un precedents, ka mēs varētu būt gatavi veikt kādu līdzīgu aizsardzību ģeneratīvā AI attīstībai. Iespējams, aizsardzību varētu iestatīt uz laiku, un tās derīguma termiņš beigsies pēc tam, kad ģeneratīvais AI ir sasniedzis kādu iepriekš noteiktu zināšanu līmeni. Varētu izstrādāt citus drošības noteikumus.

Drīzumā publicēšu savu analīzi par to, kā Augstākās tiesas novērtējums un galīgais nolēmums par 230. sadaļu varētu ietekmēt ģeneratīvā AI parādīšanos. Gaidiet šo gaidāmo ierakstu!

Atgriežoties pie strikti paustā viedokļa, ka mums ir jādod rīcības brīvība sabiedrībai bijību iedvesmojošai tehnoloģiskai inovācijai, kas pazīstama kā ģeneratīvais AI. Daži teiktu, ka pat tad, ja apgalvotais autortiesību pārkāpums ir noticis vai notiek, sabiedrībai kopumā vajadzētu būt gatavai to atļaut ar īpašiem mērķiem, lai veicinātu ģeneratīvo AI.

Cerams, ka jaunie AI likumi tiks rūpīgi izstrādāti un pielāgoti detaļām, kas saistītas ar datu apmācību ģeneratīvai AI.

Šim jēdzienam par jaunu AI likumu izstrādi šim nolūkam ir daudz pretargumentu. Viena no bažām ir tāda, ka jebkurš šāds jauns mākslīgā intelekta likums pavērs slūžas visa veida autortiesību pārkāpumiem. Mēs nožēlosim dienu, kad atļāvām šādiem jauniem AI likumiem nonākt grāmatās. Neatkarīgi no tā, cik smagi jūs mēģināt aprobežoties tikai ar AI datu apmācību, citi viltīgi vai gudri atradīs nepilnības, kas līdzinās neierobežotiem un nikniem autortiesību pārkāpumiem.

Argumenti rit riņķī.

Viens arguments, kas īpaši neuztur ūdeni, ir saistīts ar mēģinājumu iesūdzēt tiesā pašu AI. Ņemiet vērā, ka es esmu minējis AI veidotāju vai AI pētniekus kā vainīgās ieinteresētās personas. Tie ir cilvēki un uzņēmumi. Daži ierosina, ka mums vajadzētu būt AI kā pusei, pret kuru jāiesūdz. Savā slejā esmu ilgi runājis par to, ka mēs vēl nepiedēvējam AI juridiskas personas statusu, sk saite šeit piemēram, un tādējādi šādas tiesas prāvas, kuru mērķis ir AI per se, šobrīd tiktu uzskatītas par bezjēdzīgām.

Kā papildinājums jautājumam par to, kas vai kas ir jāiesūdz tiesā, tas izvirza vēl vienu sulīgu tēmu.

Pieņemsim, ka konkrētu ģeneratīvu AI lietotni ir izstrādājis kāds AI veidotājs, ko mēs sauksim par logrīku uzņēmumu. Uzņēmums Widget Company ir salīdzinoši mazs, un tam nav nedz lielu ieņēmumu, nedz arī ar aktīviem. Iesūdzēšana tiesā, visticamāk, neiegūs lielo bagātību, ko kāds varētu meklēt. Jūs tikai apmierināsit, izlabojot to, ko uzskatāt par nepareizu.

Jūs vēlaties doties pēc lielajām zivīm.

Lūk, kā tas notiks. AI veidotājs izvēlas padarīt savu ģeneratīvo AI pieejamu uzņēmumam Big Time Company, kas ir liels konglomerāts ar tonnām mīklas un tonnām aktīvu. Tiesas prāvai ar nosaukumu Widget Company tagad būtu labāks mērķis, proti, arī nosaucot Big Time Company. Šī ir Dāvida un Goliāta cīņa, kas advokātiem patiktu. Protams, Big Time Company neapšaubāmi mēģinās izkustēties no makšķerēšanas āķa. Tas, vai viņi to var darīt, atkal ir juridisks jautājums, kas nav skaidrs, un viņi var bezcerīgi iestigt netīrumos.

Pirms mēs ķeramies pie šī jautājuma daudz tālāk, es vēlos runāt par kaut ko būtisku par iespējamo ģeneratīvā AI iejaukšanos datu apmācības dēļ. Esmu pārliecināts, ka jūs intuitīvi saprotat, ka plaģiāts un autortiesību pārkāpumi ir divi nedaudz atšķirīgi zvēri. Viņiem ir daudz kopīga, lai gan tie arī būtiski atšķiras.

Šeit ir īss Djūka universitātes apraksts, kas izskaidro abus:

  • “Plaģiātu vislabāk definēt kā citas personas darba neatzītu izmantošanu. Tas ir ētisks jautājums, kas saistīts ar kredītprasību par darbu, ko prasītājs nav radījis. Var plaģiātēt kāda cita darbu neatkarīgi no šī darba autortiesību statusa. Piemēram, kopēšana no grāmatas vai raksta, kas ir pārāk veca, lai uz to joprojām attiecas autortiesības, tomēr ir plaģiāts. Tas ir arī plaģiāts, ja tiek izmantoti dati, kas iegūti no neatzīta avota, lai gan faktiskais materiāls, piemēram, dati, var nebūt aizsargāts ar autortiesībām. Tomēr plaģiāts ir viegli izārstējams — pareiza atsauce uz materiāla sākotnējo avotu.
  • “No otras puses, autortiesību pārkāpums ir cita darba neatļauta izmantošana. Šis ir juridisks jautājums, kas ir atkarīgs no tā, vai darbs ir aizsargāts ar autortiesībām, kā arī no specifikas, piemēram, no tā, cik daudz tiek izmantots un kāds ir izmantošanas mērķis. Ja tiek kopēts pārāk daudz aizsargāta darba vai kopēts neatļautam mērķim, vienkārša sākotnējā avota atzīšana problēmu neatrisinās. Tikai saņemot iepriekšēju atļauju no autortiesību īpašnieka, var izvairīties no maksas par pārkāpumu.”

Es norādu uz šo divu problēmu nozīmi, lai jūs saprastu, ka aizsardzības līdzekļi var attiecīgi atšķirties. Turklāt tie abi ir saistīti ar apsvērumiem, kas caurstrāvo AI ētiku un AI likumu, tāpēc tos ir vienlīdz vērts izpētīt.

Izpētīsim pieprasīto līdzekli vai risinājumu. Jūs redzēsit, ka tas var palīdzēt vienai no dubultajām problēmām, bet ne otrai.

Daži ir uzstājuši, ka mākslīgā intelekta veidotājiem atliek tikai norādīt savus avotus. Ja ģeneratīvais AI veido eseju, iekļaujiet tikai konkrētus citātus par to, kas ir norādīts esejā. Sniedziet dažādus URL un citas norādes par to, kurš interneta saturs tika izmantots. Šķiet, ka tas viņus atbrīvos no šaubām par plaģiātu. Iznākušajā esejā, iespējams, būtu skaidri norādīts, kādi avoti tika izmantoti izstrādātajam formulējumam.

Minētajā risinājumā ir daži strīdi, taču 30,000 XNUMX pēdu līmenī pieņemsim, ka tas kalpo kā daļēji apmierinošs līdzeklis pret plaģiāta dilemmu. Kā minēts iepriekš autortiesību pārkāpuma skaidrojumā, avota materiāla citēšana ne vienmēr izvedīs jūs no suņu būdas. Pieņemot, ka saturs ir aizsargāts ar autortiesībām, un atkarībā no citiem faktoriem, piemēram, cik daudz materiāla tika izmantots, gaidāmais autortiesību pārkāpuma zobens var strauji un galīgi nokrist.

Dubultās nepatikšanas ir atslēgas vārds šeit.

Mēģināsim pierādīt plaģiātu vai autortiesību pārkāpumu

Pierādi!

Tas ir labi nolietotais atskārsme, ko mēs visi esam dzirdējuši dažādos dzīves laikos.

Jūs zināt, kā tas notiek. Jūs varētu apgalvot, ka kaut kas notiek vai ir noticis. Jūs varētu zināt savā sirdī, ka tas ir noticis. Bet, kad runa ir par push-pret-shove, jums ir jābūt pierādījumam.

Mūsdienu valodā runājot, jums ir jāparāda ieņēmumi, kā saka.

Mans jautājums jums ir šāds: Kā mēs uzskatāmi pierādīsim, ka ģeneratīvais AI ir neatbilstoši izmantojis interneta saturu?

Tiek uzskatīts, ka atbildei jābūt vienkāršai. Jūs lūdzat vai sakāt ģeneratīvajam AI izveidot eseju. Pēc tam jūs paņemat eseju un salīdziniet to ar internetā atrodamo. Ja atrodat eseju, bam, ģeneratīvais AI ir pienaglots pie sakāmvārdu sienas.

Šķiet, ka dzīve nekad nav tik viegla.

Iedomājieties, ka mēs iegūstam ģeneratīvu AI, lai izveidotu eseju, kurā ir aptuveni 100 vārdu. Mēs ejam apkārt un cenšamies sasniegt visus interneta nostūrus un stūrus, meklējot šos 100 vārdus. Ja mēs atrodam 100 vārdus, kas parādīti tādā pašā secībā un identiskā veidā, šķiet, ka esam pieķēruši sevi karstu vārdu.

Pieņemsim, ka internetā atrodam šķietami “salīdzināmu” eseju, lai gan tā atbilst tikai 80 no 100 vārdiem. Tas, iespējams, joprojām šķiet pietiekami. Bet iedomājieties, ka mēs atrodam tikai 10 vārdus no 100, kas atbilst. Vai ar to pietiek, lai klaigātu, ka ir noticis plaģiāts vai autortiesību pārkāpums?

Pelēcība pastāv.

Teksts šādā veidā ir smieklīgs.

Salīdziniet to ar teksta pārveides attēla vai teksta pārvēršanas mākslā apstākļiem. Ja ģeneratīvā AI nodrošina teksta pārveidošanas attēlu vai teksta pārvēršanas mākslā iespēju, jūs ievadāt teksta uzvedni, un AI lietotne izveido attēlu, pamatojoties uz jūsu norādīto uzvedni. Attēls var atšķirties no attēla, kas jebkad ir redzēts uz šīs vai citas planētas.

No otras puses, attēls var atgādināt citus attēlus, kas pastāv. Mēs varam aplūkot ģeneratīvo AI radīto attēlu un zināmā mērā pēc zarnu instinkta teikt, ka tas noteikti izskatās kā kāds cits attēls, ko esam redzējuši iepriekš. Parasti, redzes salīdzināšanas un kontrastēšanas aspekti ir nedaudz vieglāk uztverami. To sakot, lūdzu, ņemiet vērā, ka milzīgas juridiskas debates nodrošina, kas ir viena attēla pārklāšanās vai atkārtošana no cita.

Vēl viena līdzīga situācija ir ar mūziku. Ir ģeneratīvas AI lietotnes, kas ļauj ievadīt teksta uzvedni, un AI radītā izvade ir audio mūzika. Šīs teksta-audio vai teksta-mūzikas AI iespējas tikai tagad sāk parādīties. Viena lieta, uz kuru varat likt savu labāko dolāru, ir tāda, ka ģeneratīvā AI radītā mūzika tiks rūpīgi pārbaudīta, vai tajā nav pārkāpti. Šķiet, ka mēs zinām, kad dzirdam muzikālus pārkāpumus, lai gan tas atkal ir sarežģīts juridisks jautājums, kas nav balstīts tikai uz to, kā mēs jūtamies par uztverto replikāciju.

Ļaujiet man vēl vienu piemēru.

Teksta pārveides ģeneratīvais AI nodrošina iespēju ievadīt teksta uzvedni, un AI izstrādās programmēšanas kodu jūsu vietā. Pēc tam šo kodu var izmantot datorprogrammas sagatavošanai. Varat izmantot kodu tieši tā, kā tas ir ģenerēts, vai arī varat izvēlēties rediģēt un pielāgot kodu atbilstoši savām vajadzībām. Ir arī jāpārliecinās, vai kods ir piemērots un izmantojams, jo ģenerētajā kodā var rasties kļūdas un viltus.

Jūsu pirmais pieņēmums varētu būt, ka programmēšanas kods neatšķiras no teksta. Tas ir tikai teksts. Protams, tas ir teksts, kas nodrošina konkrētu mērķi, bet tas joprojām ir teksts.

Nu ne gluži. Lielākajai daļai programmēšanas valodu ir stingrs formāts un struktūra atbilstoši šīs valodas kodēšanas paziņojumu būtībai. Tas savā ziņā ir daudz šaurāks par brīvi plūstošu dabisko valodu. Jums ir zināma neskaidrība par to, kā tiek formulēti kodēšanas paziņojumi. Tāpat arī secība un veids, kādā priekšraksti tiek izmantoti un masīvi kārtoti, ir nedaudz ierāmēti.

Kopumā iespēja parādīt, ka programmēšanas kods ir plaģiāts vai pārkāpts, ir gandrīz vieglāka nekā dabiskā valoda. Tādējādi, kad ģeneratīvs AI skenē programmēšanas kodu internetā un vēlāk ģenerē programmēšanas kodu, iespēja apgalvot, ka kods ir nepārprotami replicēts, būs salīdzinoši pārliecinošāka. Nav slam dunk, tāpēc sagaidiet rūgtas cīņas par to.

Mans galvenais ir tas, ka mums būs tādas pašas AI ētikas un AI tiesību problēmas, ar kurām saskarsies visi ģeneratīvā AI veidi.

Plaģiāts un autortiesību pārkāpumi būs problemātiski:

  • Teksta pārveidošana tekstā vai teksts-eseja
  • Teksta pārveide attēlā vai teksts mākslā
  • Teksta pārveide audio vai teksts mūzikā
  • Teksts uz video
  • Teksta pārveide kodā
  • Utt

Viņi visi ir pakļauti vienādām bažām. Dažus varētu būt nedaudz vieglāk “pierādīt” nekā citus. Viņiem visiem būs savi dažādi murgi par mākslīgā intelekta ētikas un AI likuma pamatojumu.

Pamatojoties uz plaģiātu vai autortiesību pārkāpumu

Diskusijas nolūkos pievērsīsimies teksta pārveidei vai teksta pārveidei esejai ģeneratīvajai AI. Es to daru daļēji tāpēc, ka ChatGPT ir milzīga popularitāte, kas ir ģeneratīvā AI teksta pārveides veids. Ir daudz cilvēku, kas izmanto ChatGPT, kā arī daudzi citi, kas izmanto dažādas līdzīgas teksta pārveidošanas AI lietotnes.

Vai tie cilvēki, kuri izmanto ģeneratīvas AI lietotnes, zina, ka viņi, iespējams, paļaujas uz plaģiātu vai autortiesību pārkāpumiem?

Šķiet apšaubāmi, vai viņi to dara.

Es uzdrošinos teikt, ka dominē pieņēmums, ka, ja ģeneratīvā AI lietotne ir pieejama lietošanai, AI veidotājam vai uzņēmumam, kas ir izstrādājis AI, ir jāzina vai jābūt pārliecinātam, ka izstrādājumos, ko tie piedāvā lietošanai, nav nekā nevēlama. Ja varat to izmantot, tam jābūt virs borta.

Apskatīsim manu iepriekšējo komentāru par to, kā mēs mēģināsim pierādīt, ka konkrēta ģeneratīvā AI datu apmācībā darbojas nepareizi.

Es varētu arī piebilst, ka, ja mēs spēsim pieķert vienu ģeneratīvo AI, kas to dara, visticamāk, palielināsies izredzes uzķert citus. Es nesaku, ka visas ģeneratīvās AI lietotnes būtu vienā laivā. Bet viņi nonāks diezgan skarbās jūrās, tiklīdz viena no tām tiks piestiprināta pie sienas.

Tāpēc arī būs ārkārtīgi vērtīgi sekot līdzi esošajām tiesas prāvām. Pirmais, kas uzvarēs saistībā ar apgalvoto pārkāpumu, ja tas notiks, iespējams, radīs nožēlu un nožēlu citām ģeneratīvajām mākslīgā intelekta lietotnēm, ja vien dažas šaurības neizbēgs no plašākām problēmām. Tie, kas zaudē saistībā ar apgalvoto pārkāpumu, ne vienmēr nozīmē, ka ģeneratīvās AI lietotnes var zvanīt un svinēt. Iespējams, ka zaudējumi ir saistīti ar citiem faktoriem, kas nav tik svarīgi citām ģeneratīvajām AI lietotnēm utt.

Es jau minēju, ka, ja mēs paņemam 100 vārdu garu eseju un mēģināsim atrast šos vārdus tieši tādā pašā secībā internetā, mums varētu būt samērā pamatots plaģiāta vai autortiesību pārkāpuma gadījums, viss pārējais ir vienāds. Bet, ja atbilstošo vārdu skaits ir mazs, mēs, šķiet, atrodamies uz plāna ledus.

Es gribētu tajā iedziļināties.

Acīmredzams salīdzināšanas aspekts sastāv no tieši tiem pašiem vārdiem tādā pašā secībā. Tas var notikt veseliem fragmentiem. To būtu ērti pamanīt, gluži kā mums pasniegtu uz sudraba šķīvja.

Mēs varētu būt arī aizdomīgi, ja atbilst tikai vārdu fragments. Ideja būtu noskaidrot, vai tie ir būtiski vārdi vai varbūt papildvārdi, kurus mēs varam viegli noņemt vai ignorēt. Mēs arī nevēlamies, lai mūs apmānītu vārdu lietošana to pagātnē vai nākotnē, vai cita muldēšana. Jāņem vērā arī šīs vārdu variācijas.

Cits salīdzināšanas līmenis būtu tad, ja vārdi lielā mērā nav īpaši vieni un tie paši vārdi, tomēr šķiet, ka vārdi pat dažādās formās joprojām norāda uz vienu un to pašu. Piemēram, kopsavilkumā kā oriģinālais avots bieži tiek izmantoti diezgan līdzīgi vārdi, taču mēs varam pamanīt, ka kopsavilkums šķiet balstīts uz sākotnējo avotu.

Visgrūtākais salīdzināšanas līmenis būtu balstīts uz koncepcijām vai idejām. Pieņemsim, ka mēs redzam eseju, kurā nav vienādu vai līdzīgu vārdu kā salīdzināšanas bāzi, bet būtība vai idejas ir vienādas. Jāatzīst, ka mēs ieejam skarbā teritorijā. Ja mēs labprāt teiktu, ka idejas ir cieši aizsargātas, mēs uzliktu vāku gandrīz visiem zināšanu un zināšanu paplašināšanas veidiem.

Mēs vēlreiz varam atsaukties uz parocīgu Djūka universitātes skaidrojumu:

  • “Autortiesības neaizsargā idejas, tikai idejas konkrētu izpausmi. Piemēram, tiesa nolēma, ka Dens Brauns, rakstot, nepārkāpa kādas agrākas grāmatas autortiesības Da Vinči kods jo viss, ko viņš aizguva no agrākā darba, bija pamatidejas, nevis sižeta vai dialoga specifika. Tā kā autortiesības ir paredzētas radošas ražošanas veicināšanai, kāda cita ideju izmantošana jauna un oriģināla darba radīšanai atbilst autortiesību mērķim, tās nepārkāpj. Autortiesības var tikt pārkāptas tikai tad, ja bez atļaujas tiek kopēts cita cilvēka izteiciens.
  • “Savukārt, lai izvairītos no plaģiāta, ir jāatzīst pat to ideju avots, kas aizgūtas no kāda cita, neatkarīgi no tā, vai šo ideju izpausme ir aizgūta ar viņiem. Tādējādi parafrāzei ir nepieciešams citāts, lai gan tas reti rada autortiesību problēmas.

Lūdzu, ņemiet vērā, kā iepriekš tika identificētas atšķirības starp dubulto problēmu aspektiem.

Tagad salīdzināšanas pieeju izmantošana praksē ir kaut kas, kas notiek jau daudzus gadus. Padomājiet par to šādi. Skolēniem, kuri raksta esejas saviem skolas darbiem, varētu rasties kārdinājums tvert saturu no interneta un izlikties, ka viņi ir A klases Pulicera balvu ieguvušo vārdu autors.

Lai to risinātu, skolotāji jau ilgu laiku ir izmantojuši plaģiāta pārbaudes programmas. Skolotājs paņem skolēna eseju un ievada to plaģiāta pārbaudītājā. Dažos gadījumos visa skola licencēs plaģiāta pārbaudes programmas izmantošanu. Ikreiz, kad skolēni nodod eseju, viņiem vispirms ir jānosūta eseja uz plaģiāta pārbaudes programmu. Skolotājs ir informēts par programmas ziņojumiem.

Diemžēl jums ir jābūt ļoti piesardzīgam attiecībā uz šo plaģiāta pārbaudes programmu teikto. Ir svarīgi rūpīgi novērtēt, vai ziņotās indikācijas ir derīgas. Kā jau minēts, iespēja noteikt, vai darbs ir kopēts, var būt miglaina. Ja jūs neapdomīgi pieņemat pārbaudes programmas rezultātus, varat nepatiesi apsūdzēt studentu kopēšanā, kad viņš to nav izdarījis. Tas var satriekt dvēseli.

Turpinot, mēs varam mēģināt izmantot plaģiāta pārbaudes programmas ģeneratīvo AI izvadu testēšanas jomā. Apstrādājiet ģeneratīvas AI lietotnes izvadītās esejas tā, it kā tās būtu rakstījis students. Pēc tam mēs novērtējam, ko saka plaģiāta pārbaudītājs. To dara ar sāls graudiņu.

Ir nesen veikts pētījums, kurā mēģināts izmantot šāda veida salīdzinājumus ģeneratīvā AI kontekstā tieši šādā veidā. Es vēlētos ar jums iepazīties ar dažiem interesantiem atklājumiem.

Pirmkārt, ir nepieciešams papildu fons. Ģeneratīvo AI dažreiz dēvē par LLM (lielo valodu modeļi) vai vienkārši LM (valodu modeļi). Otrkārt, ChatGPT pamatā ir citas OpenAI ģeneratīvas AI pakotnes versija ar nosaukumu GPT-3.5. Pirms GPT-3.5 bija GPT-3, un pirms tam bija GPT-2. Mūsdienās GPT-2 tiek uzskatīts par diezgan primitīvu, salīdzinot ar vēlākajām sērijām, un mēs visi ar nepacietību gaidām gaidāmo GPT-4 atklāšanu, skatiet manu diskusiju vietnē saite šeit.

Pētījums, kuru vēlos īsi izpētīt, sastāvēja no GPT-2 pārbaudes. Tas ir svarīgi apzināties, jo tagad mēs esam tālāk par GPT-2 iespējām. Neizdariet pārsteidzīgus secinājumus par šīs GPT-2 analīzes rezultātiem. Tomēr mēs varam daudz mācīties no GPT-2 novērtējuma. Pētījuma nosaukums ir "Vai valodu modeļi plaģiizē?" Džouuns Lī, Tais Le, Džinhui Čens un Dongvons Lī, kas parādās ACM WWW '23, 1. gada 5.–2023. maijā Ostinā, Teksasā, ASV.

Šis ir viņu galvenais pētījuma jautājums:

  • "Cik lielā mērā (ne tikai ar iegaumēšanu) LM izmanto frāzes vai teikumus no saviem apmācības paraugiem?"

Viņi izmantoja šos trīs iespējamā plaģiāta līmeņus vai kategorijas:

  • “Verbatīvs plaģiāts: precīzas vārdu vai frāžu kopijas bez pārveidošanas.”
  • "Parafrāzes plaģiāts: sinonīmu aizstāšana, vārdu pārkārtošana un/vai atpakaļtulkošana."
  • "Ideju plaģiāts: galvenā satura attēlojums iegarenā formā."

GPT-2 patiešām tika apmācīts par interneta datiem un tādējādi bija piemērots kandidāts šāda veida analīzei:

  • “GPT-2 ir iepriekš apmācīts WebText, un tajā ir vairāk nekā 8 miljoni dokumentu, kas izgūti no 45 miljoniem Reddit saišu. Tā kā OpenAI nav publiski izlaidis WebText, mēs izmantojam OpenWebText, kas ir WebText korpusa atvērtā koda atjaunošana. Iepriekšējā literatūrā to ir droši izmantojusi.

Selektīvie galvenie secinājumi, kas iegūti no pētījuma, sastāv no:

  • "Mēs atklājām, ka iepriekš apmācītas GPT-2 ģimenes plaģiātu veic no OpenWebText."
  • "Mūsu atklājumi liecina, ka precizēšana ievērojami samazina burtiskā plaģiāta gadījumus no OpenWebText."
  • “Saskaņā ar Carlini et al. un Carlini et al., mēs atklājam, ka lielāki GPT-2 modeļi (lieli un xl) parasti ģenerē plaģiāta secības biežāk nekā mazāki.
  • "Tomēr dažādi LM var demonstrēt dažādus plaģiāta modeļus, un tāpēc mūsu rezultāti var nebūt tieši vispārināti ar citiem LM, tostarp jaunākiem LM, piemēram, GPT-3 vai BLOOM."
  • "Turklāt ir zināms, ka automātiskajiem plaģiāta detektoriem ir daudz atteices režīmu (gan viltus negatīvu, gan viltus pozitīvu rezultātu gadījumā).
  • "Ņemot vērā, ka lielākā daļa LM apmācības datu tiek izvilkti no tīmekļa, neinformējot satura īpašniekus, viņu vārdu, frāžu un pat galveno ideju atkārtošana no apmācības komplektiem ģenerētos tekstos rada ētisku ietekmi."

Mums noteikti ir nepieciešams daudz vairāk šāda veida pētījumu.

Ja vēlaties uzzināt, kā GPT-2 ir salīdzināms ar GPT-3 attiecībā uz datu apmācību, pastāv diezgan izteikts kontrasts.

Saskaņā ar ziņotajām norādēm GPT-3 datu apmācība bija daudz plašāka:

  • “Modelis tika apmācīts, izmantojot teksta datu bāzes no interneta. Tas ietvēra milzīgus 570 GB datu, kas iegūti no grāmatām, tīmekļa tekstiem, Vikipēdijas, rakstiem un citiem rakstiem internetā. Ja vēl precīzāk, sistēmā tika ievadīti 300 miljardi vārdu.BBC Science Focus žurnāls “ChatGPT: viss, kas jums jāzina par OpenAI rīku GPT-3”, autors Alekss Hjūzs, 2023. gada februāris).

Tiem no jums, kurus interesē padziļināti GPT-3 datu apmācības apraksti, šeit ir izvilkums no oficiālās GPT-3 modeļa kartes, kas publicēta vietnē GitHub (pēdējais atjauninātais datums ir 2020. gada septembris):

  • “GPT-3 apmācības datu kopa sastāv no internetā ievietota teksta vai internetā augšupielādēta teksta (piemēram, grāmatām). Interneta dati, par kuriem tas ir apmācīts un līdz šim novērtēts, ietver: (1) CommonCrawl datu kopas versiju, kas filtrēta, pamatojoties uz līdzību ar augstas kvalitātes atsauces korpusiem, (2) Webtext datu kopas paplašināto versiju (3). ) divi interneta grāmatu korpusi un (4) angļu valodas Vikipēdija.
  • “Ņemot vērā tā apmācību datus, GPT-3 rezultāti un veiktspēja ir vairāk reprezentatīvi internetam pieslēgtām populācijām, nevis tām, kas ir iemērktas verbālā, nedigitālā kultūrā. Iedzīvotāji, kuriem ir interneta pieslēgums, vairāk pārstāv attīstītās valstis, turīgus, jaunākus un vīriešus, un tie galvenokārt ir vērsti uz ASV. Bagātākās valstis un iedzīvotāji attīstītajās valstīs uzrāda lielāku interneta izplatību. Digitālā dzimumu atšķirība liecina arī par mazāku sieviešu skaitu tiešsaistē visā pasaulē. Turklāt, tā kā dažādās pasaules daļās ir atšķirīgs interneta izplatības un piekļuves līmenis, datu kopa nepietiekami atspoguļo kopienas, kas ir mazāk savienotas.

Viens no iepriekš minētajiem norādījumiem par GPT-3 ir tāds, ka īkšķis starp tiem, kas veido ģeneratīvo AI, ir tāds, ka jo vairāk interneta datu varat skenēt, jo palielinās iespēja uzlabot vai attīstīt ģeneratīvo AI.

To var aplūkot vienā no diviem veidiem.

  • 1) Uzlabots AI. Mums būs ģeneratīva AI, kas pārmeklēs pēc iespējas vairāk interneta. Aizraujošais rezultāts ir tāds, ka ģeneratīvais AI būs labāks, nekā tas jau ir. Tas ir kaut kas, kas jāgaida.
  • 2) Kopēšanas potenciāls. Šī interneta skenēšanas paplašināšana nepatīkami un saistoši padara plaģiāta un autortiesību pārkāpumu problēmu potenciāli arvien lielāku un lielāku. Lai gan iepriekš nebija ietekmēts tik daudz satura veidotāju, apjoms uzplauks. Ja esat jurists satura veidotāju pusē, tas izraisa asaras acīs (iespējams, sašutuma vai prieka asaras par to, kādas izredzes tas rada tiesas prāvu jomā).

Vai glāze ir puspilna vai pustukša?

Izlem tu.

Gaidāmas legālās mīnas

Jautājums, par kuru jūs varētu domāt, ir tas, vai jūsu publicētais internetā saturs tiek uzskatīts par godīgu spēli, lai to skenētu. Ja jūsu saturs atrodas aiz maksas sienas, iespējams, tas nav skenēšanas mērķis, jo tas nav viegli sasniedzams atkarībā no maksas sienas stipruma.

Es domāju, ka vairumam ikdienas cilvēku saturs nav paslēpts aiz maksas sienas. Viņi vēlas, lai viņu saturs būtu publiski pieejams. Viņi pieņem, ka cilvēki to apskatīs.

Vai tas, ka jūsu saturs ir publiski pieejams, aksiomātiski nozīmē arī to, ka jūs piekrītat tā skenēšanai, lai to izmantotu ģeneratīvais AI, kas tiek apmācīts datiem?

Varbūt jā varbūt nē.

Tas ir viens no tiem juridiskajiem jautājumiem, kas jārauj acīs.

Atgriežoties pie iepriekš citētā Bloomberg likums pantā, autori piemin pakalpojumu sniegšanas noteikumu (T&C) nozīmi, kas saistīta ar daudzām vietnēm:

  • “Legālā sauszemes mīna, ko neapzināti ignorē AI uzņēmumi, kas izmanto tiešsaistes robotprogrammatūras datu nokasīšanai, ir paslēpta noteikumos un nosacījumos, kas parasti ir pieejami visu veidu publiskajās vietnēs. Atšķirībā no pašlaik nenokārtotajiem intelektuālā īpašuma tiesību aktiem un autortiesību pārkāpumu dilemmai, tīmekļa vietnes noteikumus un nosacījumus atbalsta vispāratzītas līgumtiesības, un parasti tos var īstenot tiesā, paļaujoties uz pietiekamu skaitu precedentu.

Tie norāda, ka, pieņemot, ka jūsu vietnē ir ar licencēšanu saistīta lapa, pastāv iespēja, ka, ja izmantojāt standartizētu mūsdienu veidni, tajā var būt ietverta būtiska klauzula:

  • “Līdz ar to lielākajā daļā vietņu vispārīgo noteikumu un nosacījumu, kas ir plaši pieejami bezmaksas piekļuvei, ir ietverta klauzula, kas aizliedz automatizētu datu nokopšanu. Ironiski, šādas brīvi pieejamas veidnes, iespējams, ir izmantotas ChatGPT apmācībā. Tādēļ satura īpašnieki var vēlēties pārskatīt savus pakalpojumu sniegšanas noteikumus un iekļaut atsevišķu punktu, kas stingri aizliedz jebkādu vietņu satura izmantošanu mākslīgā intelekta apmācībai vai citiem saistītiem mērķiem, neatkarīgi no tā, vai tas tiek vākts manuāli vai automātiski, bez iepriekšējas rakstiskas vietnes īpašnieka atļaujas. ”.

Viņu analīzē par satura veidotāju iespējamām darbībām savās vietnēs ir iekļauts papildu stimuls.

  • “Tāpēc izpildāmu līgumsodu noteikuma ievietošana par katru nokasīšanas klauzulas pārkāpumu, kas papildināta ar noteikumu par izpildrakstu bez ķīlas, var būt izturīgs risinājums tiem radošā satura autoriem, kuri nevēlas nodrošināt sava darba augļus. intelektuālais darbs mākslīgā intelekta apmācības nolūkos, nesaņemot par to samaksu vai vismaz pienācīgu atzinību par viņu darbu.

Iespējams, vēlēsities par to konsultēties ar savu advokātu.

Daži saka, ka tas ir būtisks veids, kā mēģināt pateikt AI veidotājiem, ka satura veidotāji ļoti nopietni vēlas aizsargāt savu saturu. Pārliecinoties, ka jūsu licencē ir pareizs formulējums, šķiet, AI veidotāji uzmanīs.

Tomēr citi ir nedaudz nomākti. Viņi nomākts saka, ka jūs varat turpināt ievietot bargāko un nāvējošāko juridisko valodu savā vietnē, taču galu galā AI veidotāji gatavojas to skenēt. Jūs nezināt, ka viņi to izdarīja. Jums būs velns laiks, kas pierādīs, ka viņi to darīja. Maz ticams, ka atklāsiet, ka to rezultāti atspoguļo jūsu saturu. Tā ir kalnup kauja, kuru tu neuzvarēsi.

Pretarguments ir tāds, ka jūs padodat kauju, pirms tā pat tika uzsākta. Ja jums vismaz nav pietiekamas juridiskās valodas un, ja jūs kādreiz tos pieķersit, viņi šūpojas un novērsīs ceļu, lai izvairītos no jebkādas atbildības. Viss tāpēc, ka jūs neesat ievietojis pareizo juridisko valodu.

Tikmēr cita pieeja, kas cenšas iegūt vilces spēku, sastāvētu no marķēšana jūsu vietnē ir kaut kas, kas saka, ka vietni nedrīkst skenēt ģeneratīvais AI. Ideja ir tāda, ka tiktu izstrādāts standartizēts marķieris. Iespējams, ka vietnes varētu pievienot marķieri savai vietnei. AI veidotājiem tiks teikts, ka viņiem ir jāmaina datu skenēšana, lai izlaistu atzīmētās vietnes.

Vai marķiera pieeja var būt veiksmīga? Bažas ietver izmaksas, kas saistītas ar marķieru iegūšanu un ievietošanu. Papildus tam, vai AI veidotāji ievēros marķierus un nodrošinās, ka viņi izvairās no atzīmēto vietņu skenēšanas. Vēl viena perspektīva ir tāda, ka pat tad, ja mākslīgā intelekta veidotāji neatbalsta marķējumus, tas ir vēl viens signāls, lai vērstos tiesā un apgalvotu, ka satura veidotājs ir veicis pēdējo jūdzi, lai mēģinātu brīdināt par AI skenēšanu.

Ak, tas viss liek jums griezties galvai.

Secinājumi

Dažas pēdējās piezīmes par šo sarežģīto tēmu.

Vai esat gatavs prātīgam skatījumam uz visu šo AI kā plaģiātu un autortiesību pārkāpēju dilemmu?

Liela daļa pieņēmumu par ģeneratīvā mākslīgā intelekta “noķeršanu” plaģiāta vai autortiesību pārkāpuma darbībā ir atkarīgi no tādu rezultātu atklāšanas, kas ļoti līdzināties iepriekšējie darbi, piemēram, saturs internetā, kas potenciāli tika skenēts datu apmācības laikā.

Pieņemsim, ka šeit ir "skaldi un valdi" triks.

Lūk, ko es domāju.

Ja ģeneratīvais mākslīgais intelekts aizņem mazliet no šejienes un mazliet no turienes, galu galā sajaucot tos kopā, lai radītu kādu konkrētu rezultātu, izredzes gūt panākumus tiek ievērojami samazinātas. Šķietami, ka jebkura izvade nepaaugstināsies līdz pietiekamam slieksnim, lai jūs varētu droši teikt, ka tā ir iegūta no viena konkrēta avota vienuma. Iegūtā eseja vai citi izvades veidi būs savietojami tikai daļēji. Un, izmantojot parasto pieeju, mēģinot apgalvot, ka ir noticis plaģiāts vai autortiesību pārkāpums, jums parasti ir jāparāda vairāk, nekā tiek spēlēts kāds niecīgs sīkums, it īpaši, ja kumoss nav izcils un to var plaši atrast internetā (samazinājums jebkādu atbilstošu pierādīšanas pienākumu par nelikumīgu piesavināšanos).

Vai joprojām varat pārliecinoši paziņot, ka ģeneratīvā AI veiktā datu apmācība ir izvilkusi vietnes un satura veidotājus, pat ja ierosinātais pierādījums ir šķietami nebūtisks?

Padomā par to.

Ja mēs saskaramies ar iespējamu plaģiātu un autortiesību pārkāpumiem plašā mērogā, iespējams, mums būs jāmaina sava pieeja, lai definētu, kas ir plaģiāts un/vai autortiesību pārkāpums. Iespējams, ir jāizskata lieta par plaģiātu vai autortiesību pārkāpumiem kopumā vai kopumā. Mozaīku, kas sastāv no tūkstošiem vai miljoniem sīku fragmentu, var uzskatīt par tādu, kas pieļauj šādus pārkāpumus. Acīmredzamā problēma tomēr ir tāda, ka tādējādi visa veida saturs pēkšņi var nonākt pārkāpumu pakļautībā. Tā varētu būt slidena nogāze.

Smagas domas.

Runājot par spēcīgām domām, leģendārais rakstnieks Ļevs Tolstojs teica: "Dzīves vienīgā jēga ir kalpot cilvēcei."

Ja jūsu un citu vietņu tīmekļa vietnes tiek pārbaudītas, lai uzlabotu mākslīgo intelektu, un, lai gan jūs par to nesaņemat ne santīma, vai jūs varētu gūt svinīgu mierinājumu ar dedzīgu pārliecību, ka jūs sniedzat ieguldījumu cilvēces nākotnē? Šķiet, ka tā ir maza cena.

Ja vien AI neizrādīsies baisais eksistenciālais risks, kas iznīcina visus cilvēkus no esamības. Par to jums nevajadzētu uzņemties atzinību. Es pieņemu, ka jūs tikpat ātri neveicinātu šo briesmīgo iznākumu. Atmetot šo postošo prognozi, jūs varētu domāt, ka, ja mākslīgā intelekta veidotāji pelna naudu ar savu ģeneratīvo AI un šķiet, ka viņiem patīk peļņas gūšana, arī jums vajadzētu iegūt daļu no pīrāga. Kopīgojiet un kopīgojiet līdzīgi. AI veidotājiem vajadzētu lūgt atļauju skenēt jebkuru vietni un pēc tam arī vienoties par cenu, kas jāmaksā par atļauju veikt skenēšanu.

Dodiet kredītu tur, kur pienākas kredīts.

Pagaidām pēdējo vārdu teiksim seram Valteram Skotam: “Ak, cik samezglotu tīklu mēs aužam. Kad mēs vispirms praktizējam maldināšanu.

Tas var būt spēkā, ja uzskatāt, ka notiek maldināšana, vai varbūt tas neattiecas, ja uzskatāt, ka viss ir labi un pilnīgi taisni un likumīgi. Lūdzu, dāsni izsakiet sev atzinību, ka to pārdomājāt. Tu to esi pelnījis.

Avots: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- un-ai-likums/