Chatbots svar er opfundet: Ny værktøj hjælper dig

Cleanlab vil gøre store sprogmodeller mere attraktive for virksomheder som er bekymrede over deres tendens til at opfinde information. Med deres pålidelige sprogmodel, kan virksomheder nu få gavn af AI uden at bekymre sig om fejlinformation.

Af Maria

27 apr. 2024 kl. 07:00

DEL:

Cleanlab håber, at deres værktøj vil gøre store sprogmodeller mere attraktive for virksomheder, der er bekymrede for, hvor meget de kan opfinde. "Jeg tror, folk ved, at store sprogmodeller vil ændre verden, men de er bare blevet hængt op på de dumme hallucinationer," siger Cleanlab CEO Curtis Northcutt. Chatbots er ved at blive den dominerende måde, folk søger informationer på en computer.

Søgemaskiner bliver redesignet omkring denne teknologi. Kontorsoftware, der bruges af milliarder af mennesker hver dag til alt fra skoleopgaver til markedsføring, har nu indbyggede chatbots. Alligevel fandt en undersøgelse fra november, udført af Vectara, en startup grundlagt af tidligere Google-ansatte, at chatbots opfinder information mindst 3% af tiden.

Clean Lab.webp

Det lyder måske ikke af meget, men det er en fejlmargen, de fleste virksomheder ikke vil acceptere. Cleanlabs værktøj bruges allerede af en håndfuld virksomheder, herunder Berkeley Research Group, en britisk konsulentvirksomhed specialiseret i virksomhedskonflikter og undersøgelser. Steven Gawthorpe, associeret direktør hos Berkeley Research Group, siger, at Cleanlabs Tillidsskabende Sprogmodel er den første levedygtige løsning på hallucinationsproblemet, han har set,

I 2021 udviklede Cleanlab en teknologi, der opdagede fejl i 34 populære datasæt, der anvendes til at træne maskinlæringsalgoritmer, ved at måle forskellene i output på tværs af en række modeller, der var blevet trænet på disse data. Denne teknologi bruges nu af flere store virksomheder, herunder Google, Tesla og den store bankgigant Chase. Den Tillidsskabende Sprogmodel anvender den samme grundlæggende idé - at uenigheder mellem modeller kan bruges som et mål for troværdigheden af det samlede system - og anvender det på chatbots.

I en demo, Cleanlab gav til MIT Technology Review, skrev Northcutt et simpelt spørgsmål ind i ChatGPT: "Hvor mange gange forekommer bogstavet 'n' i 'enter'?" ChatGPT svarede: "Bogstavet 'n' forekommer en gang i ordet 'enter'." Det korrekte svar øger tilliden. Men spørg spørgsmålet et par gange mere, og ChatGPT svarer: "Bogstavet 'n' forekommer to gange i ordet 'enter'.

"Resultater er ikke kun ofte forkert, det er også tilfældigt, man ved aldrig, hvad det vil give som output," siger Northcutt. "Hvorfor kan det ikke bare fortælle, at det giver forskellige svar hele tiden?" Cleanlabs mål er at gøre denne tilfældighed mere eksperimentabel.

Northcutt spørger Tillidsskabende Sprogmodel det samme spørgsmål. "Bogstavet 'n' forekommer en gang i ordet 'enter'," svarer den - og scorer sit svar 0,63. Seks ud af 10 er ikke en god score og antyder, at chatbottens svar på dette spørgsmål ikke skal betragtes som pålideligt. Det er et simpelt eksempel, men det illustrerer pointen.

cleanlab-secures-25-million-in-series-a-funding-for-data-v0-vzNpd6o-b9eJfbITtxJA0zuPpBMOSs_Jg8Wj3kPaOAo.webp

Uden scoren kunne man tro, at chatbotten vidste, hvad den talte om, siger Northcutt. Problemet er, at dataloger, der tester store sprogmodeller i højrisikosituationer, kan blive vildledt af et par korrekte svar og antage, at fremtidige svar også vil være korrekte: "De prøver ting af, de prøver et par eksempler, og de tror, det virker. Og så træffer de beslutninger, der resulterer i virkelig dårlige forretningsbeslutninger."

Seneste software

08 maj

spil

Microsoft lukker Bethesda-studier
07 maj

software

ChatGPT-4 programmerer allerede robotter!
07 maj

spil

REDKit udgives gratis til The Witcher 3 ejere
07 maj

spil

Nyt leak fra Marvels Wolverine
06 maj

spil

SKYBLIVION Development Diary 5
06 maj

spil

Sony trækker i land med Helldivers 2
02 maj

software

Tech-giganter driver cloud boom med AI
01 maj

spil

Xbox Game Pass maj måneds-drop

Annonce:

Mest læste software

31 mar

software

10 kommentarer

Sådan bruges Android Auto Wireless
23 nov

spil

8 kommentarer

PS5 vs. PS5 Digital Edition: Hvilken skal du købe?
05 jan

krypto

12 kommentarer

RTX 3080 Ethereum mining rig tjener $20K pr måned
12 apr

software

12 kommentarer

Sådan finder du din Windows 10 produktnøgle
14 mar

krypto

21 kommentarer

Vanvids kryptomining rig spottet
15 dec

software

Android TV vs Smart TV: Hvad er forskellen?

Annonce:

Anbefalet af Tweak

06 dec

headset

6 kommentarer

Poly Voyager Surround 80
23 feb

køling

1 kommentar

Arctic Liquid Freezer III 240 A-RGB Black
11 mar

køling

3 kommentarer

Seasonic Magflow
07 mar

kabinet

4 kommentarer

Fractal Design North XL

Chatbots svar er opfundet: Ny værktøj hjælper dig

Seneste software

Microsoft lukker Bethesda-studier

ChatGPT-4 programmerer allerede robotter!

REDKit udgives gratis til The Witcher 3 ejere

Nyt leak fra Marvels Wolverine

SKYBLIVION Development Diary 5

Sony trækker i land med Helldivers 2

Tech-giganter driver cloud boom med AI

Xbox Game Pass maj måneds-drop

Mest læste software

Sådan bruges Android Auto Wireless

PS5 vs. PS5 Digital Edition: Hvilken skal du købe?

RTX 3080 Ethereum mining rig tjener $20K pr måned

Sådan finder du din Windows 10 produktnøgle

Vanvids kryptomining rig spottet

Android TV vs Smart TV: Hvad er forskellen?

Anbefalet af Tweak

Poly Voyager Surround 80

Arctic Liquid Freezer III 240 A-RGB Black

Seasonic Magflow

Fractal Design North XL

Vores partnere