Gemini-værktøjskasse: alt hvad du kan gøre i dag med Googles AI-apps, -værktøjer og API

Sidste ændring: 25. marts 2026
Forfatter: Andy Green
  • Gemini's værktøjskasse kombinerer stabile værktøjer som Canvas, Deep Research og Guided Learning med eksperimentelle Labs-funktioner.
  • Gemini API'en åbner op for multimodale og funktionskaldende arbejdsgange på tværs af Google Workspace og brugerdefinerede automatiseringer.
  • Guidet læring, Canvas og agenter gør Gemini til både en personlig vejleder og en arbejdsassistent til dokumenter, slides og e-mails.
  • Ved hjælp af Labs, Gemini Enterprise og Workspace-integration kan teams teste kraftfuld AI sikkert oven på deres egne data.

Gemini værktøjskassekoncept

"Gemini-værktøjskassen" er ikke længere bare et iørefaldende udtryk; det er det praktiske sæt af apps, værktøjer, agenter og API'er, som Google stille og roligt væver ind i alt fra almindelig læring til virksomhedsarbejdsgange. I stedet for en enkelt monolitisk assistent opfører Gemini sig nu mere som en værktøjskasse, hvor hver funktion er et specifikt instrument: forskningsmotor, tutor, kodehjælper, mødeplanlægger, slidebygger og meget mere.

Hvis du forstår, hvordan disse dele hænger sammen – Canvas, Guided Learning, Labs, agenter, Gemini Enterprise og Gemini API’en – kan du forvandle Gemini til en rigtig arbejdshest i stedet for en unik chatbot. Nedenfor finder du en detaljeret gennemgang af denne værktøjskasse: hvad der findes i det stabile "Værktøjer"-område, hvad der testes i "Labs", hvordan Gemini fungerer som en tutor med billeder og videoer, og hvordan udviklere kan integrere API'en i Google Workspace for seriøs automatisering.

Hvad er der præcist i Gemini-værktøjskassen i dag?

Gemini forstås bedst som en familie af AI-modeller (hvad er sprogmodeller) (Gemini 1.0, Gemini 1.5, Gemini 3 osv.) leveret via forskellige frontends: web, mobilapps, Workspace-integration og en udvikler-API. Ideen med "værktøjskassen" stammer fra den måde, Google nu grupperer konkrete funktioner i Gemini-grænsefladen, især på nettet.

På nettet er hovedvælgeren i Gemini opdelt i to hovedzoner: "Værktøjer" til stabil, produktionsklar funktionalitet og "Labs" til eksperimenter, der stadig er under udvikling. Tænk på "Værktøjer" som den betroede skruetrækker, du griber hver dag, mens "Laboratorier" er bakken, hvor du opbevarer prototyper, der måske skifter form i næste uge.

På mobilen tilføjer Gemini-apps mange af de samme værktøjer – guidet læring, Canvas-lignende oplevelser og billedrig hjælp – men de udrulles gradvist. Hvis du ikke kan se en specifik funktion i appen endnu, anbefaler Google eksplicit, at du prøver igen senere eller springer til gemini.google.com for at se den nyeste version på nettet.

Under motorhjelmen er alle disse overflader understøttet af Gemini API'en, som eksponerer multimodale modeller og funktionskald, så du kan generere indhold, analysere billeder eller orkestrere arbejdsgange via kode. Den API er rygraden i mange af de Workspace-automatiseringer, som vi vil dække senere.

Gemini-værktøjer og -funktioner

Værktøjer vs. Labs: hvordan Gemini organiserer sine funktioner

Efterhånden som Gemini har samlet flere knapper og tilstande, har Google introduceret en klarere adskillelse mellem modne funktioner og eksperimentelle gennem to sektioner: "Værktøjer" og "Labs". Denne ændring er allerede synlig på webgrænsefladen og implementeres gradvist fra Googles servere, så ikke alle konti ser det samme layout på samme tid.

I afsnittet "Værktøjer" parkerer Google funktioner, som den anser for at være stabile og forudsigelige til daglig brug. Rapporter fra kilder som Android Police og 9to5Google viser, at dette område omfatter elementer som Deep Research, billedgenerering, videooprettelse via Veo, Canvas, Guided Learning og Deep Think, nogle gange knyttet til specifikke abonnementsniveauer som Google AI Pro eller Google AI Ultra.

"Labs" er derimod den eksplicitte legeplads: et dedikeret område inde i Gemini-vælgeren, der grupperer funktioner markeret som eksperimentelle. Du vil typisk se ikoner med en lille laboratoriekolbe og etiketter som Gemini Agent, Dynamisk visning (også kaldet visuelt layout) og Personlig intelligens. Forventningen, når du klikker på noget under Labs, er enkel: adfærd kan ændre sig, forsvinde eller flytte sig med kort varsel.

Fra et produktdesignsynspunkt er denne adskillelse vigtig for tilliden. Når en AI-app vokser hurtigt, er risikoen ikke bare "for mange funktioner", men "ingen idé om, hvilke funktioner jeg kan stole på". Ved at placere daglige værktøjer i én zone og eksperimenter i en anden, signalerer Gemini risiko på en måde, der ligner "normal" versus "sport"-tilstand i en bil.

De stabile Gemini-værktøjer: Dyb research, Canvas, Guided Learning og mere

Gemini-værktøjskassen for de fleste brugere ligger under "Værktøjer", hvor du finder de oplevelser, som Google ønsker, at du skal opbygge vaner omkring. Selvom den præcise opstilling varierer afhængigt af konto og abonnementsniveau, er et par elementer allerede centrale.

Deep Research forvandler Gemini til en struktureret forskningsassistent snarere end en generisk chatmodel. Når du stiller et spørgsmål, der kræver gennemgang af flere kilder, følger Deep Research en mere eksplicit flertrinsproces, der fremhæver en ensartet metode, så brugerne ved, hvad de kan forvente, hver gang de bruger den.

Værktøjer til indholdsoprettelse til billeder og video – inklusive integrationer drevet af Veo – findes også i værktøjsskuffen. Brugere, der bruger Gemini til visuelt indhold, har brug for, at disse funktioner er nemme at finde og rimeligt stabile, og ikke skjult bag skiftende eksperimentelle flag.

Canvas er en anden søjle: en arbejdsområdetilstand, hvor du kan starte et dokument eller et kodningsprojekt direkte fra en prompt og derefter iterativt forfine det med Gemini. Under anmodningslinjen kan du vælge "Canvas" og skrive din prompt for at generere et udgangspunkt for indhold eller kode, og derefter fortsætte med at redigere i et interaktivt layout side om side.

Guidet læring og dyb tænkning afrunder de mere kognitivt fokuserede værktøjer, især for brugere, der ønsker struktureret hjælp med komplekse emner. Guidet læring kan fungere som en tutor, der guider dig gennem idéerne trin for trin, mens Deep Think opfordrer til langsommere og mere bevidst ræsonnement omkring udfordrende spørgsmål.

Gemini som personlig tutor: Guidet læring, billeder og videoer

Et af de mest brugervenlige aspekter ved Gemini-værktøjskassen er dens evne til at fungere som en privatlærer, der blander guidede sekvenser med visuelle forklaringer. I stedet for at dumpe en mur af tekst, kan Gemini inkorporere billeder, skitser og endda videoer i sine svar for at gøre koncepter lettere at forstå.

Rent praktisk kan du bede Gemini om at forklare et emne og eksplicit anmode om et diagram, en visuel oversigt eller et illustrativt billede. Svaret kan integrere disse billeder direkte i forklaringen, hvilket hjælper dig med at visualisere f.eks. et matematisk begreb, en arbejdsgang eller en videnskabelig proces.

Videobaseret læring understøttes også, selvom detaljerne varierer afhængigt af region og udrulningsfase. For nogle emner kan Gemini vise eller referere til videoer, der supplerer det tekstuelle svar, hvilket skaber en mere multimodal læringssti, hvor du læser, ser og interagerer med spørgsmål i samme flow.

Denne undervisningstilstand introduceres gradvist i de mobile Gemini-apps, så du ser muligvis ikke alle muligheder med det samme. Når det sker, er reserven at bruge weboplevelsen, hvor Gemini's funktioner ofte vises tidligere under gradvise udrulninger.

Gemini Enterprise og Workspace: AI-agenter til teams

Ud over personlig brug kan Gemini-værktøjskassen også bruges på arbejdspladsen via integrationer med Gemini Enterprise og Google Workspace. Her skifter fokus fra engangsforespørgsler til vedvarende agenter, arbejdsgange og samarbejde i stor skala.

Gemini Enterprise beskrives af Google som en avanceret agentplatform, der bringer det bedste fra Googles AI til alle medarbejdere og arbejdsgange. I praksis giver det teams mulighed for at opdage, oprette, dele og køre AI-agenter i et sikkert miljø, der er bakket op af deres egne virksomhedsdata, hvilket reducerer udviklingsflaskehalse og muliggør use cases som salgsanalyse, procesautomatisering og intern videnssøgning.

Google Workspace fungerer i sig selv som en samarbejdsplatform, der er superpowered af Gemini, med AI vævet ind i apps som Gmail, Docs og Meet. I stedet for at skifte til et separat AI-værktøj kan brugerne tilkalde Gemini i deres daglige produktivitetsapps for at udarbejde indhold, opsummere information eller generere ideer i kontekst.

I nogle opsætninger kan du endda chatte direkte med Gemini via dine virksomhedsdata, der er gemt på tværs af Google Workspace, Microsoft 365 og andre forbundne systemer. Det forvandler Gemini til et virksomhedsvidenslag, der kan besvare spørgsmål baseret på e-mails, dokumenter og filer, underlagt de tilladelser og sikkerhedsindstillinger, der er konfigureret af IT.

Gemini API'en: rygraden i udviklerværktøjskassen

Under de brugervendte Gemini-apps ligger Gemini API'en, som tilbyder de samme kernemodeller, som udviklere kan integrere i deres egne applikationer. Denne API er stedet, hvor multimodalitet, funktionskald og brugerdefinerede arbejdsgange mødes for seriøs automatisering, især med Google Workspace og Apps Script.

Gemini-modeller er Googles mest kraftfulde AI-systemer, og API'en tilbyder forskellige modelvarianter – såsom tekstfokuserede og visionsorienterede versioner – hver med specifikke funktioner og begrænsninger. Du kan udforske dem visuelt i Google AI Studio, en hostet brugerflade til at afprøve prompts, justere modelindstillinger og endda finjustere brugerdefinerede modeller uden at skrive kode.

For at begynde at bruge API'en skal du anmode om en API-nøgle via Google AI Studio eller en anden understøttet konsol og derefter teste den med et simpelt REST-kald. For eksempel kan du eksportere din nøgle til en miljøvariabel som GOOGLE_API_KEY og kalde det slutpunkt, der viser tilgængelige modeller, og modtage JSON, f.eks. modeller/gemini-1.0-pro hvis alt er konfigureret korrekt.

Derfra handler generering af indhold om at POST en JSON-nyttelast til det relevante slutpunkt, f.eks. generér indhold metode for en valgt model. En minimumsanmodning inkluderer en indhold felt med tekstdele, men valgfrit generationskonfiguration og sikkerhedsindstillinger lader dig styre parametre som temperatur og sikkerhedsfiltre.

Kald af Gemini API'en fra Apps Script

Et af de mest kraftfulde mønstre i Gemini-værktøjskassen er at kombinere API'en med Google Apps Script for at automatisere arbejdsgange i Workspace. Denne tilgang giver dig mulighed for at orkestrere Gemini sammen med tjenester som Drive, Kalender, Gmail, Sheets og Slides uden at bygge en komplet backend.

Standardopsætningen starter med et Apps Script-projekt (f.eks. oprettet via script.new), hvor du gemmer din Gemini API-nøgle som en script-egenskab. I kode henter du den værdi og konstruerer en endpoint-URL for en bestemt model, ofte gemini-1.0-pro-nyeste:generer indhold med din API-nøgle sendt som en forespørgselsparameter.

En hjælpefunktion som f.eks. callGemini(prompt, temperatur) opbygger typisk en JSON-nyttelast, sender den via UrlFetchApp.fetch og analyserer svaret for at udtrække den genererede tekst. Denne wrapper forenkler gentagen brug af API'en fra forskellige værktøjer i dit script.

Testning er ligetil: du kan oprette en testGemini() funktion, der definerer en prompt, kalder din hjælper og logger både input og output til udførelsesloggene. Når det virker, ved du, at dit Apps Script-miljø og din Gemini API-nøgle er korrekt tilsluttet til mere avancerede scenarier.

Brug af Gemini Vision-slutpunktet til billeder

Gemini-værktøjskassen går ud over tekst takket være multimodal understøttelse, især muligheden for at behandle billeder via et synsaktiveret slutpunkt. I Apps Script er dette normalt et separat slutpunkt, f.eks. gemini-1.0-pro-vision-nyeste:generer indhold, igen parametriseret af din API-nøgle.

En typisk hjælper som callGeminiProVision(prompt, billede, temperatur) vil konvertere en billedblob til base64, integrere den som inlineData med den passende MIME-type og send den sammen med en tekstprompt. Modellen returnerer derefter tekst, der afspejler dens forståelse af både billedet og prompten.

For at bekræfte opsætningen kan du skrive en lille testGeminiVision() der downloader et eksempelbillede fra en offentlig URL, sender det til din hjælper og logger en sjov kendsgerning eller analyse produceret af Gemini Vision. Denne type test viser, at multimodal input fungerer korrekt i dit miljø.

Når visionsflowet er stabilt, kan du genbruge det i automatiseringer på højere niveau, f.eks. analyse af diagrammer fra Google Sheets eller billeder gemt i Drev. Det er her, multimodalitet begynder at føles som en virkelig nyttig del af værktøjskassen snarere end et demotrick.

Funktionskald: giver Gemini adgang til værktøjer

Et andet nøgleelement i Gemini-værktøjskassen er funktionskald, som lader modellen bestemme, hvornår den skal kalde dine egne værktøjer eller API'er. I stedet for blot at generere tekst, kan Gemini returnere struktureret funktionsopkald objekter, der beskriver, hvilken funktion der skal bruges, og med hvilke argumenter.

I Apps Script kan du oprette en hjælper, f.eks. callGeminiWithTools(prompt, værktøjer, temperatur) der sender en værktøjer specifikation sammen med brugerprompten. Denne specifikation følger en Funktionsdeklaration skema, hvor du beskriver funktionens navn, formål og JSON-parametre.

Når Gemini beslutter, at et værktøj skal bruges, inkluderer dets svar et funktionskaldsobjekt, som du kan analysere i dit script og dirigere til den faktiske implementering. Du kan for eksempel definere et stub-værktøj med navnet "datetime", der returnerer den aktuelle dato og det aktuelle klokkeslæt, og se, hvordan Gemini anmoder om den funktion for at løse spørgsmål relateret til kalenderberegninger.

Funktionskald er særligt kraftfuldt, fordi det kan fungere på tværs af flere ture, ikke kun enkeltstående anmodninger. Det betyder, at du kan designe mere komplekse, samtalebaserede agenter, der bestemmer, hvornår værktøjer skal tilkaldes, fortolker resultaterne og fortsætter dialogen.

Demointegrationer: Gemini + Google Workspace som en praktisk værktøjskasse

Når du kombinerer tekstgenerering, visionsinput og funktionskald, bliver Gemini-værktøjskassen en praktisk motor til automatisering af arbejdsområder. Googles kodelaboratoriumsmateriale skitserer adskillige konkrete eksempler, der illustrerer, hvad der er muligt.

På et højt niveau sendes indgående brugerforespørgsler til Gemini med et sæt tilgængelige værktøjer, der repræsenterer forskellige arbejdsgange: mødeplanlægning, e-mail-udkast fra diagrammer og oprettelse af slidedecks. Baseret på forespørgslen vælger Gemini den rigtige funktion og returnerer et funktionskald med strukturerede argumenter såsom tidspunkter, filnavne eller emner.

I dit Apps Script fortolker du derefter funktionskaldet inde i en hvis ellers kæde, og aktivere den relevante arbejdsgang – for eksempel opsætningsmøde(), udkast til e-mail() or createDeck(). Denne kombination af modelræsonnement og eksplicit scriptlogik er det, der forvandler Gemini fra et chatvindue til en værktøjskasse til rigtigt arbejde.

Automatisering af møder: opsummering af Drive-filer i Kalender-begivenheder

En demo viser, hvordan Gemini kan hjælpe med at oprette et kalendermøde, der automatisk inkluderer et resumé af en tekstfil, der er hostet i Google Drev. Brugeren kan skrive noget i retning af: "Aftal et møde i morgen kl. 10 med Helen for at diskutere nyhederne i Gemini-blog.txt-filen."

Bag kulisserne er et Workspace-værktøj med navnet "setupMeeting" deklareret i værktøjsspecifikationen med parametre for tid, modtager og filnavn. Når Gemini fortolker forespørgslen, vælger den dette værktøj og returnerer et funktionskald med disse argumenter udfyldt.

Det tilsvarende opsætningsmøde() Funktionen finder derefter den angivne fil i Drev, læser dens indhold og sender den til Gemini via callGemini() med instruktioner til at producere et kort JSON-objekt indeholdende en titel og et kort resumé. Svaret kan komme tilbage indpakket i formateringshegn, som du fjerner, før du parser det som JSON.

Ved hjælp af den udtrukne titel og resumé opretter scriptet en kalenderbegivenhed vha. KalenderApp, sætter beskrivelsen til resuméet og vedhæfter kildefilen via den avancerede kalendertjeneste. Resultatet er et planlagt møde med indbygget kontekst, alt sammen udløst af en enkelt anmodning i naturligt sprog.

Udarbejdelse af e-mails fra Sheets-diagrammer med Gemini Vision

En anden arbejdsgang i Gemini-værktøjskassen involverer analyse af et diagram i Google Sheets og udarbejdelse af en Gmail-besked baseret på det. Forestil dig, at du fører et regneark over dine studieudgifter og ønsker en e-mail, der opsummerer, hvad diagrammet viser for en kollega ved navn Mary.

Brugerforespørgslen kan f.eks. lyde: "Udkast en e-mail til Mary med indsigt fra diagrammet i CollegeExpenses-arket." Et værktøj kaldet "draftEmail" er defineret til at acceptere et sheet_name og en modtager, og Gemini vælger dette værktøj, når det ser denne type anmodning.

udkast til e-mail() Funktionen finder det anmodede regneark i Drev, åbner det relevante ark, henter dets første diagram og gemmer diagrammet som en fil (f.eks. ExpenseChart.png). Den opbygger derefter en prompt, der instruerer Gemini til kun at bruge information i horoskopet, undgå historiske sammenligninger og holde budskabet kortfattet.

Ved at ringe callGeminiProVision(prompt, expenseChart), sender scriptet både prompten og diagrambilledet til Gemini Vision, som returnerer en skræddersyet e-mail-brødtekst. Endelig opretter scriptet et Gmail-kladde adresseret til modtagerens e-mail, angiver et emne som "Udgifter til universitetet" og vedhæfter diagrambilledet.

Dette mønster forvandler effektivt Gemini til en analytiker, der kan læse et diagram, uddrage nøglehistorien og formulere den i naturligt sprog på dine vegne. Du gennemgår og justerer stadig udkastet, men det meste af det tunge arbejde udføres automatisk.

Automatisk opbygning af slidesæt med Gemini og Google Slides

Den tredje store demo-arbejdsgang i denne værktøjskasse opbygger automatisk en grundlæggende Google Slides-præsentation om et brugerdefineret emne. For eksempel kunne du spørge: "Hjælp mig med at sammensætte et kort om vandbesparelse."

Et værktøj kaldet "createDeck" deklareres med en enkelt parameter, topic, og Gemini instrueres i at returnere struktureret JSON, der beskriver en række slides. Prompten fortæller Gemini, hvor mange slides der skal oprettes (baseret på en konstant som NUM_SLIDES), anmoder om korte titler og punktopstillinger og beder eksplicit om et gyldigt JSON-objekt, så scriptet kan parse det sikkert.

Efter at have ringet callGemini() Med den prompt fjerner scriptet eventuelle formateringshegn, analyserer JSON'en og bruger derefter SlidesApp at generere en ny præsentation. Det første dias behandles som titelside, og efterfølgende dias følger et TITEL_OG_BRUD-layout, hvor scriptet udfylder titel- og punktteksten.

Inden for få sekunder får du et grundlæggende sæt med strukturerede diskussionsemner pr. slide, klar til at du kan tilpasse dem visuelt. Selvom outputtet bevidst er minimalt, viser denne arbejdsgang, hvordan Gemini kan kickstarte indholdsstrukturen, så du kan fokusere på design og nuancer.

Udvidelse af værktøjskassen: chatbots, RAG og multi-turn værktøjer

Eksemplerne ovenfor er kun et udgangspunkt; den bredere Gemini-værktøjskasse kan udvides i mange retninger, når du er fortrolig med API'en og funktionskald. Google foreslår eksplicit flere muligheder for udforskning.

Et populært anvendelsesscenario er at bygge chatbots til Google Chat ved hjælp af Gemini API'en. Her gælder de samme mønstre: du eksponerer værktøjer, lader Gemini bestemme, hvornår de skal kaldes, og forbinder svarene tilbage til en samtalegrænseflade i Chat, alt sammen styret af Chat API'en og tilhørende kodelaboratorier.

En anden vigtig retning er retrieval-augmented generation (RAG) oven på privat indhold i Drive eller Keep. I stedet for at opsummere en enkelt tekstfil kan du kombinere Gemini API'en med en vektordatabase og eventuelt et orkestreringsframework som LangChain for at hente relevante uddrag fra PDF'er, billeder og noter, før du beder Gemini om at generere et svar baseret på disse dokumenter.

Multi-turn-funktionskald låser også op for mere sofistikerede agenter, der iterativt kan beslutte, hvilke værktøjer de skal bruge, og i hvilken rækkefølge. I stedet for at træffe en enkelt beslutning kan en agent kalde en funktion, undersøge resultatet og derefter kalde en anden funktion eller stille et afklarende spørgsmål, alt sammen inden for én igangværende tråd.

Endelig er der intet krav om at blive inde i Workspace; når du mestrer Gemini API-mønstrene, kan du koble modellen til eksterne API'er på tværs af det bredere internet. Sådan går Gemini fra at være en indesluttet virksomhedsassistent til at være en generel orkestrator af digitalt arbejde.

Tilsammen danner disse dele – stabile værktøjer, eksperimentelle laboratorier, vejledningsfunktioner, virksomhedsagenter og udvikler-API'en – en virkelig omfattende Gemini-værktøjskasse, der kan tilpasses både almindelige elever og erfarne brugere. Hvis du behandler Gemini mindre som en enkelt app og mere som et voksende sæt instrumenter, du kan komponere, vil du være i en stærk position til at drage fordel af det, Google tilføjer næste gang, uden at skulle gentænke hele din arbejdsgang hver gang.

Hvad er sprogmodeller?
Relateret artikel:
Hvad er sprogmodeller, og hvordan fungerer LLM'er egentlig?