AIDOPT
AI assistants & agents als versterkende schakel voor bedrijfsmedewerkers,
bedrijfsprocessen en technologieën in de digitale transformatie
ONDERZOEKSVRAAG
Hoe kunnen we de integratiemogelijkheden en de toegankelijkheid van transformer-gebaseerde modellen verbeteren om specifieke operationele en strategische uitdagingen m.b.t. bedrijfsmedewerkers, bedrijfsprocessen en technologieën in bedrijfsomgevingen laagdrempeliger aan te pakken?
HET RESULTAAT
Kort samengevat is dát de centrale onderzoeksvraag dat wordt behandeld binnen het innovatiewiel AIdopt. Specifiek nemen we Large Language Models (LLM’s) onder de loep, en onderzoeken we op welke manier ze laagdrempelig in de vorm van AI assistenten en AI agents kunnen worden ingezet binnen kmo’s.
onze modulaire centrale bedrijfsassistent
We introduceren Pixie, een modulair framework ter opbouw van AI-assistants en agents. Aan de hand van uw specifieke noden en wensen herleiden we uw vraag naar een AI-assistent tot een selectie van componenten die samen een AI-assistent kunnen vormgeven. Deze componenten zijn als volgt:
Embedding models
OpenAI & BAAI/bge
Embedding models
Embedding modellen zetten informatie (zoals tekst of afbeeldingen) om naar een numerieke voorstelling, die vervolgens kan opgeslagen worden in een vector store of verwerkt worden door een taalmodel.
Voor de meeste toepassingen zijn de modellen van OpenAI (text-embedding-ada-002 en text-embedding-3) voldoende en ondersteunen tot op zekere hoogte meerdere talen.
Voor on-premise toepassingen is BAAI/bge-m3 een alternatief dat goede prestaties levert in verschillende talen en inputgroottes.
LLM’s
OpenAI, Gemini & Anthropic
LLM’s
(Grote) taalmodellen kunnen in hun meest eenvoudige vorm voorspellen welke tekst het meest logisch zou volgen op een opgegeven stukje tekst (de “prompt”). Hedendaagse meer capabele modellen zijn in staat om op basis hier van meer complexe taken uit te voeren zoals teksten vertalen, samenvatten, uitschrijven, herwerken, classificeren, enz.
Enkele bekende aanbieders van modellen zijn o.a. OpenAI met GPT, Anthropic met Claude (Haiku, Sonnet, …), Mistral met Mixtral, Google met Gemini, Meta met LLama, Microsoft met Phi, Nvidia , Qwen, enz.
De meeste van deze bedrijven bieden verschillende modellen aan, gaande van relatief eenvoudige, snelle, goedkope modellen tot complexe, tragere, meer prijzige maar ook meer capabele modellen.
Sommige van deze modellen worden uitgebreid met verschillende tools en kunnen in een feedback loop hun eigen (tussentijdse) antwoorden evalueren en bijsturen.
Document Loaders
Llama parse, PymuPDF4LLM & Azure document intelligence
Document Loaders
Document loaders worden gebruikt om de inhoud uit bestaande documenten in verschillende formaten (pdf, scans, Word documenten, spreadsheets, presentaties enz.) te halen en voor te bereiden om verwerkt te worden door taalmodellen of de tools daarrond.
Llama parse kan zowel tekst, afbeeldingen als tabellen verwerken in verschillende talen en deze omzetten naar een voor verwerking bruikbaar formaat (vb. JSON).
Azure document intelligence is een clouddienst die documenten in verschillende formaten kan verwerken om verdere verwerking door llm-gerelateerde tools voor te bereiden.
Pymupdf4llm is een Python bibliotheek die kan gebruikt worden om pdf-documenten om te zetten naar vlakke tekst of Markdown. Deze bibliotheek is geschikt voor eenvoudige toepassingen en prototypes.
Vector stores
ChromaDB, Postgres & Qdrant
Vector stores
Een vector store is een type databank die geoptimaliseerd is voor opslaan en opzoeken van vectoren (rijen van getallen met een bepaalde lengte). Een typische toepassing is het opzoeken van informatie over een bepaald onderwerp, binnen een grote hoeveelheid tekst (vb. documentatie of bedrijfsinformatie).
ChromaDB is een entry level vector database die erg eenvoudig is in gebruik, ideaal voor relatief kleine toepassingen, en is specifiek goed in het NLP-domein.
Postgres is een gratis (open source) databank die naast klassieke tabellen ook overweg kan met vectoren, en sterk is in snel opzoeken en indexeren.
Qdrant is ontworpen voor grotere toepassingen (grote vectoren), heeft meer geavanceerde functies zoals sharding, replicatie, filtering.
Rerankers
BAAI/bge-reranker
Rerankers
Een reranker is een algoritme dat kan ingezet worden om de resultaten verkregen bij opzoeking in een vector store in een andere, betere volgorde te zetten. Dit kan vb. op basis van semantische vergelijking of andere maatstaven.
BAAI/bge-reranker is een open source reranker die gebruikt kan worden om de relevantie van bepaalde passages tekst te evalueren ten opzichte van een vraag of prompt.
Meet the team
Robin Schrijvers
robin.schrijvers@pxl.be
