llm-evaluation

Here are 57 public repositories matching this topic...

j0st / PoliticalLLM

A framework for automatically manipulating and evaluating the political ideology of LLMs with two ideology tests: Wahl-O-Mat and Political Compass Test.

german pct manifesto-project rag wahlomat political-ideology-detection llms llm-evaluation

Updated May 1, 2024
Python

nagababumo / Automated-Testing-for-LLMOps

Star

automation evaluation llm llmops llm-evaluation llm-automation

Updated Jun 4, 2024
Jupyter Notebook

prompt-foundry / typescript-sdk

Star

The Typescript SDK for the prompt engineering, prompt management, and prompt testing tool Prompt Foundry

typescript open-ai prompt-engineering prompt-testing prompt-manager prompt-management llm-eval llm-test llm-evaluation prompt-evaluation

Updated May 24, 2024
TypeScript

IteraLabs / knowledge-benchmarks

Star

A compilation of referenced benchmark metrics to evaluate different aspects of knowledge for Large Language Models.

nlp artificial-intelligence benchmarks natural-language-understanding llm llm-evaluation

Updated May 18, 2024

SharathHebbar / eval_llms

Star

eleutherai llm-evaluation llms-benchmarking

Updated Feb 4, 2024
Jupyter Notebook

wittyicon29 / Custom-Evaluate-LLM

Star

Evaluate LLMs using custom functions for reasoning and RAGs and dataset using Langchain

llms langchain llm-evaluation

Updated Apr 21, 2024
Jupyter Notebook

nagababumo / Building-and-Evaluating-Advanced-RAG

Star

python rag llamaindex retrieval-augmented-generation llm-evaluation llm-evaluation-framework

Updated Jun 1, 2024
Jupyter Notebook

awesome-software / lm-evaluation-harness

Star

A framework for few-shot evaluation of language models.

llm-evaluation

Updated Jan 31, 2024
Python

aknvictor / calibrationgame

Star

Calibration game is a game to get better at identifying hallucination in LLMs.

game calibration llms llm-evaluation

Updated Feb 4, 2024
CSS

DavidGir / LangChain-Familiarization

Star

For the purposes of familiarization and learning. Consists of utilizing LangChain framework, LangSmith for tracing, OpenAI LLM models, Pinecone serverless vectorDB using Jupyter Notebook and Python.

models prompt parsers pinecone rag llm langchain-python langchain-chains langchain-agent llm-evaluation llmchain

Updated Mar 29, 2024
Jupyter Notebook

euskoog / openai-assistants-evals

Star

Visualize LLM Evaluations for OpenAI Assistants

openai tailwindcss llms llm-evaluation openai-assistants

Updated Mar 27, 2024
TypeScript

awesome-software / ray-summit-2023-training

Star

llm-evaluation

Updated Sep 21, 2023
Jupyter Notebook

innerNULL / summary-evaluator

Star

Summary Evaluation Tool

nlp deep-learning text-summarization model-evaluation model-evaluation-metrics llm bertscore llm-evaluation

Updated Jun 3, 2024
Python

EnsembleX utilizes the Knapsack algorithm to optimize Large Language Model (LLM) ensembles for quality-cost trade-offs, offering tailored suggestions across various domains through a Streamlit dashboard visualization.

python benchmark knapsack huggingface streamlit large-language-models llm llm-evaluation open-llm-leaderboard

Updated May 5, 2024
Python

armingh2000 / FactScoreLite

Star

FactScoreLite is an implementation of the FactScore metric, designed for detailed accuracy assessment in text generation. This package builds upon the framework provided by the original FactScore repository, which is no longer maintained and contains outdated functions.

nlp natural-language-processing evaluation openai question-answering gpt-4 answer-evaluation large-language-models llms gpt-evaluation llm-evaluation

Updated Apr 25, 2024
Python

GURPREETKAURJETHRA / LLMs-Evaluation

Star

LLMs Evaluation

large-language-models llm generative-ai llm-evaluation

Updated May 16, 2024
Jupyter Notebook

GiacomoMeloni / ExploringLLMs

Star

Exploring the depths of LLMs 🚀

rag llm prompt-engineering generative-ai retrieval-augmented-generation llm-evaluation

Updated Dec 7, 2023
Jupyter Notebook

ivarfresh / Interaction_LLMs

Star

[Personalize@EACL 2024] LLM Agents in Interaction: Measuring Personality Consistency and Linguistic Alignment in Interacting Populations of Large Language Models.

personality-traits bfi linguistic-alignment llms generative-agents llm-evaluation

Updated Apr 8, 2024
Python

AdamCoscia / iScore

Star

Upload, score, and visually compare multiple LLM-graded summaries simultaneously!

transformers visual-analytics summary-evaluation learning-sciences responsible-ai ethical-ai llm-evaluation

Updated Mar 8, 2024
JavaScript

Agenta-AI / job_extractor_template

Star

Template for an AI application that extracts the job information from a job description using openAI functions and langchain

template example extraction extract-information openai extract-data unstructured-text llm langchain llmops openai-function-example llm-evaluation llm-evaluation-toolkit

Updated Dec 21, 2023
Python

Improve this page

Add a description, image, and links to the llm-evaluation topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the llm-evaluation topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llm-evaluation

Here are 57 public repositories matching this topic...

j0st / PoliticalLLM

nagababumo / Automated-Testing-for-LLMOps

prompt-foundry / typescript-sdk

IteraLabs / knowledge-benchmarks

SharathHebbar / eval_llms

wittyicon29 / Custom-Evaluate-LLM

nagababumo / Building-and-Evaluating-Advanced-RAG

awesome-software / lm-evaluation-harness

aknvictor / calibrationgame

DavidGir / LangChain-Familiarization

euskoog / openai-assistants-evals

awesome-software / ray-summit-2023-training

innerNULL / summary-evaluator

VidhyaVarshanyJS / EnsembleX

armingh2000 / FactScoreLite

GURPREETKAURJETHRA / LLMs-Evaluation

GiacomoMeloni / ExploringLLMs

ivarfresh / Interaction_LLMs

AdamCoscia / iScore

Agenta-AI / job_extractor_template

Improve this page

Add this topic to your repo