Class: LLMJudge

Defined in: packages/agentos/src/core/evaluation/LLMJudge.ts:127

LLM-based judge for semantic evaluation

Constructors

Constructor

new LLMJudge(config): LLMJudge

Defined in: packages/agentos/src/core/evaluation/LLMJudge.ts:134

Parameters

config

LLMJudgeConfig

Returns

LLMJudge

Methods

batchJudge()

batchJudge(evaluations, criteria?, concurrency?): Promise<JudgmentResult[]>

Defined in: packages/agentos/src/core/evaluation/LLMJudge.ts:263

Batch evaluate multiple outputs

Parameters

evaluations

object[]

criteria?

JudgeCriteria[]

concurrency?

number = 3

Returns

Promise<JudgmentResult[]>

compare()

compare(input, outputA, outputB, criteria?): Promise<{ reasoning: string; scoreA: number; scoreB: number; winner: "A" | "B" | "tie"; }>

Defined in: packages/agentos/src/core/evaluation/LLMJudge.ts:229

Compare two outputs and determine which is better

Parameters

input

string

outputA

string

outputB

string

criteria?

JudgeCriteria[]

Returns

Promise<{ reasoning: string; scoreA: number; scoreB: number; winner: "A" | "B" | "tie"; }>

createScorer()

createScorer(criteria?): ScorerFunction

Defined in: packages/agentos/src/core/evaluation/LLMJudge.ts:218

Create a scorer function for use with Evaluator

Parameters

criteria?

JudgeCriteria[]

Returns

ScorerFunction

judge()

judge(input, actualOutput, expectedOutput?, criteria?): Promise<JudgmentResult>

Defined in: packages/agentos/src/core/evaluation/LLMJudge.ts:145

Judge an AI output against criteria

Parameters

input

string

actualOutput

string

expectedOutput?

string

criteria?

JudgeCriteria[]

Returns

Promise<JudgmentResult>

Constructors​

Constructor​

Parameters​

config​

Returns​

Methods​

batchJudge()​

Parameters​

evaluations​

criteria?​

concurrency?​

Returns​

compare()​

Parameters​

input​

outputA​

outputB​

criteria?​

Returns​

createScorer()​

Parameters​

criteria?​

Returns​

judge()​

Parameters​

input​

actualOutput​

expectedOutput?​

criteria?​

Returns​

Constructors

Constructor

Parameters

config

Returns

Methods

batchJudge()

Parameters

evaluations

criteria?

concurrency?

Returns

compare()

Parameters

input

outputA

outputB

criteria?

Returns

createScorer()

Parameters

criteria?

Returns

judge()

Parameters

input

actualOutput

expectedOutput?

criteria?

Returns