Interface IEvaluator

Interface for the agent evaluator.

Example

const evaluator = new Evaluator();

// Create test suite
const testCases: EvalTestCase[] = [
  {
    id: 'greet-1',
    name: 'Basic greeting',
    input: 'Hello!',
    expectedOutput: 'Hello! How can I help you today?',
    criteria: [
      { name: 'relevance', description: 'Is greeting appropriate', weight: 0.5, scorer: 'llm_judge' },
      { name: 'politeness', description: 'Is response polite', weight: 0.5, scorer: 'contains' },
    ],
  },
];

// Run evaluation
const run = await evaluator.runEvaluation('greeting-test', testCases, agentFn);
console.log(`Pass rate: ${run.aggregateMetrics.passRate * 100}%`);

interface IEvaluator {
    runEvaluation(name, testCases, agentFn, config?): Promise<EvalRun>;
    evaluateTestCase(testCase, actualOutput, config?): Promise<EvalTestResult>;
    score(scorer, actual, expected?, references?): Promise<number>;
    registerScorer(name, fn): void;
    getRun(runId): Promise<undefined | EvalRun>;
    listRuns(limit?): Promise<EvalRun[]>;
    compareRuns(runId1, runId2): Promise<EvalComparison>;
    generateReport(runId, format): Promise<string>;
}

Implemented by

Evaluator

Index

Methods

runEvaluation evaluateTestCase score registerScorer getRun listRuns compareRuns generateReport

Methods

runEvaluation

runEvaluation(name, testCases, agentFn, config?): Promise<EvalRun>
Runs an evaluation suite against an agent.
Parameters
- name: string
  Name for this evaluation run
- testCases: EvalTestCase[]
  Test cases to evaluate
- agentFn: ((input, context?) => Promise<string>)
  Function that takes input and returns agent output
  - - (input, context?): Promise<string>
    - Parameters
      input: string
      Optional context: string
      Returns Promise<string>
- Optional config: EvalConfig
  Evaluation configuration
Returns Promise<EvalRun>
The completed evaluation run
- Defined in core/evaluation/IEvaluator.ts:277

evaluateTestCase

evaluateTestCase(testCase, actualOutput, config?): Promise<EvalTestResult>
Evaluates a single test case.
Parameters
- testCase: EvalTestCase
  The test case
- actualOutput: string
  The agent's actual output
- Optional config: EvalConfig
  Evaluation configuration
Returns Promise<EvalTestResult>
Test result
- Defined in core/evaluation/IEvaluator.ts:291

score

score(scorer, actual, expected?, references?): Promise<number>
Scores output using a specific scorer.
Parameters
- scorer: string
  Scorer name
- actual: string
  Actual output
- Optional expected: string
  Expected output
- Optional references: string[]
  Reference outputs
Returns Promise<number>
Score (0-1)
- Defined in core/evaluation/IEvaluator.ts:305

registerScorer

registerScorer(name, fn): void
Registers a custom scorer.
Parameters
- name: string
  Scorer name
- fn: ScorerFunction
  Scoring function
Returns void
- Defined in core/evaluation/IEvaluator.ts:317

getRun

getRun(runId): Promise<undefined | EvalRun>
Gets an evaluation run by ID.
Parameters
- runId: string
  Run ID
Returns Promise<undefined | EvalRun>
The evaluation run or undefined
- Defined in core/evaluation/IEvaluator.ts:324

listRuns

listRuns(limit?): Promise<EvalRun[]>
Lists recent evaluation runs.
Parameters
- Optional limit: number
  Maximum runs to return
Returns Promise<EvalRun[]>
Array of runs
- Defined in core/evaluation/IEvaluator.ts:331

compareRuns

compareRuns(runId1, runId2): Promise<EvalComparison>
Compares two evaluation runs.
Parameters
- runId1: string
  First run ID
- runId2: string
  Second run ID
Returns Promise<EvalComparison>
Comparison results
- Defined in core/evaluation/IEvaluator.ts:339

generateReport

generateReport(runId, format): Promise<string>
Generates a report for a run.
Parameters
- runId: string
  Run ID
- format: "json" | "markdown" | "html"
  Report format
Returns Promise<string>
Report content
- Defined in core/evaluation/IEvaluator.ts:347

Interface IEvaluator

Example

Implemented by

Index

Methods

Methods

runEvaluation

Parameters

Parameters

Returns Promise<string>

Returns Promise<EvalRun>

evaluateTestCase

Parameters

Returns Promise<EvalTestResult>

score

Parameters

Returns Promise<number>

registerScorer

Parameters

Returns void

getRun

Parameters

Returns Promise<undefined | EvalRun>

listRuns

Parameters

Returns Promise<EvalRun[]>

compareRuns

Parameters

Returns Promise<EvalComparison>

generateReport

Parameters

Returns Promise<string>

Settings

Member Visibility

Theme

On This Page