프롬프트 엔지니어링으로 GPT-4 응답 품질 개선하기

문제 상황

사내 문서 요약 기능을 개발하면서 GPT-4 API를 사용했는데, 같은 문서라도 요청마다 응답 형식과 품질이 달랐다. 특히 기술 문서의 경우 중요한 정보를 누락하거나 불필요한 내용을 포함하는 경우가 많았다.

프롬프트 구조화

먼저 프롬프트를 역할, 컨텍스트, 지시사항, 출력 형식으로 명확하게 구분했다.

const systemPrompt = `당신은 기술 문서 요약 전문가입니다.

# 지시사항
- 핵심 기술 개념과 구현 방법을 우선 추출
- 3-5개의 bullet point로 요약
- 각 포인트는 50자 이내

# 출력 형식
- 제목: [문서 주제]
- 요약:
  * 포인트1
  * 포인트2
  * 포인트3`;

Few-shot 예시 추가

단순 지시보다 실제 예시를 2-3개 제공하니 일관성이 크게 향상됐다.

const fewShotExamples = [
  {
    input: "React Server Components 문서...",
    output: "- 제목: React Server Components\n- 요약:\n  * 서버에서 렌더링되는 새로운 컴포넌트 타입..."
  }
];

Temperature 조정

요약 작업은 창의성보다 정확성이 중요해서 temperature를 0.3으로 낮췄다. 기본값 1.0일 때보다 응답이 훨씬 일관적이었다.

const completion = await openai.chat.completions.create({
  model: 'gpt-4',
  messages: [...],
  temperature: 0.3,
  max_tokens: 500
});

결과

프롬프트 개선 후 QA 테스트에서 요약 정확도가 65%에서 89%로 상승했다. 프롬프트 엔지니어링은 모델 자체를 바꾸지 않고도 성능을 크게 개선할 수 있는 실용적인 방법이었다.