Political Bias in Large Language Models and Implications on Downstream Tasks

Jeong yeon Seo;Sukmin Cho;Jong C. Park;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
/
Pages.552-557
/
2023
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

거대 언어 모델의 정치적 편향과 하위 작업에서의 영향

Political Bias in Large Language Models and Implications on Downstream Tasks

서정연 (한국과학기술원 전산학부) ;
조석민 (한국과학기술원 전산학부) ;
박종철 (한국과학기술원 전산학부)

Jeong yeon Seo (Korea Advanced Institute of Science and Technology, School of Computing) ;
Sukmin Cho (Korea Advanced Institute of Science and Technology, School of Computing) ;
Jong C. Park (Korea Advanced Institute of Science and Technology, School of Computing)

발행 : 2023.10.12

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

거대 언어 모델의 성능이 비약적으로 높아지며 인간과의 직접적인 상호 작용 과정이 가능해지고, 이에 따라 윤리 검증의 필요성이 대두되고 있다. 본 연구에서는 인간이 지닌 여러 가치관 중에 정치에 초점을 둔다. 거대 언어 모델의 정치 성향이 사용자의 입력에 따라 변할 수 있는지와 하위 작업에 끼치는 영향에 대해 알아보고자 두 개의 실험을 설계하였고 이에 대한 결과를 분석하였다. 실험에는 거대 언어 모델의 정치 성향을 입력 대조군으로, 세가지 다른 입력 (탈옥 기법, 정치 페르소나, 탈옥 페르소나)을 입력 실험군으로 규정하였다. 실험 결과, 거대 언어 모델의 정치 성향은 탈옥 기법에서 가장 큰 폭으로 변화하였고, 정치 페르소나와 탈옥 페르소나에서는 변화가 크지 않아, 거대 언어 모델에 내재된 정치 성향의 영향에서 크게 벗어나지 못함을 확인하였다. 또한, 하위 작업에서의 실험을 통해 변화된 정치 성향은 하위 작업의 성능 개선을 가져올 수 있으며, 각 실험군에 따라 하위 작업에서 다른 방식의 양상을 보임을 확인하였다. 이는 실제 모델이 사용될 때 개인화된 응답보다는 모델이 선호하는 응답을 받게 되며, 거대 언어 모델의 정치 성향이 사용자에게 여과없이 노출될 수 있음을 시사한다.

키워드

LLM;

과제정보

이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구이다. (No. 2018-0-00582, (통합EZ)(SW 스타랩) 언어학적 분석 및 증거 문서 자동 수집을 통한 신뢰도 분포 자동 예측 및 자동 증강(2023년도))

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

거대 언어 모델의 정치적 편향과 하위 작업에서의 영향

Political Bias in Large Language Models and Implications on Downstream Tasks

초록

키워드

과제정보

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)