Building Ethics into Artificial Intelligence

9 minute read

연구의 필요성 및 목적

AI 시스템이 일상생활에 보편화 되면서 AI 거버넌스, 즉 AI를 이용한 국정운영에 사람들의 관심이 증가하면서 AI의 윤리적 의사 결정에 대한 관심도 증가하고 있다.

하지만, 이는 AI 연구자들 사이에서는 아직 익숙치 않은 주제인데, 이는 기존에 연구들이 주로 심리학적, 사회적, 법적 측면에 초점을 맞추고 있고, 기술적 해결책에 대한 연구가 부족하기 때문이다.

이를 해결하기 위해 주요 AI 학회의 논문을 이용하여 AI 윤리적 의사 결정을 네 가지 영역으로 구분하는 분류법을 제안한다.

[정리]

논문의 저자가 해결하려는 문제

AI 윤리적 의사 결정에 대한 관심이 증가했으나, AI 연구자 사이에서는 익숙치 않은 주제

기존 연구가 주로 심리학적, 사회적, 법적 측면에 집중됨 → 기술적 해결책에 대한 연구가 부족

논문의 저자가 제시하는 해결책

AI 윤리적 의사 결정을 네 가지 영역으로 구분하는 분류법

1) 윤리적 딜레마 탐구

2) 개인 윤리적 의사결정 프레임워크

3) 집단 윤리적 의사결정 프레임워크

4) 인간-AI 상호작용에서의 윤리

윤리적 딜레마 탐구

윤리적으로 작동하는 AI 시스템 구축을 위한 첫 단계 : 목표 응용 시나리오에서의 윤리적 딜레마를 탐구하는 것

특정 상황에서 AI가 무엇을 선택할지 파악하고 분석하는 것으로 해석

ex) 바다에 노인과 어린이가 빠졌을 때 누구를 먼저 구해야 하는가?
이를 위해 전문가 검토, 크라우드 소싱 기반 소프트웨어 도구들이 등장

GenEth

등장 배경 : 지능형 시스템과 관련된 윤리적 문제는 시스템 설계자의 이해를 넘어설 수 있음

윤리학자들을 논의 과정에 포함시켜 애플리케이션 영역에서 윤리적 원칙을 체계화
표현 스키마
- Features : 요소의 존재 유무를 정수 값으로 표현
- Duties : 주어진 기능을 최소화/최대화 하기 위한 에이전트의 책임
- Actions : 특정 행동이 특정 의무를 충족하는지 위반하는지 튜플로 표현
- Cases : 윤리적 영향에 대한 행동 쌍을 비교
- Principles : 윤리적 선호도
특징
- GUI 제공 : 윤리적 딜레마를 논의
- 귀납 논리 프로그래밍 : 윤리적 행동 원칙 추론
정리

GenEth는 전문가 검토(윤리학자)를 기반으로 윤리적 딜레마를 탐색하고, 귀납 논리 프로그래밍을 사용하여 윤리적 행동 원칙을 추론하는 시스템

Moral Machine 프로젝트

접근법 : 군중의 지혜를 기반으로 윤리적 딜레마를 탐구
프로젝트 목적 : AI로 제어되는 자동차 연구
윤리적 관점에서의 인간 운전자 vs AI 운전자

인간의 경우 주의를 기울였음에도 사고 발생 시 자기 보호 본능, 제한된 의사결정 시간으로 인해 다른 사람을 해치는 것에 대해 윤리적으로 비난 X

AI의 경우 설계자의 여러가지의 사고 시나리오에서 의사결정을 위한 논리를 프로그래밍할 시간이 있기에 윤리는 AV에서 중요한 초점
실험 설계

고장난 AV가 맞닥뜨리는 다양한 윤리적 딜레마를 판단하고 선호하는 결과 선택, 또한 참가자가 직접 윤리적 딜레마를 설게하여 다른 사람들의 의견을 이끌어내는 UI 제공
- 참가자 : 300만명
- 일반적 선호 : 사람들은 일반적으로 AV가 더 많은 생명을 구하는 방향으로 선호 (소수의 희생)
- 이기주의적 패러독스 : AV가 탑승자를 죽임으로 더 많은 사람을 구한다면 자신의 AV 보다는 다른사람의 AV에 이런 로직이 있는 것을 선호
연구 한계점
- 자기 보고 선호도 한계 : 스스로 보고된 선호도는 실제 행동과 일치하지 않는 경우가 있음
  
  → 이에 따라 실제 선택을 얼마나 반영하는지는 모름
해결 방안
- 무작위적 방식으로 결정 (운명에 맡김)
- AV를 인간 트래픽과 분리

정리

윤리적 딜레마를 탐구하기 위한 두 가지의 상반된 접근법을 통해 각 연구의 한계를 파악하고 AI 윤리 구현을 위한 방법론 제공, 향후 더 정교한 윤리적 의사결정 시스템 개발에 근간이 됨.

개인 윤리적 의사결정 프레임워크

기본 전제

AI 시스템의 윤리적 의사결정에는 일반화된 프레임워크를 선호

윤리적 경계가 상황에 따라 달라질 수 있기에 규범이 필요

인간이 업데이터를 제공할 경우 검토 메커니즘 필요(남용 방지)

MoralDM 시스템

인간의 도덕적 의사결정은 공리주의적 고려사항뿐만 아니라 도덕적 규칙도 포함
- 이러한 규칙들은 과거로부터 습득, 문화적으로 민감, 보호 가치(특정 행동을 도덕적으로 금지)가 포함
핵심 메커니즘
- 제 1원리 추론 : 잘 확립된 윤리적 규칙에 기반한 의사 결정 (법)
- 유추 추론 : 과거에 해결된 유사한 사례와 비교 (재판)
문제점 : 해결된 사례 수가 증가함에 따라 계산적으로 다루기가 힘듦
해결책
- 구조 매핑 : 사례들 사이 대응 관계, 후보 추론, 유사성 점수 계산 → 유추 일반화의 효율성 개선

BDI(신념-욕구-의도) 기반 윤리적 판단 프레임워크

시스템의 목적 : 에이전트가 다른 에이전트의 행동의 윤리성을 판단
프로세스
1. 인식 : 에이전트가 직면한 현재 상황과 목표를 설명하는 신념 생성
2. 평가 : 신념과 목표를 기반으로 가능한 행동들과 바람직한 행동들을 생성
3. 선함 : 에이전트의 신념, 욕구, 행동, 도덕적 가치 규칙을 기반으로 윤리적 행동들 계산
4. 정당성 : 현재 상황에서 가능한 행동의 실행이 옳은지를 평가하여 행동 선택
타 에이전트 판단 조건
- 맹목적 윤리적 판단 : 주어진 에이전트의 상태, 지식이 알려지지 않은 경우
- 부분적 정보 윤리적 판단 : 주어진 에이전트의 상태, 지식에 대해 일부 정보가 있는 경우
- 완전 정보 윤리적 판단 : 주어진 에이전트의 상태, 지식이 완전히 알려진 경우
한계점 : 어떤 행동이 정당 or 선함에서 얼마나 벗어나는지에 대한 정량정 측정 방법이 없음

게임 이론 & 머신러닝 기반 접근

게임 이론 기반 프레임 워크
- 게임 이론 : 여러 선택지가 있을 때 최적의 결정을 내리는 수학적 방법
- 딜레마를 표현하기 위해 광범위한 형태를 제안 → 확장형 게임 (의사결정을 트리로 표현)
  - ex) 브레이크 고장 → 직진(5명 사망) / 좌회전(1명 사망) 선택지가 존재할 때 이를 트리로 표현함
- 이러한 방식은 어떤 행동이 과정 자체가 비윤리적인것으로 취급되는 보호된 가치를 고려하지 못함
  - ex) 환자의 치료 → 치료 A(실험) / 치료 B(표준)이 있을 때 치료 A가 생존율이 높더라도 환자의 동의없이 진행하는 것은 윤리적으로 금지됨
- 수동적 행동을 추가하여 해결
  - ex) 윤리적이기 위해 아무것도 하지 않는 선택지를 추가 → 다른 방법 모색

머신러닝 기반 접근법
- 주어진 행동이 특정 상황에서 도덕적으로 옳은지 그른지를 분류
- 요구사항 : 잘 라벨링된 데이터, 데이터 소스, 문화적 배경 등의 잠재적 불일치 고려
- 주요 도전 과제
  - 윤리적 딜레마를 일반화할 수 있는가?
  - 특정 상황에 대한 통찰을 바탕으로 어떤 특징을 식별하는 기존의 방식은 부족함(라벨링 등)
- 해결책 : 도덕적 기반 심리학적 프레임워크를 활용 (해로움/이로움, 공정/상호, 충성, 권위, 순수 등)

통합 접근법
윤리에 대한 게임 이론적 분석을 머신러닝 접근법 훈련의 특성으로 사용
머신러닝이 게임이론에서 간과된 윤리적 측면을 식별하는데 사용

CP-net 기반 선호도 조정

등장 배경
- 윤리적 요건은 AI 에이전트에게 외부적인 경우가 대부분
- 윤리적 결정을 내리기 위해 윤리적 요건 + 에이전트의 내재적인 주관적 선호의 조화가 필요함
해결 접근법
- 외부 윤리 우선순위와 내재적인 주관적 선호를 표현
- CP-net 사이 거리 개념을 확립
  - AI 에이전트가 윤리적 원칙에 충분히 가까우면 주관적 선호도 사용 가능

고수준 액션 언어 프레임워크

기존 접근법
- 지금까지 검토된 프레임워크들은 윤리 판단의 체계화의 부담을 AI 시스템 개발자에게 전가
- 따라서 윤리 판단의 정보를 개발 단계에서 AI 엔진에 통합 → 고수준의 액션 언어 제안
프로세스
1. 정보 수집 : 행동, 이벤트 및 상황 정보를 수집
2. 시뮬레이션 : 수집된 정보로 다양한 행동 과정의 결과를 시뮬레이션
3. 인과 관계 추적
4. 결과 평가 : 윤리적 명세 및 윤리적 고려사항의 우선순위를 사용하여 정당성 평가
구현
- 답변 집합 프레임워크 : 규칙 생성, 행동 설명, 타 에이전트 추론

강화학습에서의 윤리 통합

접근법
- 보상 함수에 사전 지식을 통합하는 보상 형성 기법을 활용하여 윤리적 가치를 강화학습에 통합하는 윤리 형성 접근법 제안
- 이를 통해 학습 과정 가속
방법론
- 관찰된 인간 행동의 대부분이 윤리적으로 가정
- 주어진 영역 내에서 인간 행동의 데이터로부터 윤리적 형성 정책 학습
- 윤리 형성 함수
  - 긍정적 윤리 결정 → 보상
  - 부정적 윤리 결정 → 처벌
  - 윤리적 고려 대상 X → 중립 유지

윤리적 의사 결정에 정통하지 않아도(윤리학자와 같이) 윤리적 강화학습 시스템을 개발할 수 있도록 윤리를 코드화하는 부담을 경감

정리

개인 윤리적 의사결정 프레임워크는 아래와 같이 공통적으로 발전하는 추세이다.

윤리 시스템 개발의 부담이 개발자 → 시스템으로 책임이 이전되는 추세
다양한 이론들의 융합 (심리학, 게임이론, 머신러닝 등)
이론 완성도 < 실용성 (게임이론에서 아무것도 하지 않는 선택지와 같이)
현재 주어진 상황에 맞게 유연한 프레임워크 (CP-net에서의 주관적 선호 사용 가능의 경우와 같이)

집단 윤리적 의사결정 프레임워크

개인 윤리적 의사결정의 문제 제기

개별 에이전트가 윤리적으로 행동하고 다른 에이전트의 행동의 윤리성을 판단하는 것으로 인간 복지를 주요 관심사로 하며 잘 조정되고 협력적인 사회를 만들기에 충분한가?

▶ 무언가 더 필요함

필요한 추가 요소들
- 기본 규칙 : 사회적 규범을 관리
- 보조 규칙 : 상황이 변함에 따라 기본 규칙을 생성, 수정, 삭제를 허용하는 규칙

이를 위해 집단이 윤리적 행동을 선택하도록하는 프레임워크가 필요

사회적 규범 기반 프레임워크

기본 전제
- 중앙 기관에 의존 X
- 개인은 자신의 의사 결정 정책에 따라 실행
- 단, 사회적 규범의 적용을 받아 잘못된 행동 시 처벌
사회적 규범 : 글로 표현된 약속, 승인, 금지, 제재 및 권한…
신뢰 네트워크 : 개인들이 신뢰 기반 네트워크를 형성으로 상호작용을 통해 집단 자치 달성

인간 에이전트 집단 의사결정 프레임워크

아이디어 : 개별 에이전트에 윤리적 의사결정 메커니즘 부여 후 집단 차원에서 활용
역할 분담
- 의무론적 윤리 에이전트 : 규칙과 의무에 기반(거짓말 혀용 X)
- 결과주의 윤리 에이전트 : 결과에 기반(더 확률이 높은쪽으로 치료 결정)
- 덕윤리 에이전트 : 품성과 덕목에 기반(용기있고 정의로운 행동)
학습 및 집계
- 규칙 학습 : 기본 윤리 규칙 → 학습을 통해 점차 복잡한 규칙 습득
- 평가 : 역할 분담에서의 각 에이전트의 평가를 선호도 형태로 표현
- 결정 : 선호도 집계 및 에이전트 투표를 활용
해결 과제
- 의사결정 : 행동들이 역할 분담에서의 에이전트 수보다 훨씬 많음
- 일반적인 투표 : 후보자 < 투표자
- 독립성 X : 각 행동들이 서로 의존적
- 공통 특성 : 일부 행동들은 윤리적 딜레마 상황 설명에 있어 특정 특성이 공유(겹침)
- 불확실성 : 행동에 대한 선호정보가 누락될 수 있음(특정 행동에 대한 에이전트의 선호 정보 누락) → 불확실성 증가

투표 기반 집단 윤리 결정 시스템

Moral Machine 프로젝트 데이터 활용
- 다양한 윤리적 딜레마 상황에서 자기보고 선호도 데이터 활용
- 서로 다른 결과에 대한 인간의 선호 모델 학습
개별 모델 → 집단 모델
- 개별 선호 모델을 요약하여 집단 선호 모델 형성
- 모든 투표자들의 집단적 선호를 근사
Swap-Dominance 개념 도입
- 대안들의 순위를 매길 때 사용하는 개념으로, 윤리적 선호 모델 형성에 활용
- 어떤 결정을 내릴 때 요약된 모델로 집단 결정을 계산하고 최선의 결과를 도출(도출 과정에서 Swap-Dominance를 사용)
특징
- 결과주의적 : 최선의 결과를 도출하기에 집단의 결정을 추구 → 결과 중심
- 계산 효율성 : Swap-Dominance를 사용하여 계산 효율성 향상
- 데이터 기반 : 인간의 윤리적 선호 데이터에 기반 (경험적 데이터)

정리

중앙 집권적 → 분산형(개별) 의사결정으로 전환되는 추세
복수의 윤리이론 통합 활용 (역할 분담과 같이)
적응성 (머신러닝 모델을 이용하여 학습을 통해 발전)
미해결 과제
- 선호도 표현 한계 : 복잡한 윤리적 판단을 선호도로 표현하는 것의 한계
- 문화적 차이 : 서로 다른 문화에 있어 윤리적 합의가 필요
발전 방향
- 여러 프레임워크의 결합
- 학습을 통한 발전 하는 윤리적 판단 능력

인간-AI 상호작용에서의 윤리

배경 : AI가 사람의 행동에 영향을 미치려는 분야에서 윤리 확보 필요

핵심 요구 사항
- 개인 자율성 보호 : 기술과의 상호작용에서 개인의 자유의지 보장 및 AI가 사람의 선택을 강요 및 조작 X
- 위험-편익 균형 : 기술이 가져오는 편익 > 위험 → 실질적 도움이 되어야 함
- 공정한 분배 : 개인적 배경에 휘둘리지 않는, 사용자들 사이에서 공정하게 위험과 편익이 분배되어야 함
어려움
- 편익 및 위험 측정 (아마 AI가 도출하는 답이 어떻게 될지 모르기에)
  - 이를 해결하기 위해 인간 중심 가치의 계산적 공식화를 제안(집단 웰빙, 일-생활 균형)
설득 에이전트 연구

AI의 설득에 대한 인간의 윤리적 인식을 조사하여 설득 전략의 효과성 및 윤리성을 평가
- 트롤리 딜레마
  
  기차 선로에 5명과 1명이 각각 놓여 있는 상황에서 ..
  - 다수를 위해 한 사람을 적극적으로 해침
  - 결과주의 vs 보호 가치의 충돌
  - 참가자들의 능동적 참여
- 설득 전략
  1. 감정적 호소
  2. 공리주의적 논증
  3. 거짓말
- 결과
  - 참가자들이 AI보다 강한 부정적 선입견 보유
    - 인간은 AI에게 “기계 따위가, “AI가 인간의 생명을 논하다니..” 등
    - AI는 인간에게 “맞는 판단인 것 같아요”, “어려운 결정이지만 고려해볼만 한 상황이네요” 등
  - 이는 인간의 특성 상 설득하는데 있어 인간의 어법이 좀 더 설득적 → 효과적 측면에 있어 인간 > AI
  - 전략별 효과 순위 : 공리주의적 논증 > 거짓말 > 감정적 호소
  - 윤리적 딜레마 상황에서 감정적 호소는 그닥 좋은 설득 전략 X
감정 기반 윤리적 상호작용
- 비록 감정적 호소가 설득에는 비효과적이나 윤리적으로 적절한 감정 반응은 인간과 AI의 상호작용을 향상시킬 수 있음
대처 이론 기반 시스템
- AI 에이전트가 상황 평가를 변경하여 강한 부정적 감정을 처리(인간 5명을 살리는 쪽이 더 좋음을 가중치 등으로 평가)
윤리적 감정 반응 메커니즘
1. 자기 행동 평가 : AI가 자신의 행동의 윤리적 효과를 평가하여 도덕적 가치 위반 시 수치심 감정 발생
2. 타 에이전트 행동 평가 : 다른 에이전트가 도덕적 가치 위반 시 비난 감정 발생
시스템 작동 과정
1. 윤리적 의사 결정 : 개별 윤리적 의사결정 프레임워크와 유사
2. 감정 반응 : 수치심 or 비난
3. 행동 조정 : 감정 반응을 통한 에이전트에게 암묵적 보상
특징
- 감정은 윤리적 학습 도구 / 자기 규제 및 사회적 조정
- 인간이 기대하는 윤리적 감정 반응을 구현하여 신뢰성 및 친밀감 향상
- 감정 반응을 통해 지속적인 윤리적 판단 개선

정리

인간은 AI 시스템에 선천적으로 불신
감정을 통해 윤리적 추론을 더 정교하게 수행

인간-AI 상호작용에서 윤리 연구는 AI가 기능뿐만 아니라 인간의 가치 및 감정을 이해하는 과정을 학습하여 인간과의 상호작용을 더욱 자연스럽게 수행할 수 있도록 함

Twitter Facebook LinkedIn