[LGaimers] AI 윤리 - (1)

govldbstj·2023년 1월 3일

23LGAimers

목록 보기

1/21

< 데이터를 다뤄오면서 쉽게 틀렸던 부분에 대하여 >

1. 데이터에 대한 해석

데이터를 잘 해석하고 있는가?
: 상관관계와 인과관계를 잘 구분하자.
인과관계 : 원인과 결과가 명백히 밝혀짐
상관관계 : 그저 변수 간 상관이 있음

2. 에러바가 없는 도표

데이터 전처리와 분석 방법은 적절한가?
: 에러바 생활화, 적절한 통계 테스트 찾기, 아웃라이어(이상치) 제거, 데이터 표준화하기, EDA (데이터 자체를 관찰하는 시간)에 시간투자 많이 하기
-> 깨끗한 데이터를 만들어 사용하자

3. 학습에 쓰는 데이터가 충분한가?

: 밀리언 스케일(백만 데이터건) 정도는 되어야 많은 수의 파라미터를 학습할 수 있다. 모델이 단순하면 충분히 학습이 안될 수 있다. (언더피팅)
오버피팅은 데이터에 너무 과적합되어서 다른 상황에 대해서는 잘 처리하지 못하는 단점이 있다. 또한 학습데이터와 테스트데이터는 달라야 한다.

4. 블랙박스 알고리즘

: 성능만 중요한 것이 아니라 설명력도 중요하다.
Post-hoc explainability 사후 모델 -> 학습 결과가 바뀔 수 있는 위험성
Interpretable model -> 처음부터 설명 가능한 모델

5. 웹 데이터 핸들링 시 주의할 점

: 정보의 대표성. Spiral of silence -> 한가지 의견만 대표성을 가진다는 착각을 불러 일으킴. 편향 현상!!! (소셜네트워크는 특히 더 그럼. 몰아가기가 심하다)
: 오정보는 더 빠르게 확산되기 때문에 주의해야 함. 이 정보가 가진 대표성이 있는지 진실성이 있는지 유의해야 함. 인포데믹 중요 (거짓과 참인 정보를 걸러내는 것)
: 사용자의 어려움을 반영해야 한다.

6. 개인정보

: 잊혀질 권리를 보장해야 한다. 그러나 한번 올라간 데이터는 삭제가 힘들다. 데이터가 확산이 되기 때문. 그러나 검색을 했을 때 그 결과가 나오지 않게는 할 수 있다. 데이터를 안전하게 보관하고 개인정보를 지켜줄 수 있어야 한다.

7. 윤리에 대한 법적 제도

: GDPR, 개인정보를 보호하고 과다 광고에 노출, 혐오 표현의 노출을 규제하는 플랫폼들을 단속하는 법 제도. 데이터 과학자는 윤리적인 가치에 대해 민감하게 알고 법 제도의 변화도 따라갈 줄 알아야 한다.

8. 인공지능의 결정에 대한 신뢰

: COMPAS. 판사가 형량 결정하는 데에 도움을 주는 소프트웨어 솔루션. 그러나 편향 현상이 있었음. 알고리즘이 어떤 편향을 가지고 있는지, 사회의 편향을 조장하는 것은 아닌지 유의해야 한다. 아마존에서도 남성 지원자에 대한 점수를 더 주는 편향이 있었음.

* 결론

데이터의 확보, 전처리, 분석, 해석의 전 과정이 중요하다.
알고리즘의 설명력, 편향, 신뢰의 문제에 주의해야 한다.

govldbstj

ajou software 20

다음 포스트