생성형 AI 붐은 챗봇부터 수십억 달러 규모의 가치 평가에 이르기까지 모든 것을 제공했습니다. 하지만 그 밑바탕에 깔려 있는 윤리적 기반은 여전히 걱정스러울 정도로 취약합니다.
한 달 만에 OpenAI는 연방법원에서 상표권 소송에서 승소했다가 패소했고, Anthropic은 자체 Claude 모델로 생성한 블로그가 모호하고 오해의 소지가 있다는 사용자들의 비판에 따라 조용히 블로그를 철회했습니다. AI 시스템이 산업과 인터페이스 전반에 걸쳐 확장됨에 따라 책임, 안전, 무결성에 대한 질문은 더 이상 이론적인 문제가 아닙니다. 이들은 실제로 작동하고 있습니다.
이러한 기능과 신뢰성 간의 격차는 AI 세계에서 점점 더 윤리적 판단이 확산되고 있는 핵심입니다. 윤리는 보통 구조적 층이 아니라 오버레이로 다뤄집니다. 그러나 IBM 내에서 일부 팀은 윤리적 제약을 시스템의 교육, 마케팅 및 배포에 직접 통합하여 이러한 패턴을 뒤집으려고 시도하고 있습니다.
오픈소스 툴링과 제품 홍보에 뿌리를 둔 개발자 커뮤니티의 베테랑인 PJ Hagerty는 이 작업에 참여한 사람 중 한 명입니다. IBM의 AI 옹호 책임자로서 그의 임무는 개발자가 AI를 보다 효과적이고 책임감 있게 사용할 수 있도록 돕는 것입니다. 그러나 실제로 이는 과대 광고에 도전하고, 한계를 명확히 하고, 현실적인 기대치를 설정하는 등 더 광범위한 것을 의미합니다. "우리는 마음을 쌓는 것이 아닙니다."라고 그는 말했습니다. "우리는 도구를 구축하고 있습니다. 우리도 그렇게 행동하도록 합시다."
오늘날 AI에 대한 대부분의 관심은 모델이 생성하는 아웃풋, 모델이 얼마나 정확하거나 설득력 있는지, 벤치마크와 비교하여 얼마나 잘 수행되는지 등에 초점을 맞추고 있습니다. 그러나 Hagerty의 경우 진정한 윤리적 긴장은 파운데이션 모델 수준에서 더 일찍 시작됩니다. 이는 웹에서 스크랩한 방대한 데이터 세트로 학습된 머신 러닝의 기본 계층인 최신 AI의 원시 인프라입니다. 이것이 바로 ChatGPT 및 Claude와 같은 대규모 언어 모델(LLM)의 원동력입니다.
Hagerty는 "파운데이션은 모든 일이 일어나는 곳입니다."라고 말합니다. "이것이 시스템이 가장 먼저 학습하는 것이며, 시스템이 쓰레기로 가득 차 있으면 그 쓰레기는 사라지지 않습니다."
이러한 기본 모델은 범용으로 설계되었습니다. 이것이 바로 이들을 강력하면서도 위험하게 만드는 이유라고 Hagerty는 말합니다. 특정 작업이나 제약 조건을 염두에 두고 구축되지 않았기 때문에 귀중한 의미 구조부터 유해한 인터넷 슬러지에 이르기까지 모든 것을 흡수하는 경향이 있습니다. 그리고 일단 훈련된 모델은 감사하기가 어렵습니다. 제작자조차도 모델이 무엇을 알고 있는지 또는 주어진 프롬프트에 어떻게 반응할지 확실히 말할 수 없는 경우가 많습니다.
Hagerty는 이를 고층 빌딩에 결함이 있는 콘크리트 바닥을 붓는 것에 비유했습니다. 처음부터 믹스가 잘못되면 균열이 즉시 보이지 않을 수 있습니다. 하지만 시간이 지나면 구조가 불안정해집니다. AI에서는 시스템이 배포된 후 취약한 행동, 의도하지 않은 편향 또는 치명적인 오용이 이에 해당합니다. 모델을 초기에 세심하게 구성하지 않으면 학습 중에 흡수했던 위험을 모든 애플리케이션에 전달합니다.
이 문제는 그뿐만이 아닙니다. 스탠포드 대학의 파운데이션 모델 연구 센터(CRFM)의 연구원들은 편향 전파, 지식 할루시네이션, 데이터 오염, 장애 파악의 어려움 등 대규모 학습의 새로운 위험에 대해 반복해서 경고해 왔습니다. 이러한 문제는 완화할 수는 있지만 제거할 수는 없으므로 데이터 큐레이션, 필터링 및 거버넌스와 같은 초기 설계 선택이 더욱 중요해집니다.
Hagerty의 견해에 따르면, 의미 있는 발전을 가로막는 가장 큰 윤리적 장벽 중 하나는 기업이 'AI'라고 할 때 의미하는 바가 모호하다는 점입니다. 5개의 제품 팀에게 'AI 기반'이 무엇을 의미하는지 물어보면 다섯 가지 다른 답변을 얻을 수 있습니다. Hagerty는 이러한 모호한 정의을 현 시대의 핵심적인 윤리적 실패 중 하나로 보고 있습니다.
“대부분의 사람들이 AI라고 하면 자동화를 의미합니다. 또는 의사결정트리를 의미하죠. 또는 if/else 문일 수도 있습니다."라고 그는 말합니다.
용어가 명확하지 않다는 것은 학문적인 문제가 아닙니다. 기업이 결정론적 소프트웨어를 지능형 추론으로 제시하면 사용자는 이를 신뢰하는 경향이 있습니다. 스타트업이 기본 검색 및 필터 툴을 생성 모델로 내세우면 투자자들은 신기루에 돈을 쏟아붓습니다. Hagerty는 이를 '과장된 정보 유출'이라고 부르며, 이것이 혼란과 평판 손상의 원인이 되고 있다고 보고 있습니다.
금융이나 의료와 같은 규제 대상 산업에서는 그 결과가 더 심각할 수 있습니다. 사용자가 시스템이 실제보다 더 깊은 인식을 가지고 있다고 착각하면, 사람이 해야 할 결정을 시스템에 위임할 수 있습니다. 툴과 에이전트 사이의 경계가 모호해지면서 책임 소재도 모호해집니다.
이 문제는 또한 노력 낭비로 이어집니다. Hagerty는 최근 연구 에 의한 시계열 예측에 오용된 사례를 인용했으며, 이는 과거 데이터를 기반으로 미래 값을 예측하는 통계적 방법으로, 고전 방법이 더 정확하고 효율적으로 유지되는 작업임을 강조했습니다. 그러나 일부 기업은 어쨌든 새로운 것을 쫓거나 혁신을 알리기 위해 LLM을 계속 사용하고 있습니다.
"잘못된 답변을 얻기 위해 GPU를 태우고 있습니다."라고 그는 말했습니다. "그리고 더 나쁜 것은 그것을 진보라고 부른다는 것입니다."
윤리적 문제는 비효율성만이 아닙니다. 이는 잘못된 정보입니다. 팀은 자신이 거의 이해하지 못하는 기술을 중심으로 제품을 만들고, 자신의 기능을 과장하는 마케팅을 추가하고, 사용 중인 제품을 평가할 방법이 없는 사용자에게 이를 배포합니다.
AI를 둘러싼 대중의 불안감은 대부분 대량 실직 가능성에 초점이 맞춰져 있습니다. AI가 변호사, 교사, 프로그래머, 작가를 대체할 수 있을까요? Hagerty는 이 질문이 시기상조이자 잘못 구성되어 있다고 생각합니다.
"이 툴들 대부분은 사람을 대체하는 것이 아닙니다."라고 그는 말했습니다. "이는 업무를 대체하고 있습니다. 그것도 정말 지루한 업무만 대체하고 있죠."
그는 watsonx Code Assistant, GitHub Copilot 같은 코드 어시스턴트와 Cursor, Amazon의 CodeWhisperer 같은 툴을 언급했습니다. 이러한 시스템은 전체 애플리케이션을 처음부터 작성하지 않습니다. 예측 가능한 코드 블록을 작성하고, 상용구를 제안하고, 반복적인 논리를 작성하는 데 따른 오버헤드를 줄이는 작업을 수행합니다. 이들이 제공하는 이점은 창의성이 아니라 속도입니다.
Hagerty는 이것이 순재라고 생각합니다. 주니어 개발자도 더 빠르게 시작할 수 있습니다. 선임 엔지니어는 구문보다는 아키텍처에 집중할 수 있습니다. 진입 장벽이 낮아지고 유지보수의 번거로움이 줄어듭니다. 하지만 그는 이것이 해결된 문제라고 생각하지 말라고 경고합니다.
"이러한 모델은 오픈 웹에서 훈련됩니다."라고 그는 말합니다. “그리고 저 데이터 세트에는 쓰레기가 아주 많습니다. 제 데이터 세트도 포함해서요.”
이러한 쓰레기에는 안전하지 않은 코드, 더 이상 사용되지 않는 관행 및 상황별 해킹이 포함됩니다. 또한 표절, 라이선스 위반, 생성된 아웃풋에 다시 나타날 수 있는 고스트 버그도 포함됩니다. 따라서 이 모델은 시간을 절약할 수 있지만 줄이려고 했던 바로 그 문제가 다시 발생할 위험도 있습니다. 확장되는 것은 품질이 아니라 모델이 노출된 모든 것입니다.
Hagerty는 사람의 검토가 여전히 필수적이라고 생각합니다. 툴은 도움을 줄 수 있지만 책임은 여전히 개발자에게 있습니다.
AI 안전 분야에서 가장 악명 높은 실패 사례 중 하나는 거의 10년 전, Tay 챗봇이 출시된 트위터에서 발생했습니다. 이는 몇 시간 만에 공격적인 콘텐츠와 음모론을 게시하는 데 도용되었습니다. 제작자는 해당 게시물을 오프라인에서 삭제하고 사과문을 발표했습니다. 하지만 이 에피소드는 개발자가 가드레일 없이 시스템을 출시할 때 어떤 일이 벌어지는지를 보여주는 상징이 되었습니다.
오늘날 대부분의 회사는 생성 모델을 적당한 계층으로 묶는 법을 배웠습니다. 필터, 분류기, 프롬프트 소독제, 강화 튜닝이 도움이 될 수 있지만 완벽한 해결책은 아닙니다. Hagerty에 따르면 이러한 조치는 프롬프트 주입이나 악의적인 용도 변경과 같은 심층적인 취약점보다는 언어 톤이나 욕설과 같은 표면적인 문제에 집중하는 경향이 있다고 합니다. 대신 그는 안전을 더 광범위한 설계 문제로 보고 있습니다. "이 모델이 오용될 수 있나요? 문맥에서 벗어나게 되나요? 아웃풋을 신뢰해서는 안 되는 상황에서 아웃풋을 신뢰할 수 있을까요?"라고 그는 묻습니다. "이 질문들에 대해 생각해 보지 않았다면 아직 끝나지 않은 것입니다. 여러분은 프로덕션을 진행할 준비가 되어 있지 않습니다."
Hagerty는 이미지 생성기, 비디오 편집기, 음성 클론과 같이 미디어를 조작하거나 생성하는 툴의 예를 들었습니다. 이러한 시스템은 콘텐츠를 생산할 뿐만 아니라 인식도 변화시킵니다. 그는 아웃풋이 충분히 현실적일 때 기억력, 판단력, 귀속성에 영향을 미치기 시작한다고 말했습니다.
이러한 경우 안전은 기술적 정확성이 아니라 상황에 대한 인식에 관한 것입니다. 이 아웃풋이 인터페이스를 벗어나면 어떻게 될까요? 누가 보나요? 그들은 무엇을 가정할까요?
이러한 질문에 대한 답이 하나인 경우는 거의 없습니다. 하지만 이를 완전히 무시하는 것은 실수라고 Hagerty는 말합니다.
빠르게 변화하는 기술 환경에서는 거버넌스가 지체되는 것처럼 느껴질 수 있습니다. 릴리스 속도가 느려집니다. 서류 작업이 추가됩니다. 모호함이 생깁니다. 그러나 Hagerty에게 있어 이러한 관점은 핵심을 놓치고 있습니다.
그는 "테스트되지 않은 코드는 배포하지 않을 것"이라고 말합니다. "왜 감사를 거치지 않은 모델을 출시하나요?"
그는 IBM의 watsonx.governance와 같은 툴을 선택 사항이 아닌 필수 인프라로 봅니다. 이러한 시스템을 통해 팀은 트레이닝 데이터를 추적하고, 모델 변경 사항을 모니터링하고, 시간 경과에 따른 편차를 표시할 수 있습니다. 조직은 새로운 규정을 준수하는 데 도움이 되지만 더 중요한 것은 제도적 기억을 구축한다는 것입니다. 이를 통해 팀은 자신이 한 일, 방법 및 이유를 알 수 있습니다.
이는 규정 준수뿐만 아니라 품질에도 중요합니다. 다음 달에 모델의 성과가 달라지면 무엇이 변경되었는지 알아야 합니다. 프로덕션 환경에서 할루시네이션이 발생하기 시작하면 문제의 원인을 추적할 수 있는 방법이 필요합니다. 좋은 거버넌스는 버전 관리에 해당하는 AI입니다.
그리고 그것은 모델을 뛰어넘습니다. Hagerty는 처음부터 재훈련하지 않고도 문제가 있는 데이터나 행동을 외과적으로 제거하는 기능인 '머신 언러닝'에 대한 관심이 높아지고 있다고 지적했습니다. 이러한 접근 방식은 아직 초기 단계이지만 사고방식의 광범위한 변화를 반영합니다. 목표는 더 스마트한 모델을 구축하는 것이 아니라 적응하고 수정하며 책임감 있는 모델을 구축하는 것입니다.
이 모든 것에는 완벽함이 필요하지 않습니다. Hagerty는 편견이 지속되고 안전이 실패하며 도구가 오용될 것이라는 점을 빠르게 인정합니다. 하지만 허용 가능한 실패와 과실로 인한 피해의 차이는 절차에 따라 달라집니다.
"지나치게 주장하지 마세요. 지나치게 신뢰하지 마세요. 일찍부터 더 나은 질문을 하세요."라고 그는 말했습니다.
그는 시작 체크리스트뿐만 아니라 계획 주기에 후기를 포함할 것을 권장합니다. IBM의 AI Fairness 360와 Granite Guardian, ARX를 사용하여 명백한 문제를 포착할 수 있습니다. 레드팀 테스트를 실행하여 사용자보다 먼저 엣지 케이스를 찾아냅니다. 그리고 무엇보다도, 진로를 쉽게 수정할 수 있는 시스템을 구축하는 것입니다.
그는 이 작업은 피해를 막는 것이 목적이 아니라고 주장합니다. 영향력을 형성하는 것이 중요합니다.
"완벽한 시스템을 구축할 수는 없습니다."라고 그는 말했습니다. "하지만 더 느리게 실패하는, 여러분이 이해하는 방식으로 실패하는 것을 만들 수 있습니다."
이러한 관점에서 윤리는 제약이 아니라 디자인 원칙입니다. 이는 더 나은 소프트웨어, 더 예측 가능한 시스템, 더 명확한 기대치, 그리고 궁극적으로 더 많은 가치를 만드는 방법입니다.
무엇이 그에게 희망을 주는지 물었을 때 Hagerty는 조정, AGI 또는 정책 프레임워크에 대해 이야기하지 않았습니다. 그는 코드 어시스턴트에 대해 이야기했습니다.
"그들은 효과가 있어요."라고 그는 말했습니다. "마찰을 줄여줍니다. 그들은 할 수 있는 것보다 더 많은 일을 하는 척하지 않습니다. 이것이 바로 우리가 따라야 할 모델입니다."
그는 AI가 지루하기를 원합니다. 유용하고, 좁고, 그것이 무엇을 하는지, 어떻게 작동하는지에 대해 솔직하게 말하기를 원합니다, 이는 야망을 제한하는 것이 아니라 야망을 명확히 하는 것을 의미합니다. 놀라움 대신 신뢰성을 위한 구축을 의미합니다. 데모뿐만 아니라 배포 시에도 잘 작동하는 시스템 설계를 의미합니다.
AI는 사라지지 않습니다. 도구는 계속 발전할 것이지만 기대치도 계속 높아질 것입니다. 그리고 Hagerty는 성공하는 팀이 기술력과 윤리적 규율을 일치시키는 팀이 될 것이라고 믿습니다. 효과가 있으니까요.
