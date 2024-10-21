이 백서는 또한 AI 산업에서 더 나은 벤치마크가 필요하다는 것을 강조합니다. Minhas에 따르면 현재 벤치마크 문제는 모델이 실제 추론이 아닌 패턴 매칭을 통해 해결할 수 있기 때문에 결함이 있다고 합니다. "벤치마크가 실제 추론을 기반으로 하거나 추론 문제가 더 복잡한 경우 모든 모델의 성능이 매우 저하될 것입니다."라고 그는 말합니다.

Minhas는 Apple 연구원들이 기호를 혼합하여 AI 모델과 알고리즘을 학습하고 테스트하는 데 사용되는 데이터 모음인 이 데이터 세트를 만들었다고 말했습니다.



"심볼 자체나 불필요한 토큰과 같은 추가 컨텍스트를 통해 입력 시퀀스를 조정하고 변경하기 시작하면 이러한 모델의 성능이 저하된다는 것이 입증되었습니다."라고 그는 말합니다.

Apple 연구의 방법론에는 모델 성능이 어떻게 변화하는지 관찰하기 위해 학습 세트에 다양한 'fluffs'와 절을 도입하는 것이 포함되었습니다. 그러나 IBM 데이터 과학자 Jess Bozorg는 잠재적인 한계를 지적합니다. "추가할 때 고려한 카테고리나 어떤 카카테고리에서 어떤 유형의 fluffs를 사용했는지 명시하지 않았습니다."라고 그녀는 말합니다.

이 논문에서 현재 LLM 벤치마크에 대해 비판하는 점 중 하나는 데이터 오염 문제입니다. Bozorg는 Apple 연구에서 GSM-8K 데이터 세트를 사용했다고 설명했습니다. 세트에는 인간이 만든 초등학교 수학 단어 문제가 포함되어 있습니다. "데이터 유출이 있습니다."라고 그녀는 말합니다. "이는 모델이 학습의 테스트 단계에서 이 데이터 중 일부를 이미 보았음을 의미합니다."

오염은 업계에서 널리 퍼져 있는 문제입니다. Minhas는 GSM-8K 데이터 세트가 "모든 모델이 알고 있는 학습 데이터 전체에 걸쳐 약간씩 존재하는 업계 벤치마크"라고 말합니다. "이는 생성된 모든 벤치마크의 근본적인 문제입니다."

흥미롭게도 이 연구는 새로운 기호 데이터 세트에서 테스트했을 때 GPT-4가 다른 모델보다 눈에 띄게 더 나은 성능을 발휘하는 것으로 나타났습니다. Minhas는 그 이유에 대해 다음과 같이 추측합니다. "GPT-4를 훈련할 때 기호 표현에 대해 생각하고 그런 테스트 데이터를 생성할 수 있었을까요? 아직 패턴 매칭만 하고 있을 수도 있지만 데이터 세트에 이 데이터 유형이 있었을 수도 있습니다.”

Minhas는 연구자들이 AI 시스템에 메모리를 도입하여 패턴 매칭을 넘어서려고 노력하고 있다고 지적합니다. "이는 우리가 더 일반적으로 만들려고 하는 한 가지 방법이지만, 여전히 여러분이 제공한 것을 기반으로 하는 패턴 매칭일 뿐입니다."라고 그는 말합니다.

Apple의 연구에 따르면 현재 AI 시스템의 상당한 한계가 드러났으며, 진정한 지능형 기계를 향한 여정이 아직 완료되지 않았다는 사실이 드러났습니다. 전문가들은 이제 AI 커뮤니티가 패턴 매칭과 진정한 추론 사이의 간극을 좁혀야 하는 과제에 직면해 있다고 말합니다.

"트랜스포머 아키텍처만으로는 추론하기에 충분하지 않습니다."라고 Minhas는 말합니다. "추론 능력을 사용하려면 모델 아키텍처의 발전이 필요합니다."