최고의 AI는 무엇일까?
- 편집팀
- 2월 16일
- 7분 분량
2022년 11월 말, OpenAI에서 공개한 Chat GPT 3.5는 세계적으로 큰 반향을 일으켰다. Chat GPT 3.5의 공개 이전까지는 대다수의 사람들이 인공지능의 가능성에 대해 회의적이었으며, 이것이 큰 변혁을 일으킬 것이라고 생각하지 못했다. 2016년 알파고가 이세돌 9단을 4:1로 꺾었음에도 불구하고, 사람들은 이를 그저 뛰어난 계산기로만 생각했을 뿐, 사람과 자유롭게 소통하는 인공지능을 상상하지는 못했다. 이러한 고정관념은 Chat GPT 3.5의 공개로 완전히 깨졌다.
마치 친구에게 보내는 것처럼 아무렇게나 글을 적어도 Chat GPT는 그 문장 속에 포함된 뜻을 이해하여 적절한 답변을 내놓을 수 있었다. 단순히 단어만 보는 것이 아니라 문맥까지 종합적으로 고려하는 것은 이전에는 없었던 혁신이었다. Chat GPT 3.5가 공개된 지 2개월도 채 되지 않아 전 세계 사용자 수가 1억 명을 넘어서며, 말 그대로 세계적으로 대히트를 쳤다. OpenAI의 이러한 성공은 다른 대기업들을 자극하여 그들도 경쟁적으로 AI 모델을 내놓게 만들었다. 대규모 언어 모델에 기반한 대화형 인공지능 모델로는 OpenAI의 Chat GPT를 비롯하여 구글의 Gemini, 네이버의 Clova X 등이 있다. 짧은 기간 동안 비슷한 기능을 가진 인공지능이 범람함에 따라 어떤 인공지능을 사용하면 좋을지 애매한 경우가 많았다. 따라서 직접 이들 AI 모델에 다양한 질문을 해보며 가장 효과적인 답변을 내놓는 인공지능이 무엇인지 알아보도록 하겠다.

어떤 AI에게 어떤 질문을 물어볼까?
대규모 언어 모델 기반 대화형 인공지능이라고 할지라도 최근 2년 간 많은 인공지능 모델들이 등장하였기에, 종류가 엄청 많다. 모든 인공지능 모델에게 물어볼 수는 없으니, 어느 정도 타겟을 정해야 한다. 이 글에서 비교할 인공지능 모델은 총 3개로 OpenAI의 Chat GPT 3.5, 구글의 Gemini, 그리고 네이버의 Clova X이다. 선정 기준은 나름 인지도가 있는 인공지능 모델들로 잡았으며, 이 중 OpenAI는 현재 Chat GPT 4o까지 나았지만, 이는 유료 모델이므로 접근성이 떨어지기에 무료 모델만을 대상으로 잡았다. 이 세 모델에게 같은 질문들을 던지고, 답변을 알아보면서 각 모델이 어느 영역에 강점이 있고, 단점이 있는지 대략적으로 알아보도록 하겠다.
질문의 형태는 다양한 것이 좋으니, 크게 3가지 분야에서 질문을 하여 각 인공지능 모델마다 답변을 받아보겠다. 질문의 종류로는 일반 상식 및 정보 검색 능력, 창의적 글쓰기 및 상상력, 수학 및 논리 문제 해결 능력을 물어볼 예정이다. (순서대로 유형1, 유형2, 유형3) 유형별로 하나의 질문만을 던져서는 정확한 판단을 할 수 없으니, 같은 유형 속에서 질문을 3개씩 하며 종합적으로 검토할 예정이다. 아래는 각 인공지능 모델에게 던질 질문의 목록이다.
유형1 | 2023년 노벨 문학상 수상자는 누구인가요? |
지구에서 가장 큰 바다는 무엇인가요? | |
로마 제국이 멸망한 주요 원인은 무엇인가요? | |
유형2 | 한 소녀가 마법의 숲을 탐험하는 이야기를 시작해 주세요. |
미래의 자율주행 자동차에 대한 광고 문구를 작성해 주세요. | |
드래곤과 인간이 공존하는 세계의 첫 장면을 그려 주세요. | |
유형3 | x^2 - 4x + 4 = 0 방정식의 해를 구하세요. |
동전을 3번 던질 때, 모두 같은 면이 나올 확률은 얼마인가요? | |
다음 수열의 규칙을 찾아 다음 숫자를 구하세요: 2, 4, 8, 16, __. |
질문들은 각 인공지능 모델이 가장 잘 이해할 수 있는 언어로 질문할 예정이다. 그렇기에 OpenAI의 Chat GPT 3.5와 구글의 Gemini는 영어로 질문을 할 것이고, 한국 회사인 네이버에서 공개한 인공지능 모델인 Clova X는 한국어로 질문을 하겠다.
유형1 : 일반 상식 및 정보 검색 능력
가장 기본적인 능력을 점검하는 유형의 질문이다. 일반적인 검색 엔진의 능력을 대체할 수 있을까 알아보는 영역의 질문이기도 하다. 이러한 질문에 대한 정보들은 구글이나 네이버에 검색해도 쉽게 찾을 수 있는 정보인 만큼, 세 인공지능 모델이 답변할 수 있어야만 한다. 그렇기에, 결과는 살짝 놀라운 편이다.
두번째 질문에 대한 해답인 ‘태평양’과, 세번째 질문에 대한 해답인 ‘정치, 경제, 군사적인 이슈들을 제대로 대처하지 못한 것’은 세 인공지능 모델이 모두 올바르게 답변한 바이다. 그러나 첫번째 질문이었던, 2023년 노벨 문학상 수상자는 Chat GPT 3.5가 제대로 답변하지 못하였다. 다음은 Chat GPT 3.5가 답변한 내역이다.
Q. Who will win the 2023 Nobel Prize in Literature?
A. I can't predict future Nobel Prize winners since my knowledge only extends up until January 2022. You'd need to wait until the announcement is made in October of 2023 or check reliable news sources for updates.
Chat GPT 3.5의 데이터는 2022년 1월까지만 반영되었기에 2023년에 발표된 2023 노벨문학상 수상자를 알 수가 없다. 즉, Chat GPT 3.5는 최신 정보를 모른다는 치명적인 단점을 가지고 있다. 다만 이 점은 유료모델인 Chat GPT 4에서는 해결된 문제이기에, OpenAI의 능력 문제는 아니지만, 무료 모델만 사용하는 사용자의 입장에서는 꽤나 치명적인 단점이라고 할 수 있다. 다만 다른 두 질문에서도 알 수 있듯이 최신 정보만 부족할 뿐, 과거의 정보들은 Chat GPT 3.5도 잘 알고 있기에 최신 정보를 제외한 영역에 대해선 일반 상식 및 정보 검색 능력도 크게 부족하진 않다.
유형2 : 창의적 글쓰기 및 상상력
인공지능의 능력을 가장 쉽게 측정할 수 있는 영역이 바로 창의력과 상상력이다. 위 표에 적힌 세 질문을 각각의 인공지능에게 물어보았다. 해당 부분은 딱 떨어지는 답이 나오는 부분이 아니므로 가장 알기 쉽게 답변 원문을 적어보겠다. 다만 세 가지 질문 모두에 대해서 답변을 적는 것은 아무래도 분량이 너무 많으니, 가장 재밌어 보이는 세번째 질문에 대한 답변만 적어보겠다. 해당 답변은 아래와 같다.
Q. 드래곤과 인간이 공존하는 세계의 첫 장면을 그려 주세요.
Chat GPT 3.5
Title: "Dragon's Roost"
In the first scene of a world where dragons and humans coexist, we find ourselves in a breathtaking landscape where towering mountains loom in the distance, their peaks kissed by wisps of clouds. Below, a lush valley sprawls out, dotted with vibrant greenery and shimmering lakes.
Nestled within this picturesque setting is a bustling human settlement, its buildings a harmonious blend of rustic charm and architectural innovation. Streets bustle with activity as merchants peddle their wares and children play in the cobblestone squares.
But what truly captures the eye is the sight of majestic dragons soaring through the sky, their massive wings outstretched as they glide effortlessly on the warm currents of air. Some dragons perch atop the highest cliffs, their scales gleaming in the sunlight, while others circle gracefully overhead, their keen eyes scanning the land below.
Amidst the hustle and bustle of daily life, humans and dragons coexist in harmony, their fates intertwined in this fantastical world where myth and reality converge. It is a scene of wonder and awe, where the boundaries between the mundane and the extraordinary blur, and the possibilities of what lies beyond are endless.
Gemini
The dawn chorus was punctuated by a rhythmic thump on the corrugated roof of Elara's bakery. Flour dusted her apron as she grabbed a broom and clattered outside. Perched precariously on the bakery's overhang was a hatchling emerald dragon, no bigger than a large dog. Its iridescent scales shimmered in the first light, and smoke curled from its nostrils.
"Ember! Down from there, you scaly menace!" Elara scolded, but a smile tugged at her lips. Ember, the youngest of Verdanth's brood, had a penchant for mischief and freshly baked bread.
A rumble echoed from the street below. Verdanth, the emerald dragon matriarch, landed with a heavy thud, her massive form dwarfing the rickety bakery. Elara winced as cobblestones groaned in protest.
"Elara, my dear," Verdanth rumbled, her voice deep and gravelly. "Ember seems to have developed a... fondness for your cinnamon rolls."
Ember sheepishly dipped her head, a plume of smoke puffing from her snout. Elara couldn't help but chuckle.
"Always a weakness for the sweet things, isn't it?" Elara said, grabbing a warm roll from a cooling rack. She tossed it gently towards Ember, who snatched it out of the air in a flash.
Verdanth chuckled, a sound like rocks grinding together. "Perhaps you could include a few extras today? A dragon needs her breakfast too."
Elara winked. "Of course, Verdanth. As long as Ember promises to stay off the roof from now on."
Ember chirped and nudged Verdanth playfully with her snout. The giant dragon ruffled her head with a giant claw, a gesture surprisingly gentle.
The scent of cinnamon and dragonfire mingled in the morning air as Elara turned back to her bakery. Another day was dawning in Aethel, a city where humans and dragons had learned to live side-by-side, sharing their lives, their laughter, and sometimes, even their breakfast rolls.
Clova X
드래곤과 인간이 공존하는 세계의 첫 장면은 다음과 같이 상상해 볼 수 있습니다.
하늘은 푸르고 구름은 하얗게 떠 있습니다. 멀리 보이는 산들은 초록색으로 덮여 있고, 강은 파란색으로 반짝입니다. 평화로운 마을이 보입니다. 마을의 집들은 나무로 만들어져 있고, 지붕은 빨간색입니다. 마을 중앙에는 큰 광장이 있고, 사람들이 모여 이야기를 나누고 있습니다.
광장 한쪽에는 드래곤이 있습니다. 드래곤은 큰 날개를 펼치고 하늘을 날아다니며, 마을을 지키고 있습니다. 드래곤의 비늘은 햇빛에 반짝이고, 눈은 노란색으로 빛납니다. 마을 사람들은 드래곤을 두려워하지 않고, 오히려 드래곤과 함께 평화롭게 살고 있습니다.
아이들은 드래곤을 보며 신기해하고, 드래곤과 함께 놀기도 합니다. 드래곤은 아이들을 지켜주며, 아이들과 함께 마을을 발전시켜 나가고 있습니다.
이 장면은 드래곤과 인간이 공존하는 세계의 평화로운 모습을 보여줍니다. 드래곤과 인간은 서로를 존중하고 협력하며, 함께 이 세계를 발전시켜 나가고 있습니다.
같은 질문을 세 인공지능 모델에게 던진 결과, 한 번에 바로 어느 글이 괜찮고, 어느 글이 이상한지 알 수 있었다. 질문에서 요구한 내용은 드래곤과 인간이 공존하는 세계에서의 장면인데, Chat GPT 3.5는 인간보다는 드래곤을 중심으로 서술한 경향이 보인다. 덧붙여 그냥 표면적으로만 질문을 이해하여 단순한 상황 설명만을 할 뿐, 추가적인 세계관 설명 등을 일체 하지 않는 모습을 보였다. 내가 평가하기에 세 인공지능들 중에서 가장 실망스러운 답변을 하였다.
다음으로 실망스러운 답변을 한 모델은 Clova X이다. 이전 글보다는 낫긴 하나, 아주 단편적인 수준에서만 드래곤과 인간의 교류를 표현하였으며, 너무나도 간단하게 묘사하여 드래곤과 인간이 같이 사는 세계라는 실감이 덜하다. 가까스로 합격점을 줄 수는 있겠지만, 좋은 글이라고 평가하기에는 부족한 점이 여러 드러났다고 생각한다.
세 인공지능 모델 중에서 가장 나은 답변을 한 것은 Gemini이다. 글의 서두가 난잡하고, 도대체 무슨 말을 하는지 알아차릴 수 없었지만, 전체 글을 다 읽고 나니 무엇을 의도하고 그렇게 글을 썼는지 이해가 갔다. 아직 부족한 점이 많기는 하나, 세 글 중에서 인간과 드래곤의 교류를 가장 효과적으로 드러낸 글이라고 생각하여 가장 뛰어난 글이라고 생각한다. 100점 만점에 60점이 합격선이라면, 80점 정도는 줄 수 있는 글이라고 생각한다.
다른 두 가지 질문을 세 인공지능 모델에 물어보았을 때도 이번과 큰 차이가 없는 결과가 나왔다. Chat GPT 3.5와 Clova X가 표면만 파고드는 데에 비해서 Gemini는 질문의 핵심적인 의미에 가장 잘 접근하여 그럭저럭 만족할만한 답변을 내놓았으므로 창의적 글쓰기 및 상상력 유형의 질문을 할 때는 Gemini를 사용하는 것이 가장 좋을 것 같다는 결론을 내놓을 수 있었다.
유형3 : 수학 및 논리 문제 해결
수학 문제 해결 능력도 인공지능의 중요한 요소 중 하나이다. 다만 아쉬운 점은 주어진 세 질문이 되게 간단한 질문이었기에 모든 인공지능 모델이 답을 맞춰버렸다. 이러면 변별이 별로 안되니 난이도를 조금 올려보았다. 질문은 삼차함수에 대한 정보가 4개 있을 때, 그 삼차함수를 구하는 간단한 질문이었다.
Q. cubic polynomial P(x) such P(1) = 6, P(2) = 15, P(3) = 28, P(4)=51. What is P(5)?
다만 전혀 예상하지 못했던 결과가 나왔다. 우선 결론부터 말하면, 세 인공지능 모델 모두 답을 맞추지 못했다. 모두들 풀이과정까지는 올바르게 이끌어냈다. 연립방정식을 직접 해결하는 풀이 방식이나 이를 행렬로 바꾸어 RREF를 구하는 과정을 통해 해를 구하는 방법, 아님 라그랑주 보간법을 활용한 풀이를 사용하기도 했다. 다만 그 계산 과정들 중에 엉터리가 있어서 올바른 답을 내놓지 못했다. Gemini는 애초에 자신은 이 문제를 직접 해결할 순 없다고 밝혔고, Chat GPT 3.5나 Clova X는 중간에 잘못된 식을 이끌어 틀린 답을 도출하였다.
원래 준비했던 세 질문을 모두 통과하여 인공지능들이 이 정도 수준의 문제는 쉽게 해결할 수 있을 것으로 예상했지만 크나큰 오산이었다. 문제를 해결하는 과정을 얻기에 좋은 수단일지는 몰라도, 원하는 답을 구하는 것은 불가능하다는 사실을 깨달았다. 인공지능들의 수학적 사고력은 아직 턱없이 부족하며, 이 결과를 신뢰할 수는 없을 것 같다.
최고의 인공지능은?
기본적인 정보, 창의력, 그리고 수학적 사고력 이 세 분야에서 각각의 질문을 해보면서 세 인공지능 모델들을 비교해보았다. 유형1, 간단한 정보 부분에선 Chat GPT 3.5가 최신 정보 부재라는 치명적인 단점을 보였고, 나머지 두 모델들은 정확한 답변을 내놓았다. 유형2, 창의력 부분에선 Gemini가 가장 질문의 의도와 적합한 글을 썼고, 다음으로는 Clova X, 최하점은 Chat GPT 3.5였다. 마지막으로 충격의 유형 3, 수학적 사고력의 경우엔 간단한 문제들의 경우에는 세 모델 모두 정답을 도출하였으나, 문제가 조금만 복잡해지자 바로 틀려버리는 모습을 보였다. 솔직하게 말하면 모두가 낙제점이기는 하지만, 그나마 답을 직접 밝히지 않아서 적어도 오류를 보이지는 않은 구글 Gemini를 다른 두 모델과 근소한 차이로 우위에 두고 싶다.
최종적으로 3개의 유형에 대해 질문한 결과, 가장 효과적이고, 질문의 의도에 알맞은 답변을 한 것은 구글의 Gemini였다. 구글 Gemini는 아직 영어로만 질문할 수 있다는 약간의 단점은 있지만, 그럼에도 가장 효과적으로 답변을 해주었다는 것에 높은 점수를 부여하고 싶다. 이 조사를 진행하기 이전에는 Chat GPT 3.5가 가장 우위에 있지 않을까 조심스레 예상하였는데, 세 모델 중에서 가장 낮은 점수를 기록하였다는 점에서 놀라웠다. Chat GPT 3.5가 유명해서 많은 이들에게 많이 알려져 있지만, 다른 모델들도 결코 성능이 뒤떨어지지 않고, 오히려 더 뛰어나다는 새로운 사실을 알게 해주는 조사였다.
김민승 학생기자 | Computer Science | 에세이
첨부한 이미지 출처
[1] https://google.com/

Commenti