본문 바로가기

Blog/Thoughts

구글 신경망번역 vs 네이버 파파고 vs 사람 - 번역기 비교분석

최근들어 신경망 번역이 화제이다. 신경망 번역이란 기존이 번역기와는 달리 빅데이터와 고도로 발달된 AI의 연산능력을 이용하여 문맥을 고려한 번역을 하는 것이다. 기존의 번역기는 주어진 단어를 기계적으로 번역하는 형태이기 때문에 문맥과 함의를 이해하지 못 한다는 맹점이 있었다. 이는 단어를 따로 따로 분리해서 처리를 하다보니 전혀 엉뚱한 의미의 문장이 출력되었다.


하지만 신경망 번역(구글)의 경우 인공지능 자체의 언어를 개발하는, 정말 외계인 스러운 발상을 통해 좀 더 완벽한 번역을 이끌어 낼 수있게 되었다. 특히 이러한 접근이 흥미로운 이유는 기존의 번역기들은 단어 대체 방식에 불과 했지만 신경망 번역은 자신만의 '언어'를 가지고 있고 이를 통해 자신의 언어로 해석한 뒤에 이를 출력 언어로 바꿔주는 과정이 이루어진다. 이는 마치 Multilingual이 머릿속에서 모국어 > 타국어로 번역하는 과정과 유사한 형태인 것이다. 덕분에 구글의 신경망 번역은 획기적으로 높은 번역 정확도와, 기존에는 형편없기로 이름 났었던 한국어-영어 번역에 비약적인 향상을 이루었다.


한국어-영어 번역이 형편이 없었던 이유는 한국어와 영어는 언어의 구성형태가 많이 다르기 때문이다. 한국어의 경우 SOV 언어이나 영어의 경우 SVO 형태이다. 지금까지의 컴퓨터는 이러한 차이를 인식하지 못 했기 때문에 번역기를 돌리면 문장 순서도 어긋나고, 한글로 써져있지만 도무지 한국어라고 할 수 없는 소위 말하는 기괴한 형태의 번역투 문장이 생성되는 것이다. 그러나 신경망 번역은 자신의 언어로 번역함으로써 이러한 어순차이나 문법 문제를 해결할 수 있게 되었다.


구글이 신경망 시스템 전용 프로세서를 내놓고, 최근 지주회사 알파뱃의 계열사인 딥 마인드 랩에서 바둑 AI인 알파고를 통해 인공지능의 우수성을 과시하고 있다. 이에 질세라 악의 축 네이버도 NVMT 라는 신경망 시스템을 공개했다. 이러한 신경망 시스템을 통해 보여준 것이 한국어-영어 번역 시스템이다. 자사의 모바일 번역앱인 파파고와, 자사의 사전에서 번역기를 사용해 볼 수 있다.


구글 신경망 번역의 경우 약 7개 언어를 지원하고 있으며, 번역 자수의 제한이 없는 반면에 네이버는 오로지 한글-영문 번역만 제공하고 있으며 200자이상은 번역하지 못하는 병크를 보여주고 있다. 덕분에 예시로 쓴 문장은 205자 여서 중간에 필요없는 수식어를 임의로 잘라내서 200자 아래로 맞추었다.


아래의 문장은 The Verge에서 발행한 닛산 리프 관련 기사에서 발췌한 것이다. 굳이 이 문장을 택한 이유는 많은 브랜드와 제품 이름이 들어가 있으며, 호흡이 굉장히 긴 문장이기 때문이다. 문장 중간에 관계사절이 들어가있고, 전치사 + 명사 구가 많이 포함되어 있어 사람에게도 꽤나 난이도가 있는 문장이다. 특히 번역기의 경우 문장의 호흡이 길어지고 수식어가 길어질 수록 의미가 모호해지고 주어가 바뀌는 등의 문제를 보여주곤 한다.


원문

The self-driving Leafs will be hitting the road in London around the same time that Volvo plans to deploying a fleet of autonomous XC90 SUVs in the British capital as part of its Drive Me research.



파파고

self-driving Leafs는 영국의 수도인 Volvo가 영국의 수도인 XC90에서 자율적으로 추진할 수 있는 무인 SUV를 배치하기 위해 동시에 런던에서 도로를 순찰할 예정이다.



네이버 기계식 번역

그 스스로 운전하는 리프스 런던에서 볼보의 드라이브 미 연구의 일환으로 자치XC90 SUV의 영국의 수도에 함대를 배치할 계획이라고 같은 시간대에 그 길을 나설 것이다.프로젝트.




구글 신경망 번역

자가 운전 Leafs는 볼보가 Drive Me 리서치의 일환으로 영국의 수도에 자치구 XC90 SUV를 배치 할 계획 인 것과 동시에 런던에서 도로를 타격 할 것입니다.

사람

(직역) 자율주행 리프들은 도로에 나설 것이다 런던에서 비슷한 날짜에 볼보가 계획한 자동운전 XC90 SUV 대열을 영국의 수도에서 드라이브 미 연구의 일환으로 진행하는 


(다듬기) 자율주행 리프들은 비슷한 시기에 볼보가 자동운전 XC90 SUV로 진행할 '드라이브 미' 연구 차량 대열과 함께 영국의 수도에서 운행할 것입니다.

일단 원문을 분석해보자.

The self-driving Leafs will be hitting the road in London around the same time that Volvo plans to deploying a fleet of autonomous XC90 SUVs in the British capital as part of its Drive Me research.


The self-driving Leafs가 주어, will be 가 동사, hit the road는 일종의 관용구이나 the road를 보어로 볼 때, hitting을 the road를 수식하는 분사로 생각할 수 있다. 이후에 나오는 in London, around the same time은 전치사 + 명사 구로써 수식어구이다. that은 the same time을 받는 관계사이다. 뒤에 나오는 that Volvo plans ~는 관계사 절로 the same time에 대한 부연설명을 하고 있다. 관계사 절에서 Volvo가 주어, plans가 3인칭 단수 동사, to deploying은 문법적으로 약간 어색한 부분인데, 해당 문장에서 plan은 타동사로써 to 부정사 또는 동명사를 목적으로 가지기 때문이다. 아마도 to deploy라고 하는 것이 적절하지 않을까 라는 생각. 뒤에 나오는 a fleet 은 앞에 나온 동사구 to deploying의 목적어, of autonomous XC90 SUVs는 fleet을 수식, in the British capital, 전치사구, as는 여기서 전치사 이므로 as part 전치사구 수식어, its는 볼보의 소유격, of its Drive Me research 전치사구 수식어 이다.


self-driving Leafs는 영국의 수도인 Volvo가 영국의 수도인 XC90에서 자율적으로 추진할 수 있는 무인 SUV를 배치하기 위해 동시에 런던에서 도로를 순찰할 예정이다.


네이버 파파고의 경우 모르는 단어는 그냥 영어로 냅뒀다. 오히려 이게 자의대로 해석해놓아서 혼돈을 주는 것 보다는 초벌번역에는 더 좋을수도 있다. 하지만 Volvo를 영국의 수도로 해석한점을 볼때 전치사 수식어를 가장 근접한 주어에 갖다 해석해버리는 맹점이 있는 것으로 보인다. 한가지 이해가 안가는 점은 순찰이라는 단어가 도대체 어디에서 튀어나왔는지 이다. fleet 이야 직역하면 함대로 해석할수 있다지만, 순찰이라는 단어는 시스템이 마음대로 만들어낸게 아닌가 라는 생각이든다.


네이버 파파고에서 약간 의아 한 부분은 문장에는 없는 단어를 자의로 끼워 넣는다는 점이다. 해당 기사에 있던 다른 문장에서 게시글에는 존재하지도 않던 르노 삼성 자동차가 갑툭튀해서 상당히 당황 스러웠다.


문제의 문장


원문

In addition to the Leaf, the automaker says it can be used with Nissan’s Serena minivan and Qashqai crossover.


네이버 파파고

이 외에도, 르노 삼성 자동차는 닛산의 세레나 보잉과 크로스 오버 교차로와 함께 사용할 수 있다고 말한다.


구글 신경망

잎에 더하여, 자동차 제조 회사는 그것이 니산 Serena 미니 밴과 Qashqai 교차와 함께 사용될 수있다라고 전한다.


이 처럼 도대체 출처를 알 수없는 '르노 삼성 자동차'라는 단어가 사람들 당황스럽게 한다. 사실 파파고는 뒤에서 사람이 노예 처럼 번역한다는 개그가 어느정도 신빙성이 있는게 아닐지?? (하지만 이글을 작성하고 있는 시간은 새벽 5시... 네이버 직원은 잠도 안재우나?)


자가 운전 Leafs는 볼보가 Drive Me 리서치의 일환으로 영국의 수도에 자치구 XC90 SUV를 배치 할 계획 인 것과 동시에 런던에서 도로를 타격 할 것입니다.


구글의 경우 Drive Me를 고유명사로 분류해놓는 섬세함을 보여주었다. 네이버 파파고의 경우 Capital Letter에 대한 인식률이 떨어지는 것 같다. 즉, 이게 고유명사인지 아니면 일반 단어인지를 파악 못하는 것 같다. 다만 deploy를 타격으로 번역한 것은 의외. hit the road 라는 관용구를 (도로를 내달리다) 단어 그대로 번역하는 것을 보면서 아직 번역 DB가 부족한 건가라는 생각을 해본다. 그것 이외에는 거의 사람이 하는 번역에 가까운 뛰어난 문장 완성도를 보여주고 있다. 특히 수많은 수식어와 관계사에도 불구하고 영어식 어순을 한국어 어순으로 비교적 매끄럽게 바꿔 놓는 섬세함까지 볼 수 있다. 다만 의아한 점은 영국의 수도라는 부분을 런던으로 바꿔놓았다는 것. 굳이 이렇게 할 필요가 있었나 싶기도 하다.


그 스스로 운전하는 리프스 런던에서 볼보의 드라이브 미 연구의 일환으로 자치XC90 SUV의 영국의 수도에 함대를 배치할 계획이라고 같은 시간대에 그 길을 나설 것이다.프로젝트.


네이버 기계식 번역은 기존의 번역기가 가지고 있던 고질적인 문제를 그대로 보여주고 있다. 즉, 어순도 고려하지 않고, 문맥도 고려하지 않으며 무턱대고 단어 순서대로 번역하여 나열 하는 식이다. 적어도 Volvo를 볼보로 번역했다는 점은 칭찬을 해줘야 하는 건지... 쩝.


결론


아직까지도 번역기의 성능은 많이 부족하다. 구글이 경우 사람의 번역에 거의 근접했다고는 하지만 여전히 아쉬운 부분은 남아 있다. 하지만 기존의 기계식 번역에 인공지능을 추가하여 이 정도 수준까지 급속도로 발전한 것을 볼때 근 시일내에 사람의 번역수준에 근접하거나 또는 뛰어넘는 날도 머지 않아 올 것이라고 본다. 정말 번역이라는게 사양산업이 되어버렸다. 사실 기술적인 용어가 들어가는 문서들은 번역기의 한계를 여실히 드러내주는 부분이었는데 구글의 신경망 번역은 이를 놀라울 정도로 정확하게 해석하는 모습을 보여주고 있다. 물론 아직까지도 애매모호하거나 문장을 전혀 엉뚱하게 해서 사람이 보정해줘야 하는 면도 없지 않아있지만, 기존의 기계식 번역의 경우 80%를 사람이 다시 보정해줘야 했다면 지금은 약 50%의 사람 보정이 필요한 단계까지 왔다. 아마도 어느 순간에는 100% 사람 보정이 필요없는 날이 올지도 모르겠다.


참고로 얼마전에 올린 스페이스X의 화성 식민지 영상의 스크립트 초벌번역을 구글 신경망 번역으로 하였다. 우주 항공에 있어서는 일자무식인 내가 치명적인 오류를 많이 (몇개 있긴하다) 내지 않고 번역을 해낼 수 있었던 것도 구글 신경망 번역 덕분.



네이버의 경우 부족한 능력에 열심히 했다는 것에 박수를 보내주고 싶지만 뜬금 없는 단어 갑툭튀나 고유명사를 구분하지 못 하는 점, 그리고 이해할 수 없는 글자수 제한과 같은 문제는 해결해야 한다고 본다. 한국 소재 회사라 적어도 한국어 번역기 만큼은 강세를 보일 줄 알았는데, 막상 뚜껑을 까보니 그렇지도 않는 것을 볼 때 국적과는 관계없이 그냥 네이버 기술력 자체가 구글에 비해 무지하게 후달려서 그런게 아닐까.


적어도 한가지 확실한 것은 번역가라는 직업은 곧 사라질 직업이며, 머지않아 외국어를 배우지 않고도 외국인과의 의사소통에 전혀 지장이 없는 수준까지 번역기가 발전할 것이라는 것이다. AI의 발전은 하루가 무섭게 발전하고 있으며, 과연 인류가 어떻게 AI를 활용할 것인가에 따라 미래가 유토피아 또는 디스토피아가 될 것이다.