AlphaEvolve 사례에서 가장 먼저 눈에 들어오는 건 이름의 익숙함과 적용처의 낯섦 사이의 간격입니다. Gemini 기반 코딩 에이전트라고 하면 보통 IDE 안에서 함수를 만들고 테스트를 고치는 장면을 떠올립니다. 그런데 Google DeepMind가 공개한 AlphaEvolve의 현재 위치는 그보다 훨씬 바깥에 있습니다.
이 시스템은 새 알고리즘을 설계하고 평가하는 루프를 통해 genomics, 전력망, 자연재해 예측, quantum simulation, 수학 문제, TPU 설계 같은 영역에 들어갔습니다. DeepConsensus 개선에서는 DNA sequencing의 variant detection error를 30% 줄였고, AC Optimal Power Flow 문제에서는 GNN이 feasible solution을 찾는 비율을 14%에서 88% 이상으로 끌어올렸습니다. 자연재해 위험 예측도 20개 카테고리 기준 5% 개선됐다고 합니다.
흥미로운 지점은 AlphaEvolve가 ‘코드를 잘 쓰는 모델’로만 설명되지 않는다는 데 있습니다. 문제를 코드와 평가 기준으로 표현하고, 후보 알고리즘을 만들고, 결과를 검증하며 다시 탐색하는 구조에 가깝습니다. 그래서 결과물이 앱 기능이 아니라 cache replacement policy, quantum circuit, 수학적 lower bound, TPU 설계 최적화 같은 형태로 나타납니다.
물론 이 접근은 만능이 아닙니다. AlphaEvolve가 강해지는 곳은 목표와 검증 방식이 비교적 분명한 문제입니다. 평가 함수가 부실하면 시스템은 더 나은 답이 아니라 더 잘 속이는 답을 찾아낼 수 있습니다. 과학과 인프라 영역에서는 성능 개선 수치만큼이나 재현성, 해석 가능성, 배포 후 실패 모드가 중요합니다.
그럼에도 이 발표가 중요한 이유는 에이전트의 상상력을 넓힌다는 점입니다. 지금까지 많은 논의가 “AI가 개발자의 반복 작업을 얼마나 줄일 수 있나”에 머물렀다면, AlphaEvolve는 “AI가 인간이 직접 탐색하기 어려운 알고리즘 공간을 얼마나 넓힐 수 있나”를 보여줍니다.
앞으로 비슷한 시스템의 경쟁력은 모델 크기만으로 결정되지 않을 가능성이 큽니다. 문제를 정확히 코드화하는 능력, 빠르고 신뢰할 수 있는 verifier, 전문가가 개입하는 검증 절차, 그리고 실제 시스템에 넣어도 견딜 수 있는 운영 조건이 함께 필요합니다. AlphaEvolve는 코딩 에이전트의 다음 장면이 코드 작성이 아니라 알고리즘 발견일 수 있음을 보여주는 사례입니다.