Personal Daily Journal

Section Archive

AI 리서치

A focused archive of the stories selected for this section in the current edition, ordered by editorial composition.

2026-08-0610 storiesMorning Edition

AI 리서치논문2026. 7. 31. 09:00LLM

전자상거래 LLM 에이전트의 장기 일관성 평가 벤치마크

기존 LLM Agent 벤치마크가 단기 작업 성공에 집중하는 한계를 지적하며, 실제 이커머스 데이터를 기반으로 365일 동안 주문 단위로 시뮬레이션하는 MerchantBench를 통해 에이전트의 장기적인 목적 지향 행동 평가의 필요성을 강조합니다.

피드백 지연과 누적된 결과가 미래의 선택을 제약하는 복잡한 환경에서 LLM Agent의 실질적인 운영 능력을 측정할 수 있는 기반을 마련했습니다.

arXiv 원문 →

019.5

AI 리서치논문2026. 8. 3. 09:00AI

단일 이미지로 3D 장면 생성하는 인피니스플랫

이 논문은 단일 이미지로부터 3D 장면을 생성하는 인피니스플랫(InfiniSplat) 기술을 제안했습니다. 기존 픽셀 기반 방식의 구조적 한계를 극복하기 위해 표면 구조에 맞춘 새로운 표현 방식을 도입했으며, 깊이 정보를 활용한 샘플링과 쿼리 기반 임플릭 데코더를 통해 표면 구조를 반영한 가우시안 속성을 예측합니다.

large viewpoint shifts 상황에서도 일관된 구조를 유지하며, 기존 방식보다 더 정교한 3D scene reconstruction이 가능해집니다.

arXiv 원문 →

029.3

AI 리서치논문2026. 8. 4. 09:00Diffusion

실시간 오픈엔드 비디오 편집 모델 'JoyAI-Video-Edit' 공개

본 논문은 실시간으로 개방형 비디오 편집이 가능한 16B-파라미터 오토레gresive 디퓨전 프레임워크 JoyAI-Video-Edit을 제안했다. 이 모델은 미래 프레임이나 사전 정의된 비디오 길이에 접근하지 않고도 낮은 지연 시간과 제한된 자원으로 작동하며, 소스 충실도와 장기적 시간적 일관성을 유지한다. JoyAI-Video-Edit은 기존 스트리밍 편집기보다 우수하고, 짧은 영상과 긴 영상 모두에서 오프라인 시스템과 경쟁할 만한 성능을 보인다.

JoyAI-Video-Edit은 실시간 제약 조건 하에서 높은 품질의 개방형 비디오 편집을 가능하게 하여, 기존의 스트리밍 편집기의 성능을 크게 향상시키고 오프라인 시스템과도 경쟁할 수 있는 수준을 달성했다.

arXiv 원문 →

039.5

AI 리서치논문2026. 8. 3. 09:00Transformer

연속 잠재 공간 기반 언어 모델 새 지평 연다

기존 텍스트 생성 방식과 달리, AURORA-LM은 연속 잠재 공간에서 텍스트를 모델링해 블록 단위로 높은 품질의 텍스트를 생성할 수 있는 새로운 언어 모델이다.

이미지나 오디오와 같이 continuous latent space를 활용하는 생성 모델의 패러다임을 텍스트 생성 영역으로 확장하여, token-level fidelity를 유지하면서도 효율적인 확산 모델링을 가능하게 합니다.

arXiv 원문 →

049.5

AI 리서치논문2026. 8. 3. 09:00Multimodal

Hunyuan3D-Buffalo 1.0, 3D 생성·이해·편집 통합 모델 발표

이 논문은 3D 이해, 텍스트-3D 생성, 편집, 부분 생성을 하나의 모델로 통합한 Hunyuan3D-Buffalo 1.0을 제안하며, 대규모 3D 멀티모달 데이터셋을 구축해 학습 효율을 높였다.

데이터 부족 문제를 극복하고 3D 생성 및 편집을 통합된 모델로 처리함으로써 scalable한 3D 모델링의 가능성을 제시함.

arXiv 원문 →

059.5

AI 리서치논문2026. 8. 3. 09:00LLM

에이전트 강화학습의 지속적 일관성 자가 증류법 제안

대규모 언어 모델 기반 에이전트의 강화학습에서 발생하는 드문 보상 문제를 해결하기 위해 PCSD(Persistent Consistency Self-Distillation) 방법을 제안했습니다. 기존 방식의 노이즈 민감성과 위치별 차이 무시 문제를 개선하고, 교사 선호 신호의 지속성을 기반으로 토큰별 증류 가중치를 동적으로 산출합니다.

teacher의 신호가 불완전할 수 있는 상황에서도 노이즈에 강건하게 dense token-level supervision을 제공하여 agent의 학습 효율을 높일 수 있습니다.

arXiv 원문 →

068.3

AI 리서치논문2026. 8. 4. 09:00Agents

개인 에이전트의 재귀적 자기 개선 능력 평가 벤치마크 제안

본 논문은 개인 AI 에이전트가 축적한 경험을 바탕으로 미래 행동을 개선하는 재귀적 자기 개선 능력을 체계적으로 평가하기 위해 PAST-Bench 벤치마크를 제안했다. PAST-Bench는 메모리, 절차적 재사용, 정보 수집, 업데이트 등 26개 시나리오와 204개 에피소드를 통해 경험 보유에 따른 성능 변화를 종합적으로 테스트한다. 실험 결과, 다양한 기초 모델과 에이전트 프레임워크에서 성능 향상이 나타났으나, 능력별로 그 효과가 달랐다.

Personal AI agents가 과거의 경험을 실제 성능 향상으로 연결할 수 있는지 검증할 수 있는 표준화된 평가 지표를 제공합니다.

arXiv 원문 →

077.9

AI 리서치논문2026. 8. 3. 09:00Agents

세상 모델링, 어디로 가는가?

기존의 세계 모델링은 주로 물리적 상태 변화를 예측하는 데 집중해 에이전트에게 실행 가능한 피드백을 제공하는 데 한계가 있었습니다. 본 논문은 물리적 상태 변화에서 agent-usable 정보 변화로 패러다임을 전환해, 에이전트에게 유용한 다양한 피드백을 제공하는 새로운 설계 공간을 제안합니다.

에이전트가 실제 환경과 상호작용하기 전, 저비용으로 제어 가능한 피드백을 얻을 수 있는 다각적인 proxy를 제공함으로써 에이전트의 지속적인 개선을 가능하게 합니다.

arXiv 원문 →

087.9

AI 리서치논문2026. 8. 4. 09:00Agents

차세대 멀티모달 영상 에이전트 'Video-DR' 공개

본 논문은 멀티모달 에이전트의 활동 범위를 정지 영상에서 연속적인 영상 스트림으로 확장한 Video-DR을 제안했습니다. 기존 모델의 문제점인 모달리티 편향과 파라미터 지식 유출을 해결하기 위해, 웹 검색 전 단계에서 철저한 프레임 간 시공간 근거를 수행하는 분리된 인지-탐색 파이프라인을 도입했습니다. 또한 지도 기반 추가 학습과 그룹 상대 정책 최적화를 결합한 2단계 학습법으로 자율적 탐색 능력을 강화했습니다.

에이전트가 내부 지식에 의존하지 않고 실제 도구를 활용하여 연속적인 비디오 데이터 내에서 정밀한 spatiotemporal grounding을 수행할 수 있는 기반을 마련했습니다.

arXiv 원문 →

098.8

AI 리서치논문2026. 8. 3. 09:00Vision

지식-기하 분리, 스트리밍 추천의 효율적 전이 학습

이 논문은 스트리밍 추천 환경에서 발생하는 행동 분포 변화 문제를 해결하기 위해 지식-기하 분리(KGD) 프레임워크를 제안했다. BMTP를 통해 무관한 세션 간의 잘못된 전이를 배제하고, 협업적 또는 의미적으로 연관된 아이템만을 학습해 깨끗한 행동 지식을 추출한다. 또한 사전학습 지식과 태스크별 기하 구조 간 충돌을 막기 위해 파라미터를 별도로 분리해 지식 전이 효율을 높였다.

지속적으로 데이터가 유입되는 환경에서 pretrained 모델을 효율적으로 refresh하면서도 task-specific한 성능을 유지할 수 있는 구조적 방법론을 제시함.

arXiv 원문 →

108.4