빌런 TOP 20
일간 l 주간 l 월간
1
[컴퓨터] 엔비디아, 전 세계 AI 에이전트 구동 위한 ‘베라 CPU’ 출시
2
[컴퓨텍스] [컴퓨텍스 2026] 시소닉, AI시대를 가동하는 심장을 만든다
3
[컴퓨텍스] [컴퓨텍스 2026] Leadtek, 쿼드로의 기억을 AI 인프라로 확장하다
4
[컴퓨텍스] [컴퓨텍스 2026] KLEVV, SK hynix 기반 위에 브랜드 감각을 입히다
5
[이슈/논란] MissAV, 저작권 침해 소송에 직면: 사건 경위 및 성인 스트리밍 업계에 미치는 영향
6
[일상/생활] 여사친을 여자로 인식하지 못하는 뇌 속 남성
7
[전자부품] 5월 25일 부처님오신날 대체공휴일 안내
8
[컴퓨텍스] [컴퓨텍스 2026] Thermal Grizzly Roman 'der8auer' Hartung CEO 인터뷰
9
[컴퓨텍스] [컴퓨텍스 2026] G.SKILL, 오버클럭 문화 위에서 고성능 메모리의 다음 영역을 보다
10
[컴퓨터] 마이크로닉스, ‘2026 KEL 슈퍼위크 경기, 플레이엑스포 스폰서 참여
11
[컴퓨터] MSI, 일상부터 게이밍까지 올라운더 데스크탑 '코덱스' 출시
12
[컴퓨터] 서린씨앤아이, 가스 스프링 방식의 고성능 모니터 암 아틱 X1-3D 출시
13
[컴퓨터] 맥스엘리트, 독보적 스펙과 합리적 가치 ‘STARS ARIES’ 3종 출시
14
[컴퓨터] ‘글로벌 전략 제품 공개’ 마이크로닉스, 컴퓨텍스 2026 참가
15
[컴퓨텍스] [컴퓨텍스 2026] 쿨러 명가의 자존심, 이제 ‘K-잘만’으로 쓴다
16
[컴퓨터] 엔비디아, 아이작 GR00T 휴머노이드 로봇 레퍼런스 디자인 공개
17
[일상/생활] 24살 아빠에게 중고차 2500원에 선물한 충주맨
18
[이슈/논란] 페이커 조모 살해 협박범이 있네요
19
[컴퓨텍스] [컴퓨텍스 2026] AGI, 세분화된 라인업으로 한국 메모리·스토리지 시장 공략
1
[컴퓨터] 엔비디아, 전 세계 AI 에이전트 구동 위한 ‘베라 CPU’ 출시
2
[컴퓨텍스] [컴퓨텍스 2026] 잘만테크, 기본기에 더해 체감할 수 있는 혁신을 추구한다
3
[이슈/논란] MissAV, 저작권 침해 소송에 직면: 사건 경위 및 성인 스트리밍 업계에 미치는 영향
4
[이슈/논란] 윈도우 11업데이트 조심하세요. (KB5089549) (26200.8457)
5
[일상/생활] 일본인들, 한국의 조선총독부 철거 이유 눈치 채다
6
[가전] 밀레코리아, 상판 전체 활용 ‘풀서피스(Full-surface) 인덕션’ 출시
7
[컴퓨텍스] [컴퓨텍스 2026] 시소닉, AI시대를 가동하는 심장을 만든다
8
[컴퓨텍스] [컴퓨텍스 2026] Altos, Acer의 AI 서버 전략을 한국 시장으로 가져오다
9
[컴퓨텍스] [컴퓨텍스 2026] KLEVV, SK hynix 기반 위에 브랜드 감각을 입히다
10
[일상/생활] 본격적인 여름의 시작이네요
11
[일상/생활] 철권 텍킹 달성 후기: 상위 스테이지 진입 완전 무력함
12
[일상/생활] 예비군 불참 잡는 경찰의 현장
13
[일상/생활] 여사친을 여자로 인식하지 못하는 뇌 속 남성
14
[컴퓨텍스] [컴퓨텍스 2026] 믿고 선택할 수 있는 브랜드 인식 만들겠다, 김상엽 과장 인터뷰
15
[컴퓨텍스] [컴퓨텍스 2026] Leadtek, 쿼드로의 기억을 AI 인프라로 확장하다
16
[컴퓨텍스] [컴퓨텍스 2026] G.SKILL, 오버클럭 문화 위에서 고성능 메모리의 다음 영역을 보다
17
[일상/생활] 국내 자생종인데 왜 눈에 안 띄는가
인텔 코어 울트라7
삼성이 현실 업무 생산성에 초점을 맞춘 AI 벤치마크 ‘TRUEBench(Trustworthy Real-world Usage Evaluation Benchmark)’를 공식 발표했다. 삼성리서치가 개발한 TRUEBench는 대규모 언어 모델(LLM)이 실제 직장 환경에서 얼마나 생산적으로 작동하는지를 평가하기 위해 설계됐으며, GPT-5가 첫 리더보드에서 선두를 기록했다. TRUEBench는 기존 벤치마크가 가진 한계를 정면으로 겨냥했다. 기존 평가 방식은 단순한 질의응답 구조와 영어 중심의 테스트에 치우쳐 실제 업무 환경을 충분히 반영하지 못한다는 지적이 있었다. 삼성은 이를 개선하기 위해 10개 평가 카테고리와 46개 세부 항목, 12개 언어(한국어 포함), 그리고 2,485개 테스트 세트를 마련했다. 이 테스트는 짧게는 8자에서 길게는 2만 자 이상에 이르는 요청을 포함해, 단순 질의부터 대규모 문서 요약에 이르는 다양한 난이도를 아우른다. 평가 과정도 차별화됐다. TRUEBench는 단순히 정답 여부를 따지지 않고, 사용자가 명시하지 않은 암묵적 요구 조건까지 충족하는지를 고려한다. 평가 기준은 사람과 AI의 협업으로 다듬어진다. 먼저 사람이 기준을 세우고, AI가 이를 검토해 오류와 모순을 찾아내면 다시 사람이 보완하는 과정을 반복한다. 이렇게 교차 검증된 기준을 토대로 AI 자동 평가가 이루어지며, 모든 조건을 충족해야 통과할 수 있어 세밀하고 일관된 점수가 산출된다. 삼성리서치는 이번 발표에서 “실제 업무 환경에서의 AI 활용 경험을 바탕으로 한 TRUEBench가 생산성 평가의 표준을 제시하고, 삼성의 기술적 리더십을 강화할 것”이라고 강조했다. 특히 GPT-5가 초기 리더보드에서 가장 높은 점수를 기록해, 향후 경쟁 모델과의 비교에서도 중요한 기준점이 될 것으로 전망된다. TRUEBench의 데이터 샘플과 리더보드, 평균 응답 길이 정보는 오픈소스 플랫폼 허깅페이스(Hugging Face)에서 공개되며, 최대 5개의 모델을 동시에 비교할 수 있다. 이로써 기업과 개발자는 성능과 효율성을 한눈에 파악하며 모델 선택에 참고할 수 있을 것으로 보인다. 삼성은 TRUEBench가 단순한 성능 수치 이상의 현실적 지표를 제공해, 업무 환경에 최적화된 AI 모델을 선별하고 발전시키는 데 중요한 역할을 할 것으로 기대하고 있다. 구경하러가기. https://huggingface.co/spaces/SamsungResearch/TRUEBench
2025.09.25
0
0
구매후기이벤트
  • 종합
  • 뉴스/정보
  • 커뮤니티
  • 질문/토론