빌런 TOP 20
일간 l 주간 l 월간
1
[출석/가입] 하루에 한번 단한번의 클릭!
2
[일상/생활] 도른자의 새해 쇼핑
3
[인공지능] AI 영상 광고·숏폼 공모전 대상
4
[컴퓨터] 키오시아, 차세대 플래시를 채용한 성능향상 SSD 공개
5
[일상/생활] 처음으로 중고컴 조립해보네요..
6
[기타핫딜] 물하나 ECO 무라벨 생수 2L × 24병 — 와우할인 9,690원
7
[전자부품] 인텔, ‘팬서 레이크’ 마이크로아키텍처 심층 분석 10월 공개… 2026년 정식 출시
8
[전자부품] 인텔 차세대 팬서 레이크 GPU, 루나 레이크 대비 최대 50% 성능 우위
9
[컴퓨터] AMD, 스트릭스 포인트(Strix Point) APU 라이젠 12코어 Zen 5 기반으로 출시 예고
10
[컴퓨터] 1440p 대응! 팔릿 RTX 5060Ti 인피니티3 OC 16GB 그래픽카드 써보니
11
[컴퓨터] RAM 가격 폭등에 메인보드 판매량 절반으로 줄다. CPU 시장도 충격 불가피
12
[반도체] TSMC, 1나노 공정에 High-NA EUV 대신 ‘포토마스크 펠리클’ 채택
13
[컴퓨터] 5만원에 RTX 5050 그래픽카드 구매하세요! 조텍 1월 래플 이벤트 진행
14
[조텍탁탁몰] 🔥 조텍×빌런 오픈 이벤트! RTX5090 포함 총 1,000만원 경품 쏜다!🔥
15
[컴퓨터] [SKULL] 뭘 좋아할지 몰라 다 준비해봤습니다. 풀모듈러/세미모듈러/풀와이어 PSU
16
[모바일] 아이폰 에어·아이폰 17 프로, 내구성 테스트서 전작보다 우위
17
[기술] 삼성전자, 매일유업과 협업한 갤럭시 버즈3 시리즈 아몬드브리즈 케이스 출시
1
[인플루언서/BJ] 넷플릭스 불량연애 출연자 과거 논란
2
[성인정보] 현재 성인 웹툰 추천 티어표
3
[이슈/논란] [충격] 유명 런닝화 호카 총판 대표 폭력, 하청업체 관계자 폐건물로 불러 폭행
4
[인공지능] 구글, AI 프로 요금제 59% 할인
5
[PC게임] 란스 시리즈 - 스팀판 트레일러
6
[컴퓨터] MSI 엔비디아 RTX 5090 그래픽카드, 16핀 전원 커넥터 실화로 손상
7
[설문조사] [빌런 설문조사] 가장 가지고 싶은 30만원 이하 27인치 QHD 게이밍 모니터는?
8
[PC게임] [2025 BEST 게임 어워드] Escape from Duckov - 덕코프 행복 줍줍 게임
9
[컴퓨터] AMD 9950X3D2 CPU 벤치마크 결과 유출
10
[컴퓨터] 메모리 공급 부족 사태 마이크로소프트 경영진 격분, 구글은 구매 책임자 해고
11
[모바일] 삼성전자, 독자 GPU 개발 성공...AI 생태계 확장
12
[게임] 2026년 게임시장 판을 흔들 출시작
13
[가전] 삼성 프리스타일+ 휴대용 프로젝터, CES 2026 첫 공개 예정
14
[컴퓨터] 삼성전자, ‘갤럭시 북6 시리즈’ 공개
15
[이벤트] 1월 베스트 빌런 댓글러를 찾습니다.
16
[컴퓨터] D램 메모리 제조사, 고객 ‘선별 공급’ 단계로 진입
17
[후방/은꼴] 스타워즈를 참 좋아합니다.
18
[컴퓨터] AMD 차세대 RDNA 5 라데온 GPU, 2027년 중반 출시 전망
19
[이벤트] 슈퍼플라워 2025 하반기 설문조사 이벤트 진행
20
[PC게임] 한국게임사 다큐 [세이브 더 게임] 예고편
인텔 코어 울트라7
삼성이 현실 업무 생산성에 초점을 맞춘 AI 벤치마크 ‘TRUEBench(Trustworthy Real-world Usage Evaluation Benchmark)’를 공식 발표했다. 삼성리서치가 개발한 TRUEBench는 대규모 언어 모델(LLM)이 실제 직장 환경에서 얼마나 생산적으로 작동하는지를 평가하기 위해 설계됐으며, GPT-5가 첫 리더보드에서 선두를 기록했다. TRUEBench는 기존 벤치마크가 가진 한계를 정면으로 겨냥했다. 기존 평가 방식은 단순한 질의응답 구조와 영어 중심의 테스트에 치우쳐 실제 업무 환경을 충분히 반영하지 못한다는 지적이 있었다. 삼성은 이를 개선하기 위해 10개 평가 카테고리와 46개 세부 항목, 12개 언어(한국어 포함), 그리고 2,485개 테스트 세트를 마련했다. 이 테스트는 짧게는 8자에서 길게는 2만 자 이상에 이르는 요청을 포함해, 단순 질의부터 대규모 문서 요약에 이르는 다양한 난이도를 아우른다. 평가 과정도 차별화됐다. TRUEBench는 단순히 정답 여부를 따지지 않고, 사용자가 명시하지 않은 암묵적 요구 조건까지 충족하는지를 고려한다. 평가 기준은 사람과 AI의 협업으로 다듬어진다. 먼저 사람이 기준을 세우고, AI가 이를 검토해 오류와 모순을 찾아내면 다시 사람이 보완하는 과정을 반복한다. 이렇게 교차 검증된 기준을 토대로 AI 자동 평가가 이루어지며, 모든 조건을 충족해야 통과할 수 있어 세밀하고 일관된 점수가 산출된다. 삼성리서치는 이번 발표에서 “실제 업무 환경에서의 AI 활용 경험을 바탕으로 한 TRUEBench가 생산성 평가의 표준을 제시하고, 삼성의 기술적 리더십을 강화할 것”이라고 강조했다. 특히 GPT-5가 초기 리더보드에서 가장 높은 점수를 기록해, 향후 경쟁 모델과의 비교에서도 중요한 기준점이 될 것으로 전망된다. TRUEBench의 데이터 샘플과 리더보드, 평균 응답 길이 정보는 오픈소스 플랫폼 허깅페이스(Hugging Face)에서 공개되며, 최대 5개의 모델을 동시에 비교할 수 있다. 이로써 기업과 개발자는 성능과 효율성을 한눈에 파악하며 모델 선택에 참고할 수 있을 것으로 보인다. 삼성은 TRUEBench가 단순한 성능 수치 이상의 현실적 지표를 제공해, 업무 환경에 최적화된 AI 모델을 선별하고 발전시키는 데 중요한 역할을 할 것으로 기대하고 있다. 구경하러가기. https://huggingface.co/spaces/SamsungResearch/TRUEBench
2025.09.25
0
0
인사이 댓글 이벤트
  • 종합
  • 뉴스/정보
  • 커뮤니티
  • 질문/토론