빌런 TOP 20
일간 l 주간 l 월간
1
[인플루언서/BJ] 넷플릭스 불량연애 출연자 과거 논란
2
[성인정보] 현재 성인 웹툰 추천 티어표
3
[이슈/논란] [충격] 유명 런닝화 호카 총판 대표 폭력, 하청업체 관계자 폐건물로 불러 폭행
4
[인공지능] 구글, AI 프로 요금제 59% 할인
5
[르포/기획] 2025년 게이밍 PC용 메인보드 추천 6선
6
[PC게임] 란스 시리즈 - 스팀판 트레일러
7
[컴퓨터] MSI 엔비디아 RTX 5090 그래픽카드, 16핀 전원 커넥터 실화로 손상
8
[설문조사] [빌런 설문조사] 가장 가지고 싶은 30만원 이하 27인치 QHD 게이밍 모니터는?
9
[PC게임] [2025 BEST 게임 어워드] Escape from Duckov - 덕코프 행복 줍줍 게임
10
[컴퓨터] AMD 9950X3D2 CPU 벤치마크 결과 유출
11
[컴퓨터] 메모리 공급 부족 사태 마이크로소프트 경영진 격분, 구글은 구매 책임자 해고
12
[모바일] 삼성전자, 독자 GPU 개발 성공...AI 생태계 확장
13
[게임] 2026년 게임시장 판을 흔들 출시작
14
[가전] 삼성 프리스타일+ 휴대용 프로젝터, CES 2026 첫 공개 예정
15
[컴퓨터] 삼성전자, ‘갤럭시 북6 시리즈’ 공개
16
[이벤트] 1월 베스트 빌런 댓글러를 찾습니다.
17
[컴퓨터] D램 메모리 제조사, 고객 ‘선별 공급’ 단계로 진입
18
[후방/은꼴] 스타워즈를 참 좋아합니다.
19
[컴퓨터] AMD 차세대 RDNA 5 라데온 GPU, 2027년 중반 출시 전망
20
[이벤트] 슈퍼플라워 2025 하반기 설문조사 이벤트 진행
인텔 코어 울트라7
블룸버그 보도에 따르면, 애플은 개편된 버전의 시리를 테스트하기 위해 엔지니어들을 대상으로 ChatGPT와 유사한 앱을 설계했다. 다만 이 시리 앱은 일반에 공개되지 않고 내부 테스트용으로만 활용될 예정이다. 이 앱은 맥락 이해 능력 강화, 앱 내·앱 간 작업 수행 확대, 개인 데이터와의 깊은 통합 등 애플이 계획 중인 새로운 시리 기능을 시험하는 데 쓰이고 있다. 앱의 형태는 다른 챗봇 애플리케이션과 유사하며, 주제별 대화를 구분해 여러 대화를 관리할 수 있다. 또한 과거 대화를 기억하고 참조할 수 있으며, 확장된 대화도 지원한다. 애플은 iOS 18 출시 이후 더 똑똑한 버전의 시리를 개발해왔다. 당초 ‘Apple Intelligence 시리’를 업데이트에 포함해 공개할 계획이었지만, 자사 기준에 미치지 못해 2026년으로 기능 공개를 연기했다. 결국 해당 계획은 폐기됐고, 애플은 LLM(대규모 언어 모델) 전환을 가속화하기 위해 시리를 2세대 아키텍처로 전면 개편하기로 했다. 새롭게 선보일 시리는 ChatGPT, Claude, Gemini 등 최신 AI 챗봇과 유사한 고도화된 LLM을 활용한다. 이를 통해 연속적인 대화 유지, 인간에 가까운 답변 제공, 더 복잡한 작업 수행 등이 가능해질 전망이다. 애플은 2026년 초 iOS 26.4 업데이트(3월 공개 예상)와 함께 LLM 버전 시리를 출시할 계획이다. 이는 당초 목표했던 일정보다 1년 늦은 공개다. 또한 내년 말에는 시리의 디자인을 새롭게 선보일 예정인데, 맥의 파인더 로고와 비슷한 ‘휴머노이드’ 스타일이 될 가능성이 거론된다. 애플은 앤스로픽, 오픈AI, 구글 등과 논의를 진행해왔으며, 자사 모델이 아닌 외부 파트너사의 기술을 활용해 새로운 시리를 구동할 가능성도 있는 것으로 알려졌다. https://www.macrumors.com/2025/09/26/apple-llm-siri-app/
2025.09.27
6
1
삼성이 현실 업무 생산성에 초점을 맞춘 AI 벤치마크 ‘TRUEBench(Trustworthy Real-world Usage Evaluation Benchmark)’를 공식 발표했다. 삼성리서치가 개발한 TRUEBench는 대규모 언어 모델(LLM)이 실제 직장 환경에서 얼마나 생산적으로 작동하는지를 평가하기 위해 설계됐으며, GPT-5가 첫 리더보드에서 선두를 기록했다. TRUEBench는 기존 벤치마크가 가진 한계를 정면으로 겨냥했다. 기존 평가 방식은 단순한 질의응답 구조와 영어 중심의 테스트에 치우쳐 실제 업무 환경을 충분히 반영하지 못한다는 지적이 있었다. 삼성은 이를 개선하기 위해 10개 평가 카테고리와 46개 세부 항목, 12개 언어(한국어 포함), 그리고 2,485개 테스트 세트를 마련했다. 이 테스트는 짧게는 8자에서 길게는 2만 자 이상에 이르는 요청을 포함해, 단순 질의부터 대규모 문서 요약에 이르는 다양한 난이도를 아우른다. 평가 과정도 차별화됐다. TRUEBench는 단순히 정답 여부를 따지지 않고, 사용자가 명시하지 않은 암묵적 요구 조건까지 충족하는지를 고려한다. 평가 기준은 사람과 AI의 협업으로 다듬어진다. 먼저 사람이 기준을 세우고, AI가 이를 검토해 오류와 모순을 찾아내면 다시 사람이 보완하는 과정을 반복한다. 이렇게 교차 검증된 기준을 토대로 AI 자동 평가가 이루어지며, 모든 조건을 충족해야 통과할 수 있어 세밀하고 일관된 점수가 산출된다. 삼성리서치는 이번 발표에서 “실제 업무 환경에서의 AI 활용 경험을 바탕으로 한 TRUEBench가 생산성 평가의 표준을 제시하고, 삼성의 기술적 리더십을 강화할 것”이라고 강조했다. 특히 GPT-5가 초기 리더보드에서 가장 높은 점수를 기록해, 향후 경쟁 모델과의 비교에서도 중요한 기준점이 될 것으로 전망된다. TRUEBench의 데이터 샘플과 리더보드, 평균 응답 길이 정보는 오픈소스 플랫폼 허깅페이스(Hugging Face)에서 공개되며, 최대 5개의 모델을 동시에 비교할 수 있다. 이로써 기업과 개발자는 성능과 효율성을 한눈에 파악하며 모델 선택에 참고할 수 있을 것으로 보인다. 삼성은 TRUEBench가 단순한 성능 수치 이상의 현실적 지표를 제공해, 업무 환경에 최적화된 AI 모델을 선별하고 발전시키는 데 중요한 역할을 할 것으로 기대하고 있다. 구경하러가기. https://huggingface.co/spaces/SamsungResearch/TRUEBench
2025.09.25
0
0
신규회원모집이벤트
  • 종합
  • 뉴스/정보
  • 커뮤니티
  • 질문/토론