คำตอบเผยแพร่แล้ว19 ชั่วโมงที่ผ่านมาLast edited 17 ชั่วโมงที่ผ่านมา26 แหล่งที่มา

Xiaomi MiMo ทะลุ 1,000 Tokens/วินาที บนโมเดลระดับล้านล้านพารามิเตอร์ด้วย GPU มาตรฐาน

Xiaomi และ TileRT ประกาศเปิดตัว MiMo V2.5 Pro UltraSpeed ในเดือนมิถุนายน 2026 นับเป็นโมเดลระดับล้านล้านพารามิเตอร์ตัวแรกของโลกที่ทำความเร็วในการถอดรหัส (Decode) ทะลุ 1,000 tokens ต่อวินาที บนเซิร์ฟเวอร์ GPU มาตรฐาน 8... ความเร็วระดับนี้เกิดขึ้นได้จากการทำงานร่วมกันของ 3 เทคนิคหลัก ได้แก่ การทำ FP4 Mixed Precision Qu...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI ดูหน้าที่กำลังมาแรงเพิ่มเติม

29K0

Conceptual visualization of Xiaomi MiMo-V2.5-Pro-UltraSpeed achieving over 1,000 tokens per second on a trillion-parameter model using standard GPUs. — What did Xiaomi announce on June 6, 2026 regarding MiMo-V2.5-Pro-UltraSpeed, including the specific tokens-per-second milestone achieved onA conceptual representation of high-speed AI inference on standard GPU hardware.
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: What did Xiaomi announce on June 6, 2026 regarding MiMo-V2.5-Pro-UltraSpeed, including the specific tokens-per-second milestone achieved on. Article summary: On **June 8, 2026** (with major reports appearing on June 9), Xiaomi's MiMo team, in collaboration with TileRT, announced **MiMo-V2.5-Pro-UltraSpeed** — a new high-speed inference mode for its trillion-parameter flagship. Topic tags: general, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "# Xiaomi rolls out MiMo V2.5 with multimodal AI and improved efficiency. Xiaomi has introduced its MiMo-V2.5 model family, adding multimodal capabilities and advancing its push int" source context "Xiaomi rolls out MiMo V2.5 with multimodal AI and improved efficiency" Reference image 2: visual subje
openai.com

เมื่อวันที่ 8 มิถุนายน 2026 ทีม Xiaomi MiMo และพันธมิตรด้านการประมวลผล TileRT ได้เปิดตัว MiMo-V2.5-Pro-UltraSpeed ซึ่งเป็นโหมดการประมวลผลความเร็วสูงสำหรับตระกูลโมเดล MiMo-V2.5-Pro การประกาศครั้งนี้มาพร้อมกับคำกล่าวอ้างสำคัญเพียงข้อเดียว นั่นคือ โมเดลขนาด 1 ล้านล้านพารามิเตอร์ที่ทำความเร็วได้ทะลุ มากกว่า 1,000 โทเค็นต่อวินาที ซึ่ง Xiaomi ระบุว่าเป็นครั้งแรกที่ทำได้ในระดับนี้ โดยทำงานบนเซิร์ฟเวอร์ GPU มาตรฐาน 8 ตัว ไม่ใช่ฮาร์ดแวร์แบบสั่งทำพิเศษ

จุดเปลี่ยนสำคัญด้านความเร็ว

Xiaomi และ TileRT รายงานว่าสามารถรักษาความเร็วในการประมวลผล (Throughput) ได้สูงกว่า 1,000 โทเค็นต่อวินาทีอย่างต่อเนื่อง โดยในการสาธิตสามารถทำความเร็วสูงสุดถึง 1,200 โทเค็นต่อวินาที บนเซิร์ฟเวอร์ GPU มาตรฐาน 8 ตัว ความสำเร็จนี้ทำลายสิ่งที่ Xiaomi เรียกว่า "สามเหลี่ยมที่เป็นไปไม่ได้" ของอุตสาหกรรม ซึ่งก็คือการผสมผสานระหว่างความเร็ว ความสามารถ และความเข้ากันได้กับ GPU ทั่วไปให้เกิดขึ้นพร้อมกันได้ คุณ Lei Jun ซีอีโอของ MiMo ได้เน้นย้ำถึงจุดเปลี่ยนนี้ผ่านโพสต์บนโซเชียลมีเดีย โดยอธิบายว่าเป็นครั้งแรกในอุตสาหกรรมที่โมเดลพารามิเตอร์ระดับล้านล้านสามารถข้ามผ่านความเร็ว 1,000 โทเค็น/วินาทีได้

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Xiaomi MiMo ทะลุ 1,000 Tokens/วินาที บนโมเดลระดับล้านล้านพารามิเตอร์ด้วย GPU มาตรฐาน" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Xiaomi ได้ปล่อยโมเดลพื้นฐาน MiMo V2.5 Pro FP4 DFlash เป็นโอเพนซอร์ส พร้อมกับเปิดให้ดาวน์โหลด FP4 Weights และ DFlash Checkpoints บน HuggingFace ตอกย้ำแนวทางของ Xiaomi ในการทำให้การประมวลผลความเร็วสูงเข้าถึงได้ง่ายขึ้น...

แหล่งที่มา

Comments

0 comments

Loading comments...

Xiaomi MiMo ทะลุ 1,000 Tokens/วินาที บนโมเดลระดับล้านล้านพารามิเตอร์ด้วย GPU มาตรฐาน

จุดเปลี่ยนสำคัญด้านความเร็ว

Search, cite, and publish your own answer

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Xiaomi MiMo ทะลุ 1,000 Tokens/วินาที บนโมเดลระดับล้านล้านพารามิเตอร์ด้วย GPU มาตรฐาน" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

แหล่งที่มา

Comments

เบื้องหลัง 3 เทคนิคที่เร่งความเร็วทะลุขีดจำกัด

1. FP4 Mixed-Precision Quantization

2. DFlash Speculative Decoding

3. TileRT Persistent Kernel Engine กับการแยกหน้าที่ของ Warp

ราคา: "จ่าย 3 เท่า แต่ได้ประสบการณ์เร็วขึ้น 10 เท่า"

เปิดให้ทดลองใช้แบบจำกัดเวลาและเงื่อนไข

การเปิดตัวเป็นโอเพนซอร์ส

สิ่งนี้มีความหมายอย่างไรสำหรับนักพัฒนา