Benchmark Kimi K2.6: mạnh ở code, chưa đủ bằng chứng cho reasoning tổng quát | Answer