Deepseek v3.2... phiên bản mã nguồn mở SOTA mới (ngày 1 tháng 12)
Một dòng thông tin tinh gọn Vừa rồi tôi nghiên cứu về đợt phát hành của deepseek trên tàu điện ngầm...
Dưới đây là tổng hợp nhanh,
1/ Đợt phát hành lần này của Deepseek, hiệu quả thực tế thực sự rất ấn tượng.
- Chắc chắn là mã nguồn mở SOTA;
- Các năng lực đều tương đương các mô hình tiên tiến nhưng không công khai mã nguồn;
2/ Về mặt kỹ thuật thì không phải quá mới,
- Vẫn tiếp tục sử dụng DSA + post train chiếm hơn 10% cũng không phải tin tức lớn;
- Thông tin bổ sung là, sử dụng các yếu tố trong bản thử nghiệm v3.2 trước, ra được kết quả tốt như vậy, trực tiếp sánh ngang với gemini3.0 loại SOTA mới nhất;
- Hiện tại các bài báo học thuật đã không dễ dàng thúc đẩy câu chuyện thị trường; lần này sức mạnh thực tế sẽ trực quan hơn.
3/ Mối lo ngại lớn nhất của mọi người là sụp đổ sức mạnh tính toán? Không hề tồn tại.
Theo deepseek tự nói,chúng ta vẫn còn khoảng cách với các mô hình tiên tiến nhất.
Nhìn ở góc độ khác, “hào lũy tri thức” ở tầng mô hình là rất mong manh,sức mạnh tính toán vẫn là nhân tố tạo khác biệt.
Ý kiến của nhà nghiên cứu Deepseek Zhibin Gou; gemini3 chứng minh pretrain...deepseek 3.2 chứng minh RL;
Tiếp tục mở rộng quy mô ở mọi tầng; đừng để sự ồn ào của việc “đụng tường” gây nhiễu.
RL nặng hơn, CoT dài hơn, tiêu tốn sức mạnh tính toán khi suy luận nhiều hơn;sẽ không kết luận câu chuyện “giảm phát sức mạnh tính toán”.
4/ Nhìn từ góc độ ứng dụng... chắc chắn là tín hiệu tích cực. Trích lời một thành viên cộng đồng,
-
“Nhu cầu về sức mạnh tính toán là vô tận, thực ra chi phí token hiện nay giá trị sử dụng rất thấp, chỉ có thể thông qua đổi mới phần cứng và mô hình để giảm chi phí theo cấp số nhân mới có thể áp dụng quy mô lớn”
-
Đối với các công ty muốn xây dựng “hào lũy ứng dụng” bằng “năng lực mô hình” (ví dụ như OAI nào đó),thì đây lại là một sự suy yếu lớn về mặt câu chuyện.
5/ Deepseek tự nhận hiệu quả sử dụng tokens là “inferior”...Ở phiên bản Speciale này, số lượng tokens sử dụng nhiều hơn...(khung đỏ ở đó)...
6/ Phần “easter egg”, Zhibin Gou nói họ mất một năm để đẩy v3 lên cực hạn... một số thành viên cộng đồng trên nhóm WeChat của Tinh cầu cho rằng, đã vắt kiệt v3,phiên bản tiếp theo cuối cùng cũng sắp lên v4 rồi?
7/ Hôm nay dường như là kỷ niệm 3 năm ra mắt ChatGPT...
Tối nay thị trường có lẽ sẽ khá biến động... một số yếu tố vĩ mô lộn xộn từ Nhật Bản + BTC khuấy động;
Sự kiện xúc tác nhỏ tiếp theo có thể là re:invent của Amazon; sáng nay trong nhóm cũng có một chút dự báo trước.
Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.
Bạn cũng có thể thích
AUD/USD duy trì đà tăng ngay cả sau khi điều chỉnh hôm nay – Rabobank
Thanh lý tiền mã hóa vượt 477 triệu đô la khi Bitcoin giảm xuống dưới 90.000 đô la
Shell Báo Cáo Kết Quả Giao Dịch Dầu Mỏ Ổn Định
