The great end of life is not knowledge, but action.

文章时间线

2025-03-17 技术
阅读时间:12 分钟

深入解析DeepSeek-V3 模型显存占用计算

DeepSeek-V3是一个拥有6710亿参数的大型语言模型,采用混合专家系统(MoE)架构设计。本文将分析该模型在推理过程中的显存需求,基于官方推理代码和配置文件进行计算。模型使用fp8数据类型,每个参数占1字节。

技术 DeepSeek transformer
阅读全文
2025-03-15 技术
阅读时间:5 分钟

DeepSeek-R1: 推理能力的新突破

随着大语言模型(LLM)的飞速发展,越来越多的研究者开始探索如何提升模型的推理能力、响应一致性和可读性。最近,DeepSeek-R1作为一种全新的AI模型在这一领域引起了广泛关注。今天,我们就来深入了解DeepSeek-R1及其创新的训练方法。

技术 DeepSeek-R1
阅读全文
2024-12-07 技术
阅读时间:8 分钟

Redis Cluster异常情况下的数据安全性分析

Redis Cluster作为一种分布式解决方案,在提供高可用性的同时,也面临着数据一致性的挑战。本文将深入分析Redis Cluster在异常情况下的数据安全性问题,特别是在网络分区和主备切换场景下可能出现的数据丢失风险,并提供相应的解决方案。

技术 redis
阅读全文