S7 运算板维修指导
文件编号
维修项目 S7 运算板
文件版本 V1.4
维修指导
世纪云芯 日期:2015.09.08
邓益政
拟编
审核
批准
第 5 册
共 7 页
文件类别:维修方案
文件名称:S7 运算板维修指导(后期更新只修文件改版本号)
产品图号: AAA
本册内容:主要讲述对 S7 运算板各种故障进行排查,怎么利用测试盒子进行准确定位。
范围:适用于所有 S7 生产,售后,外协维修现场
一、 维修平台要求:
1、恒温烙铁(270 度-350 度),尖头烙铁头用于焊贴片电阻及二极管等小贴片。
2、底部加热平台,建议采用温度恒温,风量可调的热吹风,温度控制在 150 度~200 度之间,作为辅助加热;底部加热可提高更换芯片
的速度,同时降低风枪高温对芯片及 PCB 板的伤害。
3、直流稳压可调电源(12V、50A),可直观的观察到运算板启动过程的电流变化,有利于各种故障的定位。
4、万用表,摄子,A8 测试冶具(有条件的可配置示波器)。
5、助焊剂、洗板水加无水酒精;洗板水用于清理维修后助焊残留物及外观,无水酒精用于清理芯片上的 AB 导热胶。
6、植锡台,植锡网,锡浆;更换新的芯片时,必须要给芯片植锡。
7、Ab 型导热胶,用于维修后重新粘上散热片。
二、 作业要求事项:
1、 维修人员必须具备一定的电子知识,一年以上的维修经验,对 QFN 封装焊接技术掌握娴熟。
2、 维修后运行板必须测试两遍以上都为 OK,方可通过!
3、 更换芯片时确保芯片引脚周边的 AB 导热胶等杂质已清理干净,更换任何配件后 PCB 板无明显变形。
4、 确定本工位维修对象与相应测试软件参数、测试冶具。
5、 检查工具,冶具是否能正常工作。
三、原理与结构:
●概述
1. S7 由 18 个电压域串联而成,每个电压域有 3 颗 BM1385 芯片,全板共有 54 颗 BM1385 芯片。
2. BM1385 芯片内置了降压二极管,带降压二极管功能的由芯片指定引脚决定。
3. S7 是 18 个电压域(S5+是 16 个电压域);且每个电压域都有独立的 25M 时钟电路,使得每个电压域能轻松达到平衡(与 S5+略同)。
4. S7 每个芯片正反面都有独立小散热片,小散热片与芯片及 PCB 板是由一种导热性能很好的 AB 胶进行固定。
需要注意的是:
在维修过程中,在对电板元件、或者芯片进行更换时,为了减少风枪高温对 PCB 板与芯片的伤害,必需先将故障元件附近的小散热片,及 PCB 板
背面的小散热片取下来后,再进行更换。
后续的版本,PCB 板正反正都有测试点,生产时的维修,在 PBC 正面未贴散热片时,可使用正面测试点;成品维修(售后维修),由于 PBC 正面
布满散热片,需通过 PCB 反面测试点进行检测。
1
S7 运算板维修指导
●关键点分析:
下图为 S7 运算板的下面概况:图 1.
4、升压电路
3、电压域
2、芯片间信号流向
1、25M 晶振
29
30
11
31
28
10
27
26
9
32
24
25
35
36
41
42
47
12
34
13
37
14
40
15
43
16
46
33
23
38
18
39
17
44
12
45
11
8
22
19
7
6
16
5
13
10
4
21
20
15
14
09
48
53
00
17
49
18
52
1
01
50
07
3
08
51
06
05
02
03
04
2
5、1.8V LODVDD
1、25M 晶振:
图1.S7 运算板正面
6、BM1385 芯片及散热片
V1.4 前版本每个电压域都由一个独立晶振提供时钟,整板共 18 个晶振。如图 2
BM1385 7 脚为时钟输入,8 脚为时钟输出。
图2.每个电压域的晶振电
路
2
2、芯片间信号流向。
S7 运算板维修指导
如上图 1 所示,5 个信号包括:CLK IN( OUT)/CI(CO)/RI(RO)/BI(BO)/RST IN(RST OUT).
如箭头方向,除红色的 RI 信号为返回信号,由最后一个芯片(53 号)返回到第 1 个芯片(00 号),其他信号均是由 00 号芯片输出至 53 号
芯片。图下正向为白色箭头,红色为反向箭头。
3、电压域。
图 1 中,每个黄色方框为一个电压域,共 18 个电压域,平均每个电压域电压为 0.66V。图 1 中按数字标示出各个电压域的顺序。如下面图 3
图 4 所示:每个电压域的均由 3 个 BM1385 芯片,4.99 欧电阻及 1 个 330UF 电容并联而成。
图3.每个电压域并联电阻
图4.每个电压域并联电容
4、升压电路
15v 升压电路与以往 S5,S5+等一样,都是通过 RT8537 将 12v 升 15 电压。如下面原理图 5.
图5.每个电压域并联电容
如图 5 所示:U101 为升压 Ic RT8537,其第 4 脚产生的高频脉冲通过 L1 储能及 D24 整流后,升压为 15V。给最后 4 个电压域的 LOD 提供
15v 供电。
5、1.8V LODVDD
各电压域的 LOD 供电,除最后 4 组(15.16.17.18 个电压域)由升压电路的 15V 供电,其他的电压域的 LOD 供电各取自上 4 个电压域的核电压。
其输入电压相当 5 个电压域之和,0.66*5=3.3V。如下图 6 所示为 LOD LP2985-18 电路;1.2 脚供电输入,5 脚 1.8 脚输出。
而 PLL 电压(0.9V),皆取自 LOVDD,由 47 欧与 35 欧电阻分压所得。如下图 7 所示:
图6.每个电压域并联电容
图7.每个电压域并联电容
3
S7 运算板维修指导
6、BM1385 芯片及散热片
如图 8 所示:BM1385 芯片各脚功能。图 9 为 BM1385 电路。
图8.BM1385 引脚功能表
图9.BM1384 电路原理
由下图可以清楚看到各信号流程:
1、CLK 信号:由芯片 7 脚进,22 脚出。
2、TX 信号:由芯片 9 脚进,21 脚出;跨电压域连接时,由 10 脚进,21 出。
3、RX 信号:由芯片由 20 脚返回,11 脚输出;跨域连接时,由 19 脚返回,11 脚输出。
4、B 信号:由芯片 12 脚进,18 脚输出;跨域连接时,由 13 脚进,18 脚输出。
5、RST 信号:由芯片 14 脚进,17 脚输出;跨域连接时,由 14 脚进,17 脚输出。
供电:
1、VDD 芯片 30 脚,也是芯片底部两边;由 18 组芯片串联所得,每组 VDD 电压为:0.66V。
2、IO VDD 芯片 5、16 脚。由 LOD 稳压所得,电压为:1.8V。
3、PLL 芯片 3 脚。由 IO VDD经电阻分压所得。
S7 运算板,每个芯片正反面都相应贴着一个小散热片,芯片底部 PCB 板上的小散热片与相应电压域的地相连,检测,检修时,注意不同电压域的
散热片碰在一起。
4
引脚357.8911121461013152.4.31功能PLL VDDIO VDDCLKCI(TX)RO(RX)BIRST ICLK_ACI_ABI_ARST_AGND电压(V)0.91.80.91.81.81.81.80.91.81.81.80备注芯片底部中间部分为地引脚16171819202122232930功能IO VDDRST OBORI_ARICOCLK OADDR3TESTVDD电压(V)1.81.81.81.81.81.80.9000.66备注内置二极管下拉底部两边内置二极管,同个电压域时接地,跨域接入时为1.8
S7 运算板维修指导
●检测注意事项:
测试点与注意事项:
如图 10 所示:
1、不同电压域间测试归属及压差
2、同电压域共同测试点
3、不同电压域之间的测试点
图10.各测试点归属与注意事项
如图 10 所示:
黄色小长方形所圈的为各芯片测试点。
1、白色虚线部分是不同电压哉之间的空间,两散热片间的压差很大,特别是上下两排电压域(中间一排测试点)电压达到 6-7V,所以检修
时,除了求要表笔绝缘外,还要特别注意各测试的归属芯片。检测时,表笔不能同时碰到不同电压域的测试点与散热片。
2、箭头所指方向为该测试点对应的芯片,有双箭头的为共同测试点;可作为两个芯片之间的共同测试点。
3、单箭头的是跨域测试点,跨域测试一般为上一个电压域的测试点,也可当作相邻两个芯片间测试,但要注意跨域的压降问题。
●IO 口定义:
如下面图 11 运算板 IO 定义:
2.0 间距的 18PIN 插座。
5
S7 运算板维修指导
四、维修流程:
● 参考步骤:
观察外观
测量阻抗
测量电压
图11运算板 IO 口定义
制具
测试
检测各测试点
电压及供电
根据检测
定位故障
点
定位到芯片,先重
焊,重焊无效更换
Ok 后进行相关老化
作好故障
类型记录
没 让 两 遍 以 上 Ok
方可算修好
1、常规检测:
首先,先对待修运算板进行目测,观察是否有小散热片移位,变形,烧焦的现象?若有必须先行处理;小散热片移位的,先拆拆下来后,洗
去原胶,维修通过后再重新粘胶。
其次,目测没问题后,可先各电压域的阻抗进行检测,检测是否有短路、或开路情况。如有发现,必先行处理好。
再次,检测各电压域电压是否都达到 0.6v 以上,各电压域电压差异不得超过 1V。某电压域电压过高或者过低的,其相邻电压域的电路一般
都存在异常现象。需先排查原因。
2、常规检测没问题后(一般常规检测的短路检测是必须的,以免通电时因短路而烧坏板子),可用测试盒子进行芯片检测,并根据测试盒子检测
结果进行判断定位。
3、根据测试盒子检测的显示结果,从故障芯片附近开始,检测芯片测试点(CLK IN OUT/TX IN OUT/RX IN OUT/B IN OUT/RST IN OUT) 及 IO VDD,
PLL VDD 等电压。
4、再根据信号流向,供电次序找到异常的故障点。
5、定位至故障芯片时,需将芯片重新溶焊。方法是在芯片周围加上助焊剂后(最好是免洗助焊剂),将芯片引脚各焊点加热至溶解状态下,上下
左右轻轻的移动,按压芯片;促使芯片引脚与焊盘重新魔合,收锡。以达到重新着锡的效果。
假如重新上焊之后,故障还是同样,可直接更换芯片。
6、修复之后的运算板,测试盒子检测时,必需两次以上。前后两次测试时间:第一次,在更换配件完成后,稍微等运算板温度降下来后,通过测
试通过后,先放一边。第二次,隔几钟等运算板完全冷却后,再进行测试。虽然两次测试的时间有几钟时间,但这样并不影响到工作。将修好的
板子放一边,继续修第二块板,等第二块板修好放置一边冷却,再对第一块进行测试。这样时间只是错开,并没有耽误了总时长。
7、修好的板子。需要将故障分类,并做好更换元件型号、位置、原因等方面的记录。以备反馈回生产、售后、研发。
8、记录好后,再装成整机进行正规老化。
五 故障类型:
由于 BM1385 的芯片工艺及优化已经达到极致,默认时钟与内核又是处于关闭状态。所以除焊接,外围元件开路,短路外已经较少出现各电压域
电压不平衡、零算力等情况。
S7 常见故障类型有:
1、掉散热片、散热片移位、变型;
通电前不允许运算板芯片背面的 PCB 板上的散热片移位,相碰,特别是不同电压的散热片。不同电压域的散热片接触到就意味有不同电压
点短路的可能。而且确定运算板上的每一块散热片导热良好,固定牢固。
更换或重新上散热片时,需将散热片、芯片上的残留胶清理干净后再重新上胶,残留的导热胶可以用无水酒精清理。
2、各电压域阻抗不平衡;
当某些电压域的阻抗偏离正常值时,说明了异常电压域有零件存在开路、短路现象。一般芯片导致的可能性最大。但每个电压域的芯片有
三个,往往故障时,出问题的只一个。把问题芯片找出来的方法可以检测对比通过各芯片的测试点对地阻抗找到异常点。
如若碰到短路现象,可先同一电压哉芯片上的散热片先行拆下,然后观察芯片引脚有无连锡现象。
如果外观找不到短路点,可以根据电阻法或者电流截流法找短路点。
3、电压域电压不平衡;
6
S7 运算板维修指导
当某些电压域电压过高或过低时,一般是其异常电压域或者相邻电压域存在 IO 信号异常的情况,导致一下个或者下一个电压域工作状态异
常而电压失衡。只要通过检测各测试点的信号及电压即可找出异常点,个别的需要通过各测试点阻抗对比找出来异常点。
特别要注意,CLK 信号与 RST 信号,这两个异常最容易导致电压失衡。
4、缺少芯片;
缺少芯片是测试盒子在检测时,检测不到全部的 54 个芯片,往往只检测到 50~53 个芯片。而实际丢失的(检测不到)的异常芯片却不在
50~54 的位置上,此时就需要通过测试对异常芯片进行准确定位。
定位方法可以用 TX 截止下发的方式,找着异常芯片的位置。就是将某芯片的 TX 信号对地,例如:将第 50 个芯片的 TX 输出对该电压域的
地之后,理论上如果前面所有芯片正常的话,测试盒子里应该显示检测到 50 个芯片?如果检测不到 50 个芯片,说明异常在第 50 个芯片之前;
如果检测到 50 个芯片,说明异常芯片在第 50 个芯片之后。以此类推用二分法找出异常芯片所在位置。
5、断链;
断链跟缺少芯片类似,但断链并不是找不着芯的芯片都异常,而是因为某一个芯片异常而导致异常芯片后面的所有芯片失效。比如某个芯
片本身是能工作的,但它不会转发其他芯片信息;这时,整个信号链到此处就会戛然而止,失去很大一部分,就是断链。
断链一般测试盒子是可以显示出来的,比如:测试盒子在检测芯片的时候,只检测到 14 个芯片,测试盒子里如果检测不到预设的芯片数量
时是运行不起来的,所以只会显示检测到多少芯片,此时只要根据显示的数字“14”,在第 14 个芯片前后检测各测试点的电压及阻抗就能找到问
题所在。
6、不运行;
不运行是指测试盒子检测不到运算板的芯片信息,而显示 NO hash board;此现象情最为常见,涉及的故障范围也较广。
1)、某个电压域电压异常引起的不运行;
可通过测量各电压域的电压找出问题。
2)、某个芯片异常引起
可通过测量各测试点信号找到异常。
CLK 信号:0.9V;信号由 00 号芯片输出到 53 号芯片,但目前版本是每个一电压域都有一组晶振,哪个芯片的 LCK 异常了都不会影响到一个
电压。所以需要测量各电压域 CLK,测量时,只要检测各电压域的第 3 个芯片即可,第 3 个芯片 LCK 正常,说明芯片所在电压域的其他 LCK 都是
正常的。
TX 信号:1.8V;此信号是由 00、01、、、、、、52、53 号芯片的,当二分法某个点异常时向前检测即可。
RX 信号:1.8V;此信号是由 53、52、、、、、、01、00 号返回的,当二分法某个点异常时向后检测即可。
Bi 信号:0V,运行时有脉冲(直流值能测量 0.3V 电压);此信号是在芯片检测到 Ri 返回信号正常时,才能被拉低为高电平,否则为高电平。
所以此信号优先级应放置在 RI(RX)信号后面,只有确定 RX 返回信号正常的情况下,才对此信号进行检测。由于信号流向是从 00、
01、、、、、、52、53 的,排查时,排查时也是后面往前面排查。
RST 信号:1.8V;此信号是直接决定芯片工作与否的信号,其优先级与 LCK 一样。在运算板通电并插上 IO 信号后,此信号就会从 00、01、、、、、、
52、53 的方向传输至最后一个芯片。当 RST 信号异常会导致所有信号都不正常的。
3)某个芯片 IO VDD 引起的。
可通过测量各电压的测试点判断某 IO 电压是否正常,一般情况下,IO 电压决定了各测试点的电压,当 IO 电压为 1.8V 时,其他电压域的各
测试点正常电压也为 1.8V。
4)某个芯片的 PLL 电压异常,此情况概率很少,但也偶尔会出现。可通过测量每个芯片第 3 脚傍边电容的电压来判断。
5)LDO 升压电路异常引起的
可直接测量运算板左上角 U101 的 C727 两端的电压是否有 15V,检测 U101 的外围零件及 U101 本身。
7、算力低;
算力低可分为:
1)测试盒子测试时,盒子接收到的 Nonce 不够,算力不足而显示 NG。此现象可直接通过测试盒子的串口打印信息看到每个芯片返回 Nence
数量多少进行判断,一般返回 Nence 数低于设定值的芯片都应该进行故障排查,排除非虚焊,外围原因以外,可直接更换芯片。
2)测试盒子测试时,但装整机后出现算力偏低。此种情况大部分都跟芯片的散热条件有关系,需要特别注意各芯片的小散热片用胶,及整机
的通风性能。另一种原因就是某个芯片的电压处于临界,装整机后,12V 供电与测试时的供电有差异导致测试算力与运行算力有偏差,可通过
调低后用测试盒子测试,稍微调电压 DC 可调电源的 12V 输出后,再进行测试,找出返回 Nence 数量最低的电压域都芯片进行排查。
8、某个芯片 NG;
指通过测试盒子测试时,测试盒子串口信息显示某个芯片的返回 Nence 不足或者为零,在排除虚焊与外围元件问题以外,可直接更换芯片。
●维修须知:
1、维修时,维修员必须熟悉每个测试点的作用及流向、正常的电压值及对地阻抗值。
2、必须熟悉芯片每个引脚的功能及阻抗
3、bm1385 芯片封装做得更薄,引脚更细,且芯片两边一边是 14 脚,一边是 15 脚。焊接时必须对准极性与坐标,不能错位。
4、更换芯片时,必须将芯片周围的导热固定胶清洗干净。
● 注意事项:
1.由于芯片背面散热片与芯片地相连,检测测试点信号时必须用特制细长的表笔,而且表笔除了接触端头露出金属以外,其他地方必须用
热缩管封掉绝缘,以免在测试点,表笔同时接触到散热片与测试点。特别上下两排电路压的电压差较大,同时接触到不同电压域的地(散
热片)与测试点会造人为损坏芯片,特别注意。
2.焊接,由于芯片背面有紧贴着 PCB 板的小散热片,导热较快。所以在焊接的必需要用底部辅助加热(200 度左右),可提高效率又降低对
PCB 板的损害。如果没有底部加热装置,更换芯片时,必须先将芯片背面 PCB 板上的小散热片取下来后再进行更换。
有新的故障类型请及时联系我公司工程部,我们将陆续分析并更新本内容!
!
7