从百度指数上来看GeForce GTX 1050 Ti级别的显卡的用户关注度要低于GeForce GTX 1060,但其出货量依然不能小视,DIY究竟是小众的差异化市场,但GTX 1050 Ti这个级别的显卡在联想/HP/戴尔这样的整机厂商,还有宁美国度/名龙堂这样的SI整机厂商的出货量之中却占有了很大的比例。特别是在17年绝地求生火爆之前,GTX 1050 Ti由于能够很好的满足网游和MOBA类游戏的性能需求,很受消费者欢迎。但在17年下半年吃鸡逐渐火爆,1050TI仅能在低画质较为流畅的运行吃鸡,在这种应用的推动之下,游戏用户的需求被拔高,GTX 1060成为2017-2018年度的最受欢迎的显卡。
但对于50级别的显卡需求还是存在,但GTX 1050 Ti现在看来还是太老了,究竟是2016年的东西,现在都9102年了。因此NVIDIA在近日推出了采用全新Turing架构的GTX 1650,用来迭代更新已经老迈的GTX 1050 Ti。
我们首批收到的测试样卡是由华硕提供的Phoenix和Dual版。Phoenix是单风扇的短卡,而Dual顾名思义是双风扇,长度也略长。
我们评测的重点是双风扇的Dual。
Dual采用双8cm的大风扇设计,长时间烤机转速大概1600RPM,依然可以保持静音。
风扇下的散热器仅仅是整体铝片,而无热管。由于GTX 1650的TDP仅为75W,刚好在PCI-E标准的供电能力范围以内,因此并无额外的供电接口。
输出端为DP+HDMI+DVI组合,由于考虑到GTX 1650的市场定位和目标用户需求,DVI还是继续保留。
双风扇的Dual长度大概21.5cm,单风扇的长度20.5cm,区别不大。基本不会有两风扇塞不进去可以装单风扇的情况。
Phoenix和Dual版都是采用的相同PCB方案,实际PCB的长度仅为18cm。
GTX1650的PCB整体十分简洁,供电集中在输出段方向,四颗镁光的DDR5组成128Bit 4GB的显存。
GTX 1650的核心编号是TU117-300-A1,面积大概是14×14 196mm2。核心周围有华硕特有的点胶固定,这样可以很大程度避免核心脱焊导致的故障。
再来看看TU117核心的结构,GTX 1650/TI的TU116核心有3个GPC,而GTX 1650的TU116只有两个,并且两个还不是完整的。Turing架构一个SM是64个流处理器,896个流处理器就说有14个SM,一个GPC是8个SM,那么这样说明TU117是有2个GPC,但并不是完整的,还差2个。完整的TU117应该是16个SM,就应该是1024流处理器,估计这个就应该是1650TI规格,这都是后话。
当然性能不仅仅是看流处理器,还有其他方面,如ROP和TMU,ROP光栅化单元的规模决定像素填充率,这在很大程度决定不同分辨率的性能表现,ROP越多高分辨率性能表现越好,GTX 1650还是维持了GTX 1050 Ti的ROP规模,都是32个。这是定位相关,主要是应对1080P的目标分辨率,不过虽然ROP的数量没有发生变化,但Turing的ROP效率还是有提升的。
GTX 1650的目标用户群主要是网游或者是电竞游戏,这些游戏的画面水平相比顶级画面的AAA,在性能需求上对于Shader的需求较低,但在纹理方面的需求却大幅提升,其实这个变化是有个标志性的阶段,就是2014年年底发行的刺客信条大革命和使命召唤高级战争,开始高分辨率材质贴图的应用,使得游戏对于TMU和显存容量有了更高的需求。而这两作是游戏主机进入本世代之后的首次迭代更新。GTX 1650的纹理单元从GTX 1050 TI的32增加到了48,更多的纹理单元就能够更好的应对本世代的游戏需求。
显存方面1650虽然还是继续维持4GB DDR5 128Bit的规格,但频率从7GHz提升到了8GHz,这样使得显存的带宽更大。
Turning相对Pascal最大的改变是增加了RT Core和Tensor Core,但在GTX 1650/1660上这两个部分都是没有的,但Turning还是相对Pascal增加了单独的INT单元。
以古墓丽影暗影为例,·100个指令之中有62个是浮点指令,38个是整数指令,在之前的Pascal架构,由于没有单独的整数单元,只能停下浮点指令来运算整数指令,而Turning架构就可以并行处理FP和INT,在62个指令周期就可以完成,性能提升了38%。
当然GTX 1650的核心架构和GTX 1660一样,去掉了Tensor Core和RT Core,这样使得其就缺失了硬件级的光线追踪和DLSS功能,但这样也降低了核心面积,据reddit分析,单个TPC可以节约1.95mm2的Die Size,而TU117有8个TPC,就可以降低15.6mm2的核心规模。
Turing的缓存结构也发生了很大的变化,改成了统一的的共享存储架构,每个LOAD/STORE UNIT对应一个64KB L1 Cache,每个TPC有32Bx4的带宽,是Pascal架构的4倍。Turing的L1 Cache是可以灵活配置的,每个TPC有两个SM,每个SM有32KB L1 Cache,这可以当成64KB统一使用,也可以当场两个32KB使用,相比Pascal架构有更低的延迟和更高的带宽。
Turning还支持自适应着色器,它可以对场景进行分析,依据场景的复杂程度和变化率给不同区域设定不同的着色率,这样可以减少40%的工作量来实现几乎一样的输出品质。
可变着色率是和上面的自适应着色器差不多的技术,可以依据场景的复杂程度和变化率调节着色精度来节约资源。这个功能在之前RTX2080TI首发的时候就吹的很多,但实际这个功能在GTX 1650首发430.39才兑现。
理论性能方面我们使用3Dmark来衡量,DX11的Firestrike的图像分提升了20%不到,而DX12的Timespy提升了44%,采用新技术的游戏和测试能够从Turing架构的改进中获得更多的收益。
游戏性能测试
由于考虑到GTX 1650目标用户的实际情况,本次测试并没有采用9900K那样的旗舰平台,而是选择比较亲民的i5 9400。具体的测试平台如下:
对比测试选择的显卡都是市售普通型号,频率一般都比公版频率更高。具体的频率可以参看上一页的规格表。
由于GTX 1650定位,我们选择测试的游戏系统要求都比较低,并且统一设定为1080P分辨率,并且设定在与其性能相匹配的画质。其实更应该测试MOBA和网游,但这些游戏都没Benchmark,也没可以精确重复的场景。可变着色率NVIDIA宣传特性就是用的地平线3,我们对比GTX 1660的新老驱动对比地平线4的性能,其并未从新驱动获得明显的性能收益。GTX 1650在地平线4中相比1050T性能提升也仅13.5%,对于一个最新的DX12游戏这样的提升明显低于预期。
地平线4是UWP的DX12游戏,选择1080P高画质,使用游戏自带的Benchmark进行测试。
全境封锁2是DX12游戏,优化方向偏向AMD,我们选择1080P中画质,使用游戏自带的Benchmark进行测试。全景封锁2深度对DX12进行优化,Turing架构的GTX 1650获益很大,GTX 1650相比GTX 1050 TI提升幅度很大,高达44%,虽然高画质不到可用程度,但中画质已经可以流畅运行,性能甚至反超GTX 1060 3GB,全景封锁2的VRAM占用超过了3GB,显存被爆,使得性能收到较大的影响。
GTA5虽然是2015年初的游戏,但硬件需求对于现在的50级别也不算轻松。我们使用1080p最高画面设置,使用游戏自带的Benchmark进行测试,记录第四个场景的平均FPS,GTA5前三个场景的负载较高,但第四个场景更为接近实际游戏情况。GTX 1650在GTAV的平均FPS为54.49,依然不能在全特效下流畅运行,需要适当的降低特效。
绝地求生是DX11游戏,我们选择1080P中画质,选择SANHOK场景游戏进行回放,从2:30到12:30时间段使用FRAPS进行性能统计,这样的测试方式可以保证测试场景可以完全精确重复。GTX 1650虽然平均FPS>60,但其在室内场景FPS比较高,而在室外仅仅60出头,有时候甚至会跌倒60以下,想要在吃鸡时候更为流程,我们建议在中特效的基础上降低视野距离、抗锯齿和特效到低,已获得跟更为流畅的FPS,不过其性能已经比GTX 1050 TI快23%,已经是可用状态,可以说是可以吃鸡最便宜的图灵显卡。GTX 1660比GTX 1650要快50%,可以获得更好的体验,如果想玩爽吃鸡的话,最好还是1660起步。
CSGO是2012年的老游戏,其采用的Source引擎更是2004年的古董,虽然游戏历经多次更新,但图像的技术和要求还是远远落后时代。不过CSGO还是有一大帮FANS,还是有一定的影响力。我们自己录制一段DUST2的Demo,使用游戏自带的timedemo命令进行Benchmark,游戏设置为1080P最高画质4X MSAA。CSGO的系统要求太低,在显卡方面的瓶颈并不明显,各个显卡差距并不大,GTX 1650可以维持144甚至165FPS以上,2K分辨率都应该可以胜任。
我们测试的这几个游戏,DX12的地平线4和全景封锁2显存占用在3GB以上,其他DX11游戏占用都不到4GB,这种级别的卡4GB足够,如果显存占用>4GB,那么核心性能就会先出现瓶颈,把显存加大也不会获得性能上的收益。
温度/功耗和频率稳定性测试
我们测试方法是使用3Dmark Timespy压力测试循环10次,使用Afterburner记录显卡核心的频率、温度和功耗,整个过程历时10分钟。测试环境温度25度,裸机测试。
GTX 1050TI的Boost频率基本在1700MHz,而华硕GTX 1650在开始阶段频率可以Boost到1900以上,后期随着温度上升频率逐渐下降,但也基本保持在1800MHz以上。GTX 1650自身的频率很高,但其TDP限制被固定在100%,无法提高,核心也没什么超频空间。
温度方面,GTX 1650和GTX 1050 TI的待机温度基本都是30度出头,满载温度GTX 1650要比GTX 1050 TI高10度,基本是70度出头,GTX 1650的GPU规模更大,频率更高,在工艺没大变化的情况下,温度更高也很正常。但这个温度相距84度温度墙还是相距甚远,并不会影响性能。
GTX 1650 TDP是75W,待机功耗小于10W,但满载功耗也会接近110W,intel主板的PCIE供电规范是75W,但厂商还是会有余量设计。另外用户搭配GTX 1650的主机额定电源功率还是要在300W以上。GTX 1050 TI没有功耗读取这个功能,因此没有测试。
GTX 1650在不同游戏的性能表现存在差别,一般DX11游戏提升20%,DX12游戏提升幅度比较大,差不多有30-40%,整体大概性能相比GTX 1050 TI强了1/3,大概可以达到GTX 1060 3GB性能的90%水平,与同为Turning架构的1660相比,大概是其性能的70%不到。具体到具体游戏,性能要求需求越高的游戏性能增幅越大,因为这些游戏使用的技术更为先进,更能从Turning架构的改进之中获得收益。
现在GTX 1650的核心面积是200mm2,和GTX 1060一样,4700M晶体管数量比4400M的GTX 1060还稍多,但性能仅为1060 90%水平,不过完整的评判TU117,还是要看GTX 1650 TI,
如GTX 1650 TI是完整的16个SM,且频率差不多,那它的性能就应该大概是GTX 1650的14/16,就说应该会再强14%左右,就差不多有1060的水平级别。
Turing升级基本上都是新一代性能和上一代高一级别差不多,如RTX2080略微强于1080TI,RTX2070强于1080,2060强于1070TI,1660TI差不多是1070水平。新一代产品虽然比上一代同定位产品售价更高,但性能基本可以到上一代更高一阶的水平,使得整体性价比还是有提升(RTX2080TI除外),这样就巧妙的在用户可以接受的范围内,悄悄的提升了产品平均单价。
在图灵架构内部,以3DMark Timespy分数来衡量,流处理器增加的速率和性能提升基本一致(仅仅是2080TI的性能增幅小于规模的增幅)。当然3Dmark Timespy测试明显是重Shader轻纹理,并不能完全代表实际游戏性能,用户需要以自己的需求导向来选择合适自己的产品。
2080TI SLI合适2K144或者4K60的AAA游戏玩家或者4K144的电竞玩家
2080TI合适2K分辨率的AAA玩家或者2K 144的电竞玩家
2080合适1080P或者2K DLSS的AAA玩家或者1080P 144的电竞玩家
2070合适1080P的AAA玩家或者1080P 144的电竞玩家
2060合适1080P可以接受适当降低特效的AAA玩家或者2K 144的MOBA玩家
1660/1660TI合适1080P 60FPS电竞类游戏的玩家或者1080P 144的MOBA玩家;
1650则是合适于MMORPG和1080P 144 MOBA游戏。
关键词:
责任编辑:Rex_02