2018 AI开发者大会是一场由中美人工智能技术高手联袂打造的AI技术与产业的年度盛会!这里有15+硅谷实力讲师团、80+AI领军企业技术核心人物、100+技术&大众实力媒体、1500+AI专业开发者——我们只讲技术,拒绝空谈!
参加2018 AI开发者大会,请点击 ↑↑↑
【 CSDN 编者按】风雨之后见彩虹,分手季之后就是喜讯季。时针拨到了今晨的 10 点 07 分,演员赵丽颖和冯绍峰同时发了一则微博,正式向公众官宣:
消息一出,八方祝福,还有无数网友点赞良心明星赵丽颖和冯绍峰,毕竟在这个正常的工作日、正常的工作时间来报告喜讯,一没让各路小编在节假日加班,二没让她们大半夜起来赶稿,但是,唯一让人心疼的还要非微博的程序员小哥哥莫属,说好的支持八位明星并发出轨的呢?怎么一对结婚就又瘫了呢?
因为微博又双叒叕崩溃了!
回想上一次微博大范围的宕机事件,还是在去年 10 月鹿晗和关晓彤宣布恋情的时候。彼时的微博程序员小哥哥还在结婚典礼上,遇上了鹿晗公布恋情,不得不从酒席上离开处理微博异常后继续婚礼。
此后,为了避免类似事件再次发生,微博工程师们加班加点经过一个月的努力,终于扬眉吐气地表示「新浪微博系统可同时支持 8 位明星并发出轨了」。
万万没想到,事实再一次证明了猝不及防的喜讯扎破了吹大的牛皮,对此,微博回应称,内部会仔细复盘,将加强技术储备,完善应对方案。而针对此前的「支持 8 位明星并发出轨了」消息,微博 CEO@来去之间发博表示,该公司的技术专家胡忠想老师指的是信息流,目前热搜同事没有立过 flag。
那么回归技术本身,面对如此大的高并发流量和屡次崩溃的系统,作为程序员是否可以有较好的方法来应对及解决?在此,技术专家极客猴为我们分享了一篇有关解决高并发的科普文,希望对大家有所裨益。
以下为全文:
“高并发”对后台开发同学来说,既熟悉又陌生。熟悉是因为面试和工作经常会提及它,陌生的原由是服务器因高并发导致出现各位问题的情况少之又少。同时,想收获这方面的经验也是"摸着石头过河", 需要大量学习理论知识,再去探索。
如果是客户端开发的同学,字典中是没有“高并发”这个名词的。这验证了一句老话,"隔行如隔山"。客户端开发,特别是手机应用开发,更多地是考虑如何优化应用的性能,降低 App 的卡顿率等。
什么是高并发?
由于分布式系统的问世,高并发(High Concurrency)通常是指通过设计保证系统能够同时并行处理很多请求。通俗来讲,高并发是指在同一个时间点,有很多用户同时的访问同一 API 接口或者 URL 地址。它经常会发生在有大活跃用户量,用户高聚集的业务场景中。
其实,高并发也离我们的生活并不遥远,例如大学学校的选课系统。一到选课的时候,一大批学生同时选课,导致系统出现“不良反应”;再如淘宝的 618 和双 11 购物活动;遇到节假日,12306 上演的“抢票大战”。另外,DDos 攻击也属于高并发的场景之一。
高并发会带来的后果
服务端:
高并发会导致站点服务器 /DB 服务器资源被占满崩溃,甚至出现服务器宕机的情况;数据的存储不完整,数据更新异常问题。
用户端:
服务端的问题是高并发的直接反馈,而客户端是间隔反馈。它反馈给用户情况是糟糕的体验。
提高系统并发能力的方式
在这个“云”的时代,提高分布式系统并发能力的方式,方法论上主要有两种:垂直扩展(Scale Up)与水平扩展(Scale Out)。
1、垂直扩展
提升单机处理能力。垂直扩展的方式又有两种:
增强单机硬件性能,例如增加 CPU 核数如 32 核,升级更好的网卡如万兆,升级更好的硬盘如 SSD,扩充硬盘容量如 2T,扩充系统内存如 128G;
提升单机架构性能,例如使用 Cache 来减少 I/O 次数,使用异步来增加单服务吞吐量,使用无锁数据结构来减少响应时间。
2、水平扩展
只要增加服务器数量,就能线性扩充系统性能。虚拟化技术的出现,让水平扩展变得轻松且简单。现在的云主机几乎是虚拟主机,而不是物理主机。这样的话,线性扩充也就是分分钟的事,前提是要有足够的物理主机支撑。
高并发的三个经典问题
1、单台服务器最大并发
单台服务器最大并发问题,一般是指一台服务器能够支持多少 TCP 并发连接。
一种理论说法是受到端口号范围限制。操作系统上端口号 1024 以下是系统保留的,从 1024-65535 是用户使用的。由于每个 TCP 连接都要占一个端口号,所以我们最多可以有 60000 多个并发连接。
但实际上单机并发连接数肯定要受硬件资源(内存、网卡)、网络资源(带宽)的限制。特别是网卡处理数据的能力,它是最大并发的瓶颈。
2、C10K 并发连接问题
C10K 并发连接问题是指单机 1 万个并发连接问题。如何突破单机性能局限,是高性能网络编程所必须要直面的问题。这些局限和问题最早被 Dan Kegel 进行了归纳和总结,并首次成系统地分析和提出解决方案,后来这种普遍的网络现象和技术局限都被大家称为 C10K 问题 。
C10K问题本质上是操作系统的问题。对于 Web1.0/2.0 时代的操作系统而言, 传统的同步阻塞 I/O 模型都是一样的,处理的方式都是 requests per second,并发 10K 和 100K 的区别关键在于 CPU。
创建的进程线程多了,数据拷贝频繁(缓存 I/O、内核将数据拷贝到用户进程空间、阻塞), 进程/线程上下文切换消耗大,导致操作系统崩溃,这就是C10K 问题的本质。
3、C10M 并发连接问题
C10M 并发连接问题指的是单机服务器实现 C10M(即单机千万并发连接)。回顾过去的 10 年里,我们面临高性能网络编程领域著名的 C10K 问题,最终也成功提出解决方案。下一个 10 年,是时候考虑 C10M 并发问题了。
Django 与高并发的联系
想弄清楚这个问题,首先要了解下 Django 在服务器中所处的位置。
Django 应用服务器可以分为三层:
Web 框架层:Web框架层就是我们开发出来的 Django Web 应用程序。它负责处理 HTTP 请求的动态数据。
WSGI 层:WSGI 不是用于与程序交互的API,也不是真实的代码,它只是一种接口,仅适用于 Python 语言,其全称为 Web Server Gateway Interface。其定义了 Web 服务器和 Web 应用之间的接口规范。
Web 服务器层:Web 服务层作用是主要是接收 HTTP 请求并返回响应。常见的 Web服务器有 Nginx、Apache、IIS等。
特别是 Nginx,它的出现是为了解决 C10K 问题。Nginx 依靠异步事件驱动架构来帮助其处理大量的并发会话,由于其对资源的轻量利用和伸缩自如的特性,它成为了广受欢迎的 Web 服务器。
Django 框架注重的数据交互,所以考虑的问题是 Django 适不适合于高并发的场景。它是一个经过大型网站规模验证的框架。Instagram 支撑上亿日活,所以 Django 能适用于高并发场景。所以不是想着 Django 框架能支撑到多大的并发量,而是我们想要抗住很大的并发量,怎么优化现有框架。
作者:极客猴,热衷于 Python,目前擅长于利用 Python 制作网路爬虫以及 Django 框架。
声明:本文为作者投稿,版权归其个人所有。
CSDN 公众号秉持着「与千万技术人共成长」理念,不仅以「极客头条」、「畅言」栏目在第一时间以技术人的独特视角描述技术人关心的行业焦点事件,更有「技术头条」专栏,深度解读行业内的热门技术与场景应用,让所有的开发者紧跟技术潮流,保持警醒的技术嗅觉,对行业趋势、技术有更为全面的认知。
如果你有优质的文章,或是行业热点事件、技术趋势的真知灼见,或是深度的应用实践、场景方案等的新见解,欢迎联系 CSDN 投稿,联系方式:微信(guorui_1118,请备注投稿+姓名+公司职位),邮箱(guorui@csdn.net)。
推荐阅读: