专注于数字技术的商业观察者
登录×
观察
2016-10-26

链家网8000+万个文件何处安家?

时间: 2016-10-26 编辑:

房产中介来由已久,“牙人”便是唐代时对中介人的称呼。无论买房、卖房还是租房,绝大多数房产相关的商业...

房产中介来由已久,“牙人”便是唐代时对中介人的称呼。无论买房、卖房还是租房,绝大多数房产相关的商业行为都离不开中介。从实体店到线上,从网站到移动App,从内部系统到2C业务,与蓬勃发展的中国房地产行业一道,链家网也不断与时俱进,更新系统架构,满足不断变化的市场和业务需求。

“现在,链家网存储服务承载的总文件数量已达8270万+,房屋实堪图占66%,其他图片占15%,音视频占13%,文件备份占4%,其他类型数据占2%,总存储容量43TB。”2016 AWS北京峰会上,链家网平台服务架构师吕毅分享了最新的存储服务相关数据。不过时至今日,这些数据或许又会有变化了。

事实上,早在2007年,链家在线(链家网前身)、HERP系统就已上线运营,到2008年“楼盘字典”项目启动,2012年提出“真房源”,SE(Sales Effectiveness)、TE(Transaction Effectiveness)系统上线,“掌上链家”App发布,近六年时间,链家网存储架构采用的一直是传统文件系统。

随着业务线不断扩展,数据量不断增长,传统架构中存储服务的瓶颈日益凸显。2014年,更名的链家网明确了大力发展2C业务、着手自研究SE、TE系统的业务思路。其间,存储架构经历了从传统文件系统到轻量级开源分布式文件系统FastDFS的变迁。再后来,链家网又选用了开源分布式文件系统Ceph,直到2016年,SE、TE合并为Link系统,“楼盘字典”积累了7000万房产信息,更多的UGC、PGC内容产生,AWS S3终担重任。

%e5%9b%be%e7%89%87-1

链家网存储架构变迁

 十年链家网,S3终回归。巧合的是,2015年,链家网开始启用AWS时,S3也已十岁了。吕毅表示,在大家熟悉的AWS S3能力之外,链家网对S3服务进行包装后实现了更多的能力:采用Huge Bucket统一管理公司内部Bucket、使用数据库存储文件Meta信息供检索、非常划算的冷数据存储、代理S3服务让用户可在S3能力上封装公司通用逻辑……AWS S3为用户提供了足够抽象的能力,方便企业、个人基于S3通用能力之上进行改造与包装,这些方面也都是链家网选择AWS的重要原因。

开源商用领域,Ceph一直是分布式文件系统的热门选项。然而,并不是所有人都有时间和精力玩儿转Ceph,尤其是在竞争激烈,业务瞬息变化的房地产市场,时间窗口是横亘在所有市场行为主体面前的一座大山。

时不我待,千言万语一个字:“快”!吕毅坦言,链家网在使用Ceph的过程中遇到了容量、运维、数据备份等方面的问题,各种因素叠加,反而推高了综合成本,因此下定决心改造系统。

容量不够、运维成本高、数据备份堪忧……使用Ceph过程中遇到的问题恰恰是S3用户不需操心的事,容量规划、存储管理、数据备份,S3统统能轻松搞定,更无需硬件维护。此外,S3具备高达11个9的持久性,可让长期数据留存“高枕无忧”。

%e5%9b%be%e7%89%87-2

链家网基于AWS S3的存储架构

 存储架构改造过程中,不可避免地会遇到这样那样的问题。吕毅表示,以链家网自身的实践经验看,数据存量与增量问题、业务方迁移成本是两个主要问题,相信这也是很多用户面临的共性问题。恰好在这些方面,AWS都能提供高均衡度的解决方案。“2015年底,链家网刚开始采用AWS服务时,EC2和ELB只承担了外网20%的负载,本地数据中心和云通过AWS Direct Connect连接。现在,主备中心已经对调了位置,云端已承载了近80%的外网负载,并引入S3和数据仓库服务Redshift,高效、可靠、安全地整理数据资料。”吕毅表示。

版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。