简书的文章url地址为域名+/p/随机字符串,那么由此推断后端使用了哪些架构思路?
简书的文章url地址为域名+/p/随机字符串,那么由此推断后端使用了哪些架构思路?随机字符串是如何定位机器的?假如文章存储几个T大小,那么cdn缓存到全国各地,开削很大吧?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
简书的文章url地址为域名+/p/随机字符串,那么由此推断后端使用了哪些架构思路?随机字符串是如何定位机器的?假如文章存储几个T大小,那么cdn缓存到全国各地,开削很大吧?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(2)
由此推断……啥也推断不出来。
就是 HashId 的思路,隐藏掉数据库自增 ID,防爬虫的。很多网站都会这么搞,比如 YouTube 的视频 ID,这跟语言跟框架都无关,甚至并没有一个标准的实现规则。
文章存储几个 T 大小,那么 CDN 缓存到全国各地,开削很大吧? 你指存储还是流量?存储的话这就是个小微客户,没多少钱,如果后面大头流量费能谈下来,这部分甚至可以算作白送;如果是流量总值,每月甚至每日就这些量的话也没多少钱;如果是流量峰值,那确实是大客户,一年几千万上亿的支出,但一个文本和小图片居多的博客类网站,流量峰值怎么可能会这么高?
不过我观察了几篇文章,没发现页面本身有使用 CDN 的迹象,只是其中的图片等外链用了 CDN,看节点是用的七牛云。
难道没可能是人家不想让你知道真实ID是啥?有可能是个非对称加密,也有可能是个非十进制计数。省的被无脑爬虫做遍历,或者查看相关内容?
机器定位这个没看懂,不过你可以取id的前缀呀,比如说 abcdefg000000 和 abcdefg000001 在一个表里,abcdeff000000 和 abcdeff000001 在另一个表里。
cdn缓存我认为他们不会做。文章这个东西其实是可变的,作者改了但是用户更新不及时,这体验也太差了。