简书的文章url地址为域名+/p/随机字符串,那么由此推断后端使用了哪些架构思路?

发布于 2022-09-12 22:47:30 字数 93 浏览 32 评论 0

简书的文章url地址为域名+/p/随机字符串,那么由此推断后端使用了哪些架构思路?随机字符串是如何定位机器的?假如文章存储几个T大小,那么cdn缓存到全国各地,开削很大吧?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

鸵鸟症 2022-09-19 22:47:30

由此推断……啥也推断不出来。

就是 HashId 的思路,隐藏掉数据库自增 ID,防爬虫的。很多网站都会这么搞,比如 YouTube 的视频 ID,这跟语言跟框架都无关,甚至并没有一个标准的实现规则。

文章存储几个 T 大小,那么 CDN 缓存到全国各地,开削很大吧? 你指存储还是流量?存储的话这就是个小微客户,没多少钱,如果后面大头流量费能谈下来,这部分甚至可以算作白送;如果是流量总值,每月甚至每日就这些量的话也没多少钱;如果是流量峰值,那确实是大客户,一年几千万上亿的支出,但一个文本和小图片居多的博客类网站,流量峰值怎么可能会这么高?

不过我观察了几篇文章,没发现页面本身有使用 CDN 的迹象,只是其中的图片等外链用了 CDN,看节点是用的七牛云。

挖个坑埋了你 2022-09-19 22:47:30

难道没可能是人家不想让你知道真实ID是啥?有可能是个非对称加密,也有可能是个非十进制计数。省的被无脑爬虫做遍历,或者查看相关内容?

机器定位这个没看懂,不过你可以取id的前缀呀,比如说 abcdefg000000 和 abcdefg000001 在一个表里,abcdeff000000 和 abcdeff000001 在另一个表里。

cdn缓存我认为他们不会做。文章这个东西其实是可变的,作者改了但是用户更新不及时,这体验也太差了。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文