python 将word的内容导入数据库

发布于 2022-09-05 21:21:42 字数 214 浏览 37 评论 0

没数据库基础,求大神给个思路

需求:打算做行业内的深度学习,现有大量数据需要处理。具体是大量由章节组成的大量word文件,会有章节拆分需求,章节中又含有大量的图表,包括流程图等,打算将这些内容按章节分拆存入数据库,然后对这些内容进行多维标记,包括需要修改的部分也予以标记,便于提取时使用和加工

目前稍有拙见,觉得文字部分相对好处理,但这图和表似乎无法完美的存入数据库并完好的提取出来

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

書生途 2022-09-12 21:21:43

表内容和图片流能获取到吗?我试了下还没找到合适的读取方法。对于保存图片我做过,直接保存图片流,不要进行编码和解码操作就行了,表内容可以搞成DataFrame的格式然后to_sql,一般的表格都能搞成pandas的DataFrame格式。这样做的好处是还可以用pandas进行read_sql操作,而且在组织DataFrame内容的时候,你还可以做一些标准化的东西,或者加一些分类标记,这样筛选数据也方便。http://pandas.pydata.org/pand...

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文