python 将word的内容导入数据库
没数据库基础,求大神给个思路
需求:打算做行业内的深度学习,现有大量数据需要处理。具体是大量由章节组成的大量word文件,会有章节拆分需求,章节中又含有大量的图表,包括流程图等,打算将这些内容按章节分拆存入数据库,然后对这些内容进行多维标记,包括需要修改的部分也予以标记,便于提取时使用和加工
目前稍有拙见,觉得文字部分相对好处理,但这图和表似乎无法完美的存入数据库并完好的提取出来
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
表内容和图片流能获取到吗?我试了下还没找到合适的读取方法。对于保存图片我做过,直接保存图片流,不要进行编码和解码操作就行了,表内容可以搞成DataFrame的格式然后to_sql,一般的表格都能搞成pandas的DataFrame格式。这样做的好处是还可以用pandas进行read_sql操作,而且在组织DataFrame内容的时候,你还可以做一些标准化的东西,或者加一些分类标记,这样筛选数据也方便。http://pandas.pydata.org/pand...