`
shappy1978
  • 浏览: 679159 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

POI读取Word文档总结

    博客分类:
  • J2EE
 
阅读更多

    本文档为个人总结,不作为指导性教程,未提供解决方案.

1 要解决表格,宏,超链接,图片等显示或者乱码问题,不能用类似WordExtractor的包或者试图用一个函数导出文本,没有现成的解决方案,必须用poi包一个段落一个段落的解析并处理一些特殊的格式。

2 现在对带数字或者符号的”项目符号和编号“无法解析和显示,只能显示文本

3 无法显示修订内容,无法判断哪些的新增的修改,最严重的是无法去掉已经删除的文字

4 分页的时候无法拆分表格,理论上可以解决,但是太花时间,而且取决与你显示表格的技术

5 无法获取word的分页位置;无法处理目录,暂时来说我只是删除了目录。

//*********************************************************

    腊月二十八,找到了判断记录痕迹的办法,判断分页位置应该也没有问题了,对于word2003来说POI应该算做的很细致了,不过缺少全面的例子。下面就是判断段落标志和编号了,PAP应该可以找到吧,注释太少了,不得不啃微软的说明书。

分享到:
评论
6 楼 hebeixiaolei 2013-03-27  
你好,我想问一下,用poi如何往word文档里插入超链接呀!
5 楼 ldjjames 2012-08-23  
求如何分页,这对我有点太难了。
4 楼 liudi 2011-08-30  
请问怎么去除word上的修订啊  请不吝赐教!!!
3 楼 qianjinfu 2011-07-18  
谢谢回复:

   POI读取Word时,判断分页位置 就是一悲剧,我只能用endOffset来判断

分页,相当不精确。

另外 int pageCount = doc.getSummaryInformation().getPageCount();

取得总页数,很多文档取出总是1的问题,当取不出来只能通过。

extractor.getFooterText().trim();解析它的FooterText来判断
2 楼 shappy1978 2011-07-18  
我并没有读取word原来的分页,而是自己根据字数分页
1 楼 qianjinfu 2011-07-17  
你好:

  看到 POI 判断分页位置 这个功能,你是如何做到了

能否提供思路,和Sample代码,不胜感激

相关推荐

Global site tag (gtag.js) - Google Analytics