视窗
loading...
您现在的位置:首页 > IT认证 > JAVA >

Java基础知识:Jtidy解析脚本时候出现问题


问题描述:

    最近在做网页结构化信息抽取,用到了JTidy和xslt.当在处理一些包含很多脚本的页面时候,出现了,JTidy去脏失败,提示标题中的异常。

    最后发现,问题出现在解析脚本的时候因为一些脚本里面不规范的内容,导致不能判断结束造成了上面的异常出现。

    解决方法:

    最初的时候想通过修改JTidy的源码来解决这个问题,但是后来做着发现可行性不高,一个是修改这个源码可能会带来其它的问题。另外一个,还要花长时间去看源码。

    所以,最终还是选择了采用预处理的方式来进行处理删除掉脚本。

    代码

    [java]

    public static String getFilterBody(String strBody) {

    // htmlparser 解析

    Parser parser = Parser.createParser(strBody, "utf-8");

    NodeList list;

    String reValue = strBody;

    try {

    list = parser.parse(null);

    visitNodeList(list);

    reValue = list.toHtml();

    } catch (ParserException e1) {

    }

    return reValue;

    }

    // 递归过滤

    private static void visitNodeList(NodeList list) {

    for (int i = 0; i < list.size(); i++) {

    Node node = list.elementAt(i);

    if (node instanceof Tag) {

    if (node instanceof ScriptTag) {

    list.remove(i);

    continue;

    }// 这里可以增加删除的Tag

    if (node instanceof StyleTag) {

    list.remove(i);

    continue;

    }// 这里可以增加删除的Tag

    }

    NodeList children = node.getChildren();

    if (children != null && children.size() > 0)

    visitNodeList(children);

    }

    }

    但是在删除脚本的时候一样遇到了相同的问题,就是在解析脚本的时候出现了错乱,把一些脚本中的标签识别为正常标签。如:<script>里面的 '<span></span>'里面的'</'就会被识别为脚本的结束,导致脚本获取不全,删除不全最后在网上找到了解决的办法通过下面两个参数的设置来解析了html对脚本的处理问题

    [java]

    org.htmlparser.scanners.ScriptScanner.STRICT = false;

    org.htmlparser.lexer.Lexer.STRICT_REMARKS = false;

    只要配置其中之一就可以了,下面是这两个参数的一个官方说明

    org.htmlparser.scanners.ScriptScanner.STRICT = false;

    [java]

    /**

    * Strict parsing of CDATA flag.

    * If this flag is set true, the parsing of script is performed without

    * regard to quotes. This means that erroneous script such as:

    * <pre>

    * document.write("</script>");

    * </pre>

    * will be parsed in strict accordance with appendix

    * <a href="/TR/html4/appendix/notes.html#notes-specifying-data" mce_href="/TR/html4/appendix/notes.html#notes-specifying-data">

    * B.3.2 Specifying non-HTML data</a> of the

    * <a href="/TR/html4/" mce_href="/TR/html4/">HTML 4.01 Specification</a> and

    * hence will be split into two or more nodes. Correct javascript would

    * escape the ETAGO:

    * <pre>

    * document.write("<//script>");

    * </pre>

    * If true, CDATA parsing will stop at the first ETAGO ("</") no matter

    * whether it is quoted or not. If false, balanced quotes (either single or

    * double) will shield an ETAGO. Beacuse of the possibility of quotes within

    * single or multiline comments, these are also parsed. In most cases,

    * users prefer non-strict handling since there is so much broken script

    * out in the wild.

    */

    org.htmlparser.lexer.Lexer.STRICT_REMARKS = false;

    [java]

    /**

    * Process remarks strictly flag.

    * If <code>true</code>, remarks are not terminated by ---$gt;

    * or --!$gt;, i.e. more than two dashes. If <code>false</code>,

    * a more lax (and closer to typical browser handling) remark parsing

    * is used.

    * Default <code>true</code>.

    */

    在默认情况下,htmlparser解析是按严格的html标准解析,所以当碰到不标准的标签有可能出错,

    当把以上这两个参数改变以后,htmlparser解析不再严格,能应对所有可能出现的情况。

闂傚倸鍊风欢姘缚瑜嶈灋鐎光偓閸曨偆锛涢梺璺ㄥ櫐閹凤拷

闂傚倸鍊风欢姘缚瑜嶈灋鐎光偓閸曨偆锛涢梺璺ㄥ櫐閹凤拷

闂傚倸鍊风欢姘缚瑜嶈灋婵炲棙鎸哥粈澶愭煛閸ャ儱鐏╅柛灞诲姂閺屾洟宕煎┑鍥ь槱闁诲孩鑹鹃…鐑藉蓟閵娿儮鏀介柛鈩兠悵鏃傜磽娴g懓鏁剧紓宥勭窔瀵鏁撻悩鑼槹濡炪倖鍔х€靛矂鍩€椤掍緡娈滈柡宀€鍠栭幗搴ㄥ磼濮橆剛銈梻浣筋嚃閸燁偊宕惰閸炲爼姊虹紒妯荤叆闁硅姤绮庣划鏃堫敆閸曨剛鍘介梺缁樏鍫曞箹閹扮増鐓熼幒鎶藉礉鐏炶棄绁梻浣侯攰閹活亞绮婚幋锝囩闂傚倷娴囧▔鏇㈠闯閿曞倸绠柨鐕傛嫹
闂傚倸鍊风粈渚€骞栭锔藉亱婵犲﹤鐗嗙粈鍫熺箾閹存瑥鐏柛瀣枑閵囧嫰寮介顫勃闂佺粯甯$粻鏍蓟閺囩喓绠鹃柛顭戝枛婵酣姊虹拠鍙夊攭妞ゆ泦鍡楃倒闂備焦鎮堕崕鑽ゅ緤閼恒儲娅犻柟缁樺础瑜版帗鍋傞幖娣灩濞堟鎮楀▓鍨灈闁绘牕鍚嬫穱濠囨倻閼恒儲娅嗛梺鍛婃寙閸愵亜甯楀┑鐘垫暩閸嬫盯鎮洪妸褍鍨濈€光偓閳ь剟鎳為柆宥嗗殐闁冲搫瀚皬濠电偛顕崢褔鎮洪妸鈺佸惞闁稿瞼鍋為悡娑㈡煕閹扳晛濡奸柍褜鍓濆畷鐢靛垝閺冨洢浜归柟鐑樻尵閸欏棗鈹戦悙鏉戠伇婵炲懏娲滈埀顒佺啲閹凤拷闂傚倷娴囬褍霉閻戣棄鏋侀柟闂撮檷閳ь兛鐒︾换婵嬪磻椤栨氨绉虹€规洖宕灒閻犲洤妯婂ḿ顖炴⒒娴i涓茬紒韫矙瀵敻顢楅崟顒€浠奸梺鍛婎殘閸婃垶鎯旈妸銉у€為梺鎸庣箓閹冲酣鍩涙径瀣閻庣數枪鐢爼鏌熼搹顐€块柣娑卞枤閳ь剨缍嗛崰鏍不閿濆棛绡€濠电姴鍊搁顐︽煙閺嬵偄濮傛慨濠冩そ瀹曘劍绻濋崘锝嗗缂傚倷绀侀鍡欐暜閿熺姴绠氶柛銉e妼椤曢亶鏌℃径瀣仴闁哥偑鍔戝娲箹閻愭彃濮岄梺鍛婃煥缁夊綊鏁愰悙鍝勫唨妞ゎ兙鍎遍柊锝呯暦閸洘鏅查柛娑卞幐閹枫倕鈹戦悙宸殶闁告鍥х疇婵せ鍋撴鐐叉瀹曟﹢顢欓懖鈺婃Ч婵$偑鍊栭崝鎴﹀垂濞差亝鍎婇柡鍐e亾缂佺粯绻堟慨鈧柨婵嗘閵嗘劙鏌f惔銏e闁硅姤绮屽嵄闁规壆澧楅弲鎼佹煥閻曞倹瀚�闂傚倸鍊烽懗鍫曞箠閹剧粯鍋ら柕濞炬櫅閸ㄥ倿鏌涢幇顓犮偞闁割偒浜弻鐔衡偓鐢登瑰皬闂佺粯甯掗敃銈夊煘閹达附鍋愰柛娆忣槹閹瑥鈹戦悙鍙夊櫡闁搞劌缍婂﹢渚€姊洪幐搴g畵婵☆偅鐩幆灞炬償閵婏妇鍘撻悷婊勭矒瀹曟粌鈻庨幘宕囩枃闂佸綊鍋婇崗姗€寮搁弮鍫熺厵閺夊牓绠栧顕€鏌涚€n亶鍎旈柡灞剧洴椤㈡洟濡堕崨顔锯偓鍓х磽閸屾氨袦闁稿鎹囧缁樻媴閻熸壆浜伴梺缁樺釜缁犳挻淇婇悽鍛婂€烽柣銏㈡暩椤︻垶姊洪崫鍕殭闁绘妫涢惀顏囶樄闁哄本鐩獮鍥敍濞戞哎鈧﹦绱撴担鎻掍壕闂佽法鍣﹂幏锟�闂傚倷娴囬褏鑺遍懖鈺佺筏濠电姵鐔紞鏍ь熆閼搁潧濮囬柛銊ュ€圭换婵囩節閸屾凹浼€濡炪倐鏅犻弨閬嶅Φ閸曨垰绠抽柟瀛樼箖濞堣尙绱撴担椋庤窗闁革綇绲介锝夊醇閺囩喎鈧兘鏌涢…鎴濅簼闁绘繍浜滈埞鎴︽倷閼碱剙顤€闂佹悶鍔屾晶搴e垝濮樿埖鐒肩€广儱鎳愰崝鎾⒑閸涘﹤澹冮柛娑卞灱濡差剚绻濋悽闈浶ユい锝勭矙閸┾偓妞ゆ巻鍋撻柛鐔锋健閸┾偓妞ゆ帒鍊归崵鈧梺鎸庢磸閸ㄦ椽骞忛崨鏉戠闁圭粯甯楅鍧楁⒒娴e懙褰掑嫉椤掑倹宕茬€广儱顦懜褰掓煙缂併垹鏋熼柣鎾寸懇閹鈽夊▎瀣窗婵犫拃灞藉缂佺粯绻堥崺鈧い鎺嶇劍婵挳鏌涢敂璇插箻闁硅櫕绻堝娲礈閼碱剙甯ラ梺绋款儏閹虫劗妲愰悙鍝勭劦妞ゆ帒瀚埛鎴︽煟閻旂ǹ顥嬮柟鐣屽█閺岋絽螖閸愩劋鎴烽梺鐟扮畭閸ㄥ綊锝炲┑瀣垫晞闁兼亽鍎虫禍娆撴⒒娴e憡鎯堟繛璇х畵閹矂顢欓悙顒€搴婇梺绯曞墲缁嬫帡鎮″▎鎰╀簻闁圭偓顨呴崯鐗堢閺夋埈娓婚柕鍫濇婢跺嫰鏌涢幘璺烘瀻闁伙絿鍏橀弫鎰板幢濞嗘垹妲囬梻浣告啞閸斿繘寮查埡浣勶綁顢涢悙绮规嫼闂佸ジ鈧稑宓嗛柛婵堝劋閹便劍绻濋崒銈囧悑闂佸搫鑻悧鎾荤嵁濮椻偓椤㈡瑩鎳栭埡濠傛倛闂傚倷鑳堕幊鎾绘偤閵娧冨灊鐎广儱娲ら崹婵嬫煥閺囩偛鈧綊鎮¢妷锔剧闁瑰鍊栭幋婵撹€块柣妤€鐗忕弧鈧梺閫炲苯澧存鐐茬Ч椤㈡瑩骞嗚鐟欙附绻濋悽闈涗粶婵☆偅顨呴湁濡炲娴烽悳缁樹繆閵堝懎鏆熺痪鎯с偢閺岋繝宕掑☉鍗炲妼闂佺ǹ楠哥换鎺楀焵椤掑喚娼愰柟鍝デ硅灋婵犻潧妫涢弳锔芥叏濡灝鐓愰柛瀣姉缁辨挻鎷呯拹顖滅窗閻熸粎澧楅崹鍨潖濞差亜绠伴幖绮光偓铏亞闂備胶鎳撻崵鏍箯閿燂拷闂傚倷娴囬褍霉閻戣棄鏋侀柟闂寸缁犵娀鏌熼幑鎰厫闁哄棙绮嶉妵鍕箛閸撲胶鏆犵紓浣插亾闁糕剝岣跨粻楣冩煙鐎甸晲绱虫い蹇撶墕閺嬩線鏌涢锝嗙闁稿﹦鏁搁惀顏堫敇閻愭潙顎涘┑鐐插悑閸旀瑩寮诲☉銏犖╅柨鏂垮⒔閻撲胶绱撴担绋库偓鍦暜閿熺姰鈧礁螖娴g懓顎撶紓浣割儏閺呮繈顢曢敂瑙f嫼闁荤喐鐟ョ€氼厾娆㈤懠顒傜<缂備焦锚閻忓鈧鍣崑濠囥€佸▎鎾村仼鐎光偓婵犲啰銈┑鐘愁問閸犳濡靛☉銏犵;闁瑰墽绮悡鍐喐濠婂牆绀堟繛鍡樻尭绾惧綊鏌涘┑鍕姢缂佲偓婵犲洦鍊甸柨婵嗛閺嬬喖鏌涙惔锛勑ч柡灞剧洴瀵挳濡搁妷銉х憿闁荤喐绮庢晶妤冩暜濡ゅ懏鍋傞柍褜鍓欓—鍐Χ閸℃鐟ㄩ梺鎸庢穿婵″洨鍒掗崼銉︽櫢闁跨噦鎷�闂傚倸鍊峰ù鍥ㄧ珶閸喆浠堢紒瀣儥濞兼牕鈹戦悩宕囶暡闁绘帡绠栭弻鐔虹磼閵忕姵鐏堝┑鈽嗗亝閿曘垽寮婚敐澶嬪亜缂佸顑欏Λ鍡欑磼缂併垹骞愰柛瀣崌濮婄粯鎷呴悷閭﹀殝缂備礁顑嗙敮鎺楁偩濠靛绠瑰ù锝呮憸閿涙盯姊洪崫鍕犻柛鏂块叄閵嗗懘鎮滈懞銉у弳闂佺粯娲栭崐鍦偓姘炬嫹:webmaster@jscj.com闂傚倸鍊风欢姘缚瑜嶈灋鐎光偓閸曨偆锛涢梺鐟板⒔缁垶鎮¢悢鎼炰簻妞ゆ劦鍋勯獮妯肩磼娴e搫鍘撮柡宀嬬秮閺佸倻鎹勯妸褏鍘梻浣芥〃缁€浣虹矓瑜版帒鏋侀柟鍓х帛閺呮悂鏌ㄩ悤鍌涘4008816886

相关文章

无相关信息
更新时间2022-09-16 10:07:22【至顶部↑】
联系我们 | 邮件: webmaster@jscj.com | 客服热线电话:4008816886(QQ同号) |  婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柟闂寸绾惧潡鏌熺€电ǹ啸缂佲偓婵犲洦鐓冪憸婊堝礈濮樿泛桅闁告洦鍨伴崡鎶芥煕閳╁喚娈旀い蹇d邯閺屾稑鈻庤箛鏇狀啋闂佸搫鐭夌紞渚€鐛崶顒夋晪闁告侗鍠楅惁婊堟⒒娴e懙褰掝敄閸℃稑绠查柛銉墯閸嬫ɑ銇勯弴妤€浜鹃悗瑙勬礀缂嶅﹪銆佸▎鎾崇煑闁靛/鍕剁础濠电姷鏁告慨鐑藉极閸涘﹥鍙忔い鎾卞灩绾惧鏌熼崜褏甯涢柣鎾存礋閺屾洘寰勭€n亞浠撮梺鍏兼た閸ㄤ即鍩㈤幘娲绘晝闁靛繆鏅滅€靛矂姊洪棃娑氬婵☆偅鐟╄棢闁糕剝菧娴滄粓鏌¢崒姘殹闁告梻鍠栭弻鐔肩嵁閸喚浼堥梺杞扮劍閹瑰洭寮幘缁樻櫢闁跨噦鎷�

付款方式留言簿投诉中心网站纠错二维码手机版

电话:
付款方式   |   给我留言   |   我要纠错   |   联系我们