etext - Code Search

fess-crawler/src/main/resources/org/codelibs/fess/crawler/mime/tika-mimetypes.xml

  </mime-type>

  <mime-type type="text/csv">
    <glob pattern="*.csv"/>
    <sub-class-of type="text/plain"/>
  </mime-type>

  <mime-type type="text/directory"/>
  <mime-type type="text/dns"/>
  <mime-type type="text/ecmascript"/>
  <mime-type type="text/enriched"/>
  <mime-type type="text/example"/>

  <mime-type type="text/html">

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Thu Mar 13 08:18:01 UTC 2025

- 320.1K bytes

- Viewed (2)

github.com/codelibs/fess-crawler

fess-crawler/src/test/resources/extractor/eml/sample2.eml

and @handle --> <span class="full_name_truncate" style="display:block;font-family:'Helvetica Neue Light', Helvetica, Arial, sans-serif;-webkit-font-smoothing:antialiased;-webkit-text-size-adjust:none;font-size:16px;text-align:left;color:#8899a6;padding:0px;margin:0px;line-height:20px;white-space:nowrap;overflow:hidden;text-overflow:ellipsis;width:289px;"><strong><a href="https://twitter.com/i/redirect?url=https%3A%2F%2Ftwitter.com%2Ftokyo_bousai%3Ft%3D1%26cn%3DZmxleGlibGVfcmVjc18y%26sig%3D469e0de...

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Sat Jan 16 07:50:35 UTC 2016

- 91.6K bytes

- Viewed (0)

github.com/codelibs/fess-crawler

fess-crawler/src/test/resources/extractor/test_utf8.html

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>タイトル</title>
</head>
<body>
<div>テスト</div>
</body>

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Sun Oct 11 02:16:55 UTC 2015

- 162 bytes

- Viewed (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/extractor/impl/MsWordExtractor.java

import org.codelibs.fess.crawler.exception.ExtractException;

/**
 * Gets a text from .doc file.
 *
 * @author shinsuke
 *
 */
public class MsWordExtractor extends AbstractExtractor {

    /**
     * Creates a new MsWordExtractor instance.
     */
    public MsWordExtractor() {
        super();
    }

    /**
     * Extracts text from the Word input stream.
     * @param in The input stream.

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Sun Jul 06 02:13:03 UTC 2025

- 1.9K bytes

- Viewed (0)

github.com/codelibs/fess-crawler

fess-crawler/src/test/java/org/codelibs/fess/crawler/rule/impl/RegexRuleTest.java

        responseData.setMimeType("text/html");
        return responseData;
    }

    private ResponseData getTestData2() {
        final ResponseData responseData = new ResponseData();
        responseData.setHttpStatusCode(200);
        responseData.setUrl("https://example.com/");
        responseData.setMimeType("text/html");
        return responseData;
    }

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Sat Mar 15 06:52:00 UTC 2025

- 4.8K bytes

- Viewed (0)

github.com/codelibs/fess-crawler

fess-crawler/src/test/resources/ajax/index.html

<!DOCTYPE html>
<html>
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    <title>Ajax Test</title>
    <script language="javascript" src="js/jquery-2.1.1.min.js" type="text/javascript"></script>
    <script language="javascript" src="js/test.js" type="text/javascript"></script>
</head>
<body>
    <div id="header">
        <h1>Ajax Test Site</h1>
    </div>
    <div id="menubar">
        <ul>

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Sun Oct 11 02:16:55 UTC 2015

- 1.5K bytes

- Viewed (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/extractor/impl/MsExcelExtractor.java

import org.codelibs.fess.crawler.exception.ExtractException;

/**
 * Gets a text from .xls file.
 *
 * @author shinsuke
 *
 */
public class MsExcelExtractor extends AbstractExtractor {

    /**
     * Creates a new MsExcelExtractor instance.
     */
    public MsExcelExtractor() {
        super();
    }

    /**
     * Extracts text from the Excel input stream.
     * @param in The input stream.

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Sun Jul 06 02:13:03 UTC 2025

- 2K bytes

- Viewed (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/util/TextUtil.java

import org.codelibs.core.lang.StringUtil;

/**
 * Utility class for text normalization and processing.
 *
 * This class provides methods to normalize text by reading characters from a provided Reader
 * and processing them according to specific rules. The main functionality is encapsulated
 * within the nested {@link TextNormalizeContext} class.
 *
 * <p>The text normalization process includes:
 * <ul>

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Sun Jul 06 02:13:03 UTC 2025

- 12K bytes

- Viewed (0)

github.com/codelibs/fess-crawler

fess-crawler-opensearch/src/test/java/org/codelibs/fess/crawler/service/impl/OpenSearchDataServiceTest.java

        assertNotNull(accessResult2);

        accessResult2.setMimeType("text/html");
        dataService.update(accessResult2);

        final AccessResult accessResult3 = dataService.getAccessResult("id1", "http://www.id1.com/");
        assertNotNull(accessResult3);
        assertEquals("text/html", accessResult3.getMimeType());

        dataService.delete("id1");

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Sat Mar 15 06:52:00 UTC 2025

- 6.8K bytes

- Viewed (0)

github.com/codelibs/fess-crawler

fess-crawler/src/main/java/org/codelibs/fess/crawler/extractor/impl/TextExtractor.java

import org.codelibs.fess.crawler.exception.CrawlerSystemException;
import org.codelibs.fess.crawler.exception.ExtractException;

/**
 * Extracts text content from an input stream as plain text.
 */
public class TextExtractor extends AbstractExtractor {

    /**
     * The encoding for text.
     */
    protected String encoding = Constants.UTF_8;

    /**
     * Creates a new TextExtractor instance.
     */

Registered: Sun Sep 21 03:50:09 UTC 2025

- Last Modified: Sun Jul 06 02:13:03 UTC 2025

- 2K bytes

- Viewed (0)

Search Options