數位煉金術與法律疆界:AI 文本數據探勘之著作權侵權、刑事責任與遵法風險
隨著人工智慧(AI)技術,特別是大型語言模型(LLM)與生成式 AI 的飛躍性發展,「數據」已成為驅動數位經濟的新石油。為了訓練出具備高精準度與泛化能力的模型,網路服務商與 AI 開發者廣泛利用網路爬蟲(Web Crawler)等技術進行大規模的「文本與數據探勘(Text and Data Mining, TDM)」。然而,此類技術行為在將人類智慧結晶轉化為機器學習素材的過程中,正與既有的智慧財產權法律架構產生劇烈碰撞。
針對台灣現行法制環境,網路爬蟲與 TDM 技術所引發的法律風險,不僅侷限於「著作權法」上的「重製權」,同時需考量「刑法」妨害電腦使用罪章的刑事責任、「公平交易法」的不公平競爭規範,以及「個人資料保護法」的行政監管風險。
另外近期震撼業界的「法源(Lawbank 對七法(Lawsnote))」案,揭示司法實務如何將違反網站使用條款(Terms of Service, ToS)的民事違約行為升級為刑事犯罪,這對於台灣資料探勘法律風險也標誌著重大影響。
一、AI 技術與法律規範的結構性衝突
1. 文本與數據探勘(TDM)的技術本質與運作流程
在探討法律責任之前,必須先解構文本與數據探勘(TDM)的技術本質。TDM 是從機器可讀資料中提取資訊的過程。其運作方式是從數位內容(如網頁 HTML、PDF 文件、圖片、音訊)中爬梳並複製大量資料、提取資訊,並重新萃取其特徵、模式、趨勢或關聯性。這個過程並非單一的技術動作,而是一套複雜的自動化流程。對於 AI 模型服務商而言,TDM 是模型訓練的基礎建設,其運作流程通常包含以下四個關鍵階段,每一階段在法律評價上皆具有不同的意涵:
- 資料爬取(Crawling & Scraping):
這是 TDM 的起點。利用網路爬蟲(Bot/Spider)按照預設的演算法遍歷全球資訊網(WWW)。爬蟲程式會向目標伺服器發送 HTTP 請求,並下載網頁的原始碼(HTML)、圖片或其他檔案。從技術層面看,此階段必然涉及將目標伺服器上的資料「複製」到爬蟲程式所在的記憶體(RAM)或硬碟中,這直接觸發了著作權法上的「重製」定義。 - 資料儲存與清洗(Storage & Cleaning):
原始數據往往充滿雜訊(如 HTML 標籤、廣告、導航欄)。開發者需將下載的資料永久儲存於本地伺服器或雲端資料庫(Data Lake),並進行清洗、去除重複資料、格式轉換(例如將 PDF 轉為純文字)。此階段涉及資料的「永久性重製」與潛在的「改作」(如翻譯、摘要)。
資料清洗是指將網頁爬蟲(Crawler)下載下來的「原始髒資料(Raw Data)」,轉化為 AI 模型可以閱讀、高品質「訓練素材」的過程。網路上抓取的資料通常包含大量雜訊,若直接餵給 AI,會導致模型學習效果不佳。 - 特徵提取與標註(Feature Extraction & Tokenization):
在訓練 LLM 時,文字資料需被轉化為電腦可理解的數值向量(Vectorization)或 Token。此過程雖然是對資料進行數學上的抽象化處理,但若過程中保留了原始著作的表達形式,仍可能處於著作權的射程範圍內。 - 模型訓練與參數調整(Model Training):
將處理後的數據輸入神經網路進行訓練,調整模型參數(Weights)。最終的模型本身雖然不再包含原始的文本資料(除了過度擬合 Overfitting 的情況),但其生成能力是建立在對大量著作的「學習」之上。
2. 經濟誘因與法律限制的對立
AI 產業的核心邏輯在於「數據規模效應」(Scaling Law),即數據量越大,模型效能越強。這驅使業者傾向於採取「先爬取、後治理」的策略,認為網際網路上的公開資料即屬於「公共財」(Public Domain)或可自由利用的資源。然而,法律體系特別是著作權法,是建立在「權利人控制權」的基礎上。
台灣智慧財產局(TIPO)明確指出,雖然AI訓練需要海量數據,但現行法規並未賦予 AI 開發者無限制使用他人著作的權利。這導致了一個結構性的矛盾:技術上 AI 需要讀取全世界的知識來變聰明,但法律上每一筆資料的讀取都可能需要取得授權。由於權利碎片化(Rights Fragmentation),要取得數十億筆資料的逐一授權在交易成本上是不可能的,這使得所有未經授權的 TDM 行為在理論上都處於違法邊緣。
二、著作權法上之侵權風險深度分析
1.「重製權」的擴張解釋與適用
著作權法第 22 條賦予著作人專有的「重製權」。根據同法第 3 條第 1 項第 5 款,「重製」是指以印刷、複印、錄音、錄影、攝影、筆錄或其他方法直接、間接、永久或暫時之重複製作。
- 暫時性重製與永久性重製
在網路爬蟲運作過程中,當爬蟲程式請求網頁並將其內容載入伺服器的隨機存取記憶體(RAM)時,即構成「暫時性重製」。雖然著作權法第 22 條第 3 項及第 4 項針對「網路合法瀏覽」設有暫時性重製的免責規定(除外規定),但該規定通常被解釋為僅適用於終端使用者的瀏覽行為或網路服務提供者(ISP)的中繼傳輸行為(Caching)。
對於 AI 開發商而言,其目的並非單純瀏覽,而是進行後續的分析與訓練,且通常會伴隨著將資料寫入硬碟的「永久性重製」行為。智慧財產局的函釋與法院見解均傾向認為,若爬蟲將資料下載並儲存於資料庫中,即便僅供內部訓練使用,仍屬於著作權法定義之「重製」行為,受著作權人排他權之控制。 - 權利碎片化與授權困境
AI訓練資料集(如 Common Crawl)包含數以兆計的網頁,涉及無數的文字、圖片、影片著作權人。智慧財產局承認,由於權利歸屬分散(權利碎片化),開發者根本不可能逐一取得授權 1。這導致AI開發者面臨一種「全有或全無」的風險:要麼完全不使用受保護的資料(導致模型無用),要麼冒著侵權風險使用。
2.「改作權」與資料前處理
著作權法第 28 條賦予著作人將原著作改作成衍生著作的權利。在 TDM 的資料清洗階段,以下行為可能構成對改作權的侵害:
- 格式轉換:將 PDF 檔案轉換為 Word 或純文字檔,若涉及版面結構的重新編排。
- 翻譯與摘要:為了訓練多語言模型或摘要模型,開發者可能會利用機器翻譯將資料集翻譯成英文,或生成摘要。
- 標註(Labeling):在資料上添加標註雖多屬事實性描述,但若涉及對原著作內容的實質變更,亦有爭議。
若AI模型生成的內容(輸出端)是基於原著作的「二創」,且保留了原著作的「基本內容與核心情節」,亦可能被視為改作行為。
3. 侵權主體之認定
在 TDM 侵權案件中,可能的責任主體包括:
- AI 模型開發商:直接執行爬蟲程式、建立訓練資料庫的企業(如 OpenAI 或 Google)。這是最主要的侵權主體。
- 資料集提供者:有些單位不開發模型,僅負責蒐集並散布資料集(如 Hugging Face 上的某些 Datasets)。若其散布未經授權的著作,涉及侵害「公開傳輸權」或「散布權」。
- 使用者(Prompt Engineer):若使用者利用AI工具刻意生成與特定受保護著作實質近似的內容(例如輸入提示詞要求「生成一張類似米老鼠的圖片」),使用者本身可能構成重製或改作之侵害。
4.「合理使用(Fair Use)」抗辯的法律攻防
| 判斷基準 | AI / 爬蟲業者的主張(攻) | 著作權人的主張 / 法院傾向(防) |
|---|---|---|
| 1. 利用之目的及性質 | 主張為「轉化性使用(Transformative Use)」。TDM 是為了分析數據模式、提取事實,而非單純複製原著作的表達供人欣賞。且AI具有促進科技進步之公益性。 | 若AI服務是商業營利性質(如付費 API、訂閱制),合理使用的空間將大幅壓縮。法院常認為商業目的之利用較難主張合理使用 3。 |
| 2. 著作之性質 | 爬取對象多為事實性資訊(如新聞報導、法規、數據),事實不受著作權保護,故保護密度較低。 | 若爬取的是高度原創性的美術著作、攝影著作或具創意編排的資料庫(如法源法律網),則保護密度高,合理使用空間小。 |
| 3. 利用之質量及其在整體著作之比例 | 相對於整個網際網路,爬取的僅是滄海一粟;或雖全篇複製,但僅是作為龐大資料庫的一小部分。 | 機器學習通常需要輸入「完整」的著作(全量使用)。全篇複製通常被認為超出了合理範圍,除非證明有絕對的技術必要性。 |
| 4. 利用結果對潛在市場與現在價值之影響 | AI 創造了全新的市場(如生成式創作),並未取代原著作的市場。 | 若 AI 生成的內容或提供的搜尋服務「替代」了原著作的市場需求(例如使用者問 AI 就不去看新聞原網頁,導致媒體廣告收入下降),則對潛在市場造成重大損害,極難成立合理使用 5。 |
三、第三章 刑事責任風險:從民事糾紛到牢獄之災
在台灣,智慧財產權侵權與網路行為的法律風險並不僅止於民事賠償,更可怕的是刑事責任。近期的司法實務顯示,單純的資料爬取行為可能觸犯《刑法》妨害電腦使用罪章,這已成為業界最嚴峻的紅線。
1.「七法(Lawsnote)訴法源(Lawbank)」案的震撼教育
此案(新北地方法院 111 年度智訴字第 8 號刑事判決)是台灣首宗因網路爬蟲技術遭判重刑的指標性案件,對 AI 與數據產業界產生了深遠的寒蟬效應。
- 案情摘要:新創公司七法(Lawsnote)為了建置法律搜尋引擎,利用爬蟲程式大量抓取老牌業者法源資訊(Lawbank)網站上的資料,包含法規、判決及「法規沿革」。法源公司設有禁止爬蟲的網站使用條款及防護措施。
- 判決結果:七法創辦人遭判處有期徒刑 4 年、工程師 2 年,公司科罰金,附帶民事賠償高達新台幣 1 億 545 萬餘元。
- 定罪邏輯:法院認定被告的行為同時構成《著作權法》第 91 條擅自重製侵害編輯著作權,以及《刑法》第 359 條無故取得他人電腦電磁紀錄罪。
2. 編輯著作的刑事保護
本案確立了一個重要觀點:資料庫結構本身受刑事保護。雖然法律條文(如民法、刑法條文)本身是公文,不得為著作權標的,但法源公司對條文進行的整理、編排、超連結製作、歷史沿革對照等,展現了「選擇」與「編排」的創意,屬於「編輯著作」。
- 對 AI 業者的警示:爬蟲業者常誤以為公開數據(Public Data)即無版權,卻忽略了資料的「呈現方式」與「集合結構」可能享有編輯著作權。若 AI 訓練資料包含了這些經過人工編輯的結構化資訊,即可能構成刑事侵權。
3. 刑法第 359 條「無故取得電磁紀錄」的擴張適用
本案最具爭議、也最令產業界恐慌的,是法院對於刑法第 359 條「無故」一詞的解釋。
- 法條內容:「無故取得、刪除或變更他人電腦或其相關設備之電磁紀錄,致生損害於公眾或他人者,處五年以下有期徒刑...」
- 何謂「無故」?:法院引用最高法院見解,認為「無正當理由」、「未經所有人許可」、「違反所有人意思」或「逾越授權範圍」均屬無故 8。
- 違反 ToS 即犯罪?:在本案中,法源網站的服務條款(Terms of Service)與 robots.txt 協定均禁止爬蟲。七法公司繞過這些限制(如更換 IP、模擬人類行為)進行爬取,被法院認定為「違反所有人意思」,進而構成「無故」。
- 法律風險的質變:過去學界與實務多認為,違反網站使用條款僅屬民事違約(Breach of Contract)。但此判決將民事違約行為直接升級為刑事犯罪。這意味著,只要網站宣示「禁止未經授權爬取」,任何違反此宣示的爬蟲行為(包括AI訓練資料蒐集)都可能面臨五年以下有期徒刑的風險 6。
4. 刑事侵權的主觀要件
著作權法第 91 條的擅自重製罪所處罰的是「故意」犯。在 AI 訓練場景中,若業者明知資料來源可能存在版權爭議(例如爬取付費牆後的內容,或無視 robots.txt 的禁止聲明),仍執意進行爬取,極易被認定具有直接故意或不確定故意(間接故意)。智慧財產局建議業者應詳實保留 AI 生成過程及訓練資料來源紀錄,以證明無侵權故意,但這在面對大規模爬蟲的客觀違法事實時,防禦效果有限。
四、公平交易法、行政法規與競爭法風險
除了著作權與刑法外,TDM 行為亦受到市場競爭法規的強力監管,特別是當爬蟲行為涉及商業競爭對手時。
1. 公平交易法第 25 條:禁止搭便車與榨取他人努力成果
公平交易法第 25 條是針對不公平競爭的帝王條款,禁止「足以影響交易秩序之欺罔或顯失公平之行為」。在數據經濟中,此條款常被用來制裁「搭便車(Free Riding)」行為。
- 實務見解(租屋網爬蟲案):智慧財產法院 107 年度民公訴字第8號判決指出,被告利用爬蟲抓取原告租屋網的物件資訊(照片、房源描述),並在其 App 中展示。雖然被告辯稱其 App 是導流入口,且商業模式不同(一為廣告、一為媒合),但法院認定:
- 雙方存在競爭關係:皆在爭取租屋族群的注意力與流量。
- 榨取他人努力成果:原告投入大量成本建立房源資料庫,被告未經許可利用爬蟲技術「不勞而獲」,利用原告的成果來推廣自己的 App。
- 顯失公平:此行為導致原告網站流量與廣告收益下降,屬於足以影響交易秩序之顯失公平行為。
- 對 AI 搜尋引擎的影響:現代 AI 搜尋引擎(如 Perplexity, SearchGPT)常直接在搜尋結果中提供由 AI 生成的「完整解答」,使用者無需點擊進入原始網頁。這種模式極可能被認定為「替代」了原始網站的流量,從而構成公平交易法第 25 條的違反。
2. 個人資料保護法:行政監管的隱形地雷
TDM 爬取的資料中往往夾雜著個人資料(如社群網站上的姓名、照片、留言)。
- 蒐集目的之限制:個人資料保護法第 19 條規定,非公務機關蒐集個資需有特定目的。AI 訓練通常不符合原始資料公開時的目的(如社交分享),除非取得當事人同意或符合「增進公共利益」之例外。
- 告知義務的履行不能:依個資法規定,間接蒐集個資需向當事人告知。對於包含數億人的訓練資料集,履行告知義務在物理上是不可能的。
- 行政裁罰風險:雖然目前個資法多以行政罰鍰為主,但隨著隱私意識抬頭,主管機關(如未來的個資保護委員會)可能對大規模違規蒐集個資的 AI 業者開出鉅額罰單。
五、綜合風險評估與遵法策略建議
1. 法律風險
綜合上述分析,網路服務商與AI業者在台灣從事TDM業務的風險矩陣如下:
| 風險維度 | 法律依據 | 關鍵觸發行為 | 風險等級 | 後果 |
|---|---|---|---|---|
| 刑事責任 | 刑法 §358, §359; 著作權法 §91 | 違反 robots.txt 或 ToS 強行爬取;繞過IP封鎖;爬取編輯著作 | 極高 | 有期徒刑、鉅額罰金、商譽毀滅 |
| 民事侵權 | 著作權法 §22, §28, §65 | 未經授權重製、改作;無法證明合理使用;替代原市場 | 高 | 損害賠償(可能含懲罰性)、排除侵害(刪除模型) |
| 公平交易 | 公平交易法 §25 | 爬取競爭對手資料;提供替代性服務;搭便車 | 中高 | 行政罰鍰、民事賠償、停止行為 |
| 個資隱私 | 個資法 §19, §20, §41 | 蒐集含個資之資料且未去識別化;未履行告知義務 | 中 | 行政罰鍰、限期改正、損害賠償 |
2. 具體遵法建議與策略
為了在現行法制下生存並發展,建議業者採取以下多層次的合規策略:
- 資料來源的盡職調查(Data Due Diligence)
- 白名單機制:優先使用公有領域(Public Domain)、創用CC(CC0, CC-BY)授權、或政府開放資料平台(Open Data)的數據。
- 合規審查:在爬取任何商業網站前,務必由法務團隊審查其 robots.txt 與服務條款(ToS)。若網站明確禁止爬蟲,絕對避免強行爬取以免觸犯刑法第 359 條的紅線。
- 尊重「機器可讀」的退出機制
- 遵守 Robots.txt:這是最基本的抗辯底線。嚴格遵守標準的爬蟲協定,表明無侵入之惡意。
- 建立 Opt-out 管道:主動提供權利人將其網站從訓練資料中移除的機制。這在主張「合理使用」時,能作為證明業者具有善意(Good Faith)的有力證據。
- 技術隔離與轉化性使用之強化
- 避免過度擬合(Overfitting):在模型訓練階段加入正規化技術,確保模型學習的是抽象的「風格」與「邏輯」,而非記憶具體的「表達」。
- 強化轉化性:在產品設計上,確保 AI 服務具有不同於原著作的全新功能(如搜尋、摘要、分析),而非僅是原著作的替代品。避免直接展示長篇幅的原始文本。
- 採購授權與合作
- 付費授權:對於高品質、高風險的資料(如新聞媒體、學術期刊、圖庫),應編列預算進行商業授權談判(如 OpenAI 與 Axel Springer 的合作模式)。
- 聯盟資料庫:參與產業聯盟,共同建立合法授權的訓練資料池,分攤授權成本。
3. 結論與未來展望
台灣的 AI 產業界正處於一個法律的斷層線上。技術的進步一日千里,但法律的腳步卻相對蹣跚。在著作權法尚未修法賦予 TDM 明確豁免權,且司法實務對「無故取得電磁紀錄」採取擴張解釋的現狀下,從事資料探勘的業者面臨著全球罕見的嚴苛刑事風險。
短期內,業者必須採取最高標準的遵法策略,特別是嚴格遵守目標網站的使用規範,以避免刑事責任。長期而言,仍然需要透過推動「人工智慧基本法」或著作權法的修訂,參照日本或歐盟模式建立合理的 TDM 安全港(Safe Harbor),以在保護著作權人利益與促進國家 AI 競爭力之間取得平衡。唯有在法律確定性建立之後,台灣的 AI 產業才能真正釋放數據煉金的潛能,否則將持續在創新的鋼索上戰戰兢兢。