วิกิพีเดีย:ดาวน์โหลดฐานข้อมูล

จากวิกิพีเดีย สารานุกรมเสรี

วิกิพีเดียแจกจ่ายสำเนาเนื้อหาทั้งหมดที่มีให้ฟรีแก่ผู้ใช้ที่สนใจ คุณสามารถใช้ฐานข้อมูลนี้ในการมิเรอร์เว็บไซต์ ใช้งานส่วนตัว สำรองข้อมูลอย่างไม่เป็นทางการ ใช้เข้าวิกิพีเดียแบบออฟไลน์ หรือใช้สอบถามฐานข้อมูล (เช่น ใช้สำหรับ วิกิพีเดีย:การบำรุงรักษา) เนื้อหาข้อความทั้งหมดอยู่ภายใต้สัญญาอนุญาตครีเอทีฟคอมมอนส์แบบแสดงที่มา-อนุญาตแบบเดียวกัน 3.0 (CC-BY-SA) และสัญญาอนุญาตเอกสารเสรีของกนู (GFDL) ภาพและไฟล์อื่นอนุญาตให้เผยแพร่ภายใต้ข้อกำหนดต่างกัน ดังที่แสดงรายละเอียดในหน้าคำบรรยาย สำหรับคำแนะนำของเราเกี่ยวกับการปฏิบัติตามสัญญาอนุญาตเหล่านี้ ดู วิกิพีเดีย:ลิขสิทธิ์

โปรแกรมอ่านวิกิพีเดียแบบออฟไลน์[แก้]

วิธีอ่านวิกิพีเดียขณะออฟไลน์มีดังนี้

  • XOWA
  • กีวิกซ์
  • WikiTaxi (สำหรับ Windows)
  • aarddict
  • BzReader (สำหรับ Windows)
  • บทความวิกิพีเดียที่เลือกเฟ้นเป็น PDF, OpenDocument ฯลฯ: วิกิพีเดีย:หนังสือ
  • อีบุ๊กวิกิ
  • WikiFilter
  • วิกิพีเดียบน rockbox

ฉันจะหาสำเนาได้ที่ไหน[แก้]

วิกิพีเดียภาษาไทย[แก้]

  • ข้อมูลจากโครงการมูลนิธิวิกิมีเดียทุกโครงการ: dumps.wikimedia.org และ Internet Archive
  • ข้อมูลวิกิพีเดียภาษาไทยในรูป SQL และ XML: dumps.wikimedia.org/thwiki/ และ Internet Archive
    • pages-article-multistream.xml.bz2 - รุ่นแก้ไขปัจจุบันเท่านั้น ไม่มีหน้าคุยหรือหน้าผู้ใช้; นี่อาจเป็นสิ่งที่คุณต้องการ
    • pages-meta-current.xml.bz2 - การแก้ไขปัจจุบันเท่านั้นทุกหน้า (รวมถึงการพูดคุย)
    • abstract.xml.gz - บทคัดย่อหน้า
    • all-title-in-ns0.gz - เฉพาะชื่อบทความ (รวมหน้าเปลี่ยนทาง)
    • นอกจากนี้ยังมีไฟล์ SQL สำหรับหน้าและลิงก์
    • ทุกรุ่นแก้ไข ทุกหน้า: ไฟล์เหล่านี้เมื่อขยายออกเป็นข้อความจะมีขนาดหลายเทราไบต์ โปรดตรวจสอบก่อนที่จะดาวน์โหลดว่าคุณสามารถรับมือกับข้อมูลปริมาณนี้ได้ ให้ไปที่ ข้อมูลล่าสุด และมองหาไฟล์ทั้งหมดที่ชื่อมี 'pages-meta-history'
  • หากคุณต้องการดาวน์โหลดเซตย่อยของฐานข้อมูลในรูปแบบ XML เช่น ต้องการเลือกแค่บางหมวดหมู่ หรือแค่บางบทความ ดู: พิเศษ:ส่งออก
  • ซอฟต์แวร์ส่วนหน้าของวิกิ: มีเดียวิกิ [1].
  • ซอฟต์แวร์แบ็กเอนด์ฐานข้อมูล: MySQL
  • ข้อมูลภาพ: ดูด้านล่าง

ควรเอาแบบ Multistream หรือเปล่า[แก้]

ทั้ง pages-articles.xml.bz2 และ pages-articles-multistream.xml.bz2 มีไฟล์ .xml เดียวกัน ดังนั้นถ้าคุณขยายไฟล์ใดไฟล์หนึ่งออก (unpack) คุณจะได้ไฟล์เดียวกัน แต่การเอาบทความจากหน่วยเก็บถาวรโดยไม่ต้องขยายออกไฟล์ทั้งหมดนั้นเป็นไปได้ โปรแกรมอ่านของคุณควรจัดการเรื่องนี้ให้คุณ ถ้าโปรแกรมอ่านของคุณไม่รองรับ ไฟล์ก็ยังทำงานได้อยู่ดีเพราะ multistream และไม่ใช่ multistream มี .xml เดียวกัน ข้อเสียของ multistream คือ มันมีขนาดใหญ่กว่าเล็กน้อย คุณอาจรู้สึกอยากเอาจากหน่วยเก็บถาวรที่ไม่ใช่ multistream ขนาดเล็กกว่า แต่จะไร้ประโยชน์ถ้าคุณไม่ขยายออก และมันจะขยายออกเป็นขนาดประมาณ 5-10 เท่าของขนาดดั้งเดิม ดังนั้น ควรใช้ multistream

ใช้ multistream อย่างไร[แก้]

สำหรับ multistream คุณสามารถรับไฟล์ดัชนี pages-articles-multistream-index.txt.bz2 เขตข้อมูลแรกสำหรับดัชนีนี้คือจำนวนไบต์ที่มองหาเข้าสู่หน่วยเก็บถาวรบีบอัดแล้ว pages-articles-multistream.xml.bz2 เขตข้อมูลที่สองเป็นไอดีบทความ เขตข้อมูลที่สามเป็นชื่อเรื่องบทความ

ตัดส่วนเล็ก ๆ ของหน่วยเก็บถาวรด้วย dd โดยใช้ส่วนต่างไบต์ที่พบในดัชนี จากนั้นคุณอาจเลิกบีบอัดด้วย bzip2 หรือใช้ bzip2recover แล้วค้นหาไฟล์แรกเพื่อหาไอดีบทความ

ภาษาอื่น[แก้]

ในสารบบ dumps.wikimedia.org คุณจะพบการเทข้อมูล SQL และ XML ล่าสุดสำหรับโครงการต่าง ๆ ไม่เพียงภาษาไทยเท่านั้น สารบบย่อยมีชื่อสำหรับรหัสภาษา และโครงการที่เหมาะสม มีสารบบอื่น (เช่น simple, nostalgia) ที่มีโครงสร้างเดียวกัน การเทข้อมูลเหล่านี้ยังมีจาก Internet Archive

ไฟล์ที่อัปโหลดอยู่ที่ไหน (รูปภาพ เสียง วีดิทัศน์ ฯลฯ)[แก้]

ภาพและสื่อที่อัปโหลดอื่น ๆ มีให้มิร์เรอร์นอกเหนือจากการให้บริการโดยตรงจากเซิร์ฟเวอร์วิกิมีเดีย การดาวน์โหลดขนาดใหญ่ (ณ เดือนกันยายน 2556) สามารถกระทำได้จากมิเรอร์ แต่เซิร์ฟเวอร์วิกิมีเดียยังไม่มีการเสนอโดยตรง ดู รายการมิเรอร์ปัจจุบัน คุณควร rsync จากมิเรอ แล้วเติมภาพที่หายไปจาก upload.wikimedia.org เมื่อดาวน์โหลดจาก upload.wikimedia.org คุณควรเร่ง upload.wikimedia.org ให้ตัวเองถึง 1 แคชต่อวินาที (คุณสามารถตรวจสอบส่วนหัวของการตอบสนองเพื่อดูว่าเป็น hit หรือ miss แล้วถอยกลับเมื่อคุณ miss) และคุณไม่ควรใช้การเชื่อมต่อ HTTP ตั้งแต่หนึ่งหรือสองการเชื่อมต่อพร้อมกัน ไม่ว่ากรณีใด ให้แน่ใจว่าคุณมีสายอักขระ user agent ที่แม่นยำโดยมีสารนิเทศติดต่อ (ที่อยูอีเมล) เพื่อให้ op สามารถติดต่อคุณได้หากเกิดปัญหา คุณควรได้ checksum จาก API มีเดียวิกิ และพิสูจน์ยืนยันมัน หน้า มารยาท API มีแนวทางบ้างส่วน แม้ไม่ได้ใช้ทั้งหมด (ตัวอย่างเช่น เนื่องจาก upload.wikimedia.org ไม่ใช่มีเดียวิกิ จึงไม่มีพารามิเตอร์ maxlag)

ภาพไม่จำเป็นต้องอยู่ภายใต้สัญญาอนุญาต GFDL และ CC-BY-SA-3.0 ซึ่งต่างจากข้อความบทความส่วนใหญ่ ภาพอาจอยู่ภายใต้สัญญาอนุญาตเสรี ในสาธารณสมบัติ เชื่อว่าเป็นการใช้ลิขสิทธิ์ของผู้อื่นโดยชอบ หรือแม้แต่ละเมิดลิขสิทธิ์ (ซึ่งควรถูกลบ) โดยเฉพาะอย่างยิ่ง การใช้ภาพใช้ลิขสิทธิ์ของผู้อื่นโดยชอบนอกเหนือจากบริบทวิกิพีเดียหรืองานที่คล้ายกันอาจขัดต่อกฎหมาย ภาพภายใต้สัญญาอนุญาตส่วนใหญ่จะต้องให้ความชอบ และบางทีอาจรวมถึงสารสนเทศลิขสิทธิ์ที่แนบไฟล์นั้นด้วย สารสนเทศนี้รวมอยู่ในหน้าคำบรรยายภาพแล้ว ซึ่งเป็นส่วนของการเทข้อมูลข้อความที่มีอยู่ ณ dumps.wikimedia.org กล่าวโดยสรุป คุณรับความเสี่ยงของการดาวน์โหลดภาพเหล่านี้เอง (ข้อกฎหมาย)

การจัดการกับไฟล์บีบอัด[แก้]

ไฟล์เทข้อมูลบีบอัดจะถูกบีบอัดอย่างสำคัญ ดังนั้นหลังถูกบีบอัดแล้วจะกินพื้นที่ไดรฟ์อย่างมาก โปรแกรมแตกไฟล์ (decompress) จำนวนมากที่อธิบายไว้ในการเปรียบเทียบโปรแกรมหน่วยเก็บถาวรไฟล์ โปรแกรมต่อไปนี้สามารถใช้แตกไฟล์ bzip2, .bz2, .zip และ .7z ได้

วินโดวส์

เริ่มต้นจากวินโดวส์เอ็กซ์พี โปรแกรมแตกไฟล์พื้นฐานช่วยให้แตกไฟล์ซิป[1][2] สามารถใช้โปรแกรมต่อไปนี้แตกไฟล์ bzip2 ได้ เช่น

แมคอินทอช (Mac)
  • OS X มาพร้อมกับเครื่องมือบรรทัดคำสั่ง bzip2
กนู/ลินุกซ์
  • การแจกแจงกนู/ลินุกซ์ส่วนใหญ่มาพร้อมกับเครื่องมือบรรทัดคำสั่ง bzip2
เบิร์กลีย์ซอฟต์แวร์ดิสทริบิวชัน (BSD)
  • ระบบ BSD บางระบบมาพร้อมกับเครื่องมือบรรทัดคำสั่ง bzip2 ซึ่งเป็นส่วนหนึ่งของระบบปฏิบัติการ ระบบอื่น เช่น OpenBSD มาเป็นแพ็กเกจซึ่งต้องติดตั้งก่อน
หมายเหตุ
  1. bzip2 รุ่นเก่าบางรุ่นอาจไม่สามารถจัดการกับไฟล์ที่มีขนาดใหญ่กว่า 2 GB ได้ ดังนั้นหากเกิดปัญหาให้ตรวจสอบดูว่าใช้รุ่นล่าสุดหรือเปล่า
  2. หน่วยเก็บถาวรรุ่นเก่าบางหน่วยถูกบีบอัดด้วย gzip ซึ่งเข้ากันได้กับ PKZIP (รูปแบบวินโดวส์ที่พบบ่อยที่สุด)

การจัดการกับไฟล์ขนาดใหญ่[แก้]

เมื่อไฟล์มีขนาดใหญ่ขึ้น ก็ยิ่งมีโอกาสเกินขีดจำกัดของอุปกรณ์คอมพิวเตอร์สูงขึ้นตามไปด้วย ระบบปฏิบัติการ ระบบไฟล์ อุปกรณ์จัดเก็บ และซอฟต์แวร์ (แอปพลิเคชัน) แต่ละอย่างมีขีดจำกัดขนาดไฟล์สูงสุดที่แตกต่างกัน และขีดจำกัดต่ำสุดของระบบทั้งหลายข้างต้นจะกลายเป็นขีดจำกัดขนาดไฟล์สำหรับอุปกรณ์จัดเก็บ

ยิ่งซอฟต์แวร์ในอุปกรณ์คอมพิวเอตร์มีอายุมากเท่าใด ยิ่งมีความเป็นไปได้สูงที่จะมีขีดจำกัดไฟล์ 2 GB ที่ใดสักแห่งในระบบ ทั้งนี้ เนื่องจากซอฟต์แวร์ที่มีอายุมากใช้จำนวนเต็ม 32 บิต ซึ่งจำกัดขนาดไฟล์ที่ 231 ไบต์ (2 GB) สำหรับจำนวนเต็มที่มีเครื่องหมาย หรือ 232 ไบต์ (4 GB) สำหรับจำนวนเต็มที่ไม่มีเครื่องหมาย ไลบรารีโปรแกรมภาษาซีที่มีอายุมากมีขีดจำกัด 2 หรือ 4 GB ดังนี้ แต่ไลบรารีไฟล์ที่ใหม่กว่ามีการแปลงเป็นจำนวนเต็ม 64 บิตแล้ว ดังนั้นจึงรองรับขนาดไฟล์สูงสุดถึง 263 หรือ 264 ไบต์ (8 หรือ 16 EB)

ก่อนเริ่มดาวน์โหลดไฟล์ขนาดใหญ่ ให้ตรวจสอบอุปกรณ์เก็บข้อมูลเพื่อให้แน่ใจว่าระบบไฟล์สามารถรองรับไฟล์ขนาดใหญ่และตรวจสอบเนื้อที่ว่างเพื่อให้แน่ใจว่าสามารถเก็บไฟล์ที่ดาวน์โหลดได้

ขีดจำกัดระบบไฟล์[แก้]

มีข้อจำกัดสำหรับระบบไฟล์สองอย่าง ได้แก่ ขีดจำกัดขนาดระบบไฟล์และขีดจำกัดระบบไฟล์ โดยทั่วไป เนื่องจากขีดจำกัดขนาดไฟล์เล็กกว่าขีดจำกัดระบบไฟล์ ขีดจำกัดระบบไฟล์ที่ใหญ่กว่าจึงเป็นหัวข้อถกเถียง ผู้ใช้จำนวนมากสันนิษฐานว่าตนสามารถสร้างไฟล์มีขนาดใหญ่เท่าอุปกรณ์จัดเก็บได้ แต่ในความเป็นจริงแล้วไม่ใช่ ตัวอย่างเช่น อุปกรณ์จัดเก็บ 16 GB ที่จัดรูปแบบเป็นระบบไฟล์ FAT32 มีขีดจำกัดไฟล์ 4 GB สำหรับไฟล์เดี่ยวหนึ่ง ๆ รายการต่อไปนี้เป็นระบบไฟล์ทั่วไป ดูการเปรียบเทียบระบบไฟล์สำหรับสารสนเทศรายละเอียดเพิ่มเติม

วินโดวส์
  • FAT16 รองรับไฟล์สูงสุด 4 GB FAT16 เป็นรูปแบบจากโรงงานของไดรฟ์ USB ขนาดเล็กและการ์ด SD ทั้งหมดที่มีขนาดไม่เกิน 2 GB
  • FAT32 รองรับไฟล์สูงสุด 4 GB FAT32 เป็นรูปแบบจากโรงงานของไดรฟ์ USB ขนาดใหญ่และ การ์ด SDHC ทั้งหมดที่มีขนาดตั้งแต่ 4 GB ขึ้นไป
  • exFAT รองรับไฟล์สูงสุด 127 PB exFAT เป็นรูปแบบจากโรงงานของการ์ด SDXC ทั้งหมด แต่เข้ากันไม่ได้กับรสชาติส่วนใหญ่ของ UNIX เนื่องจากปัญหาใบอนุญาต
  • NTFS รองรับไฟล์สูงสุด 16 TB NTFS เป็นระบบไฟล์เริ่มต้นสำหรับคอมพิวเตอร์วินโดวส์สมัยใหม่รวมถึง Windows 2000, Windows XP และผู้รับช่วงต่อทั้งหมด รุ่นหลังจาก Windows 8 สามารถรองรับไฟล์ขนาดใหญ่กว่าได้หากมีการจัดรูปแบบระบบไฟล์ด้วยขนาดของคลัสเตอร์ใหญ่กว่า
  • ReFS รองรับไฟล์มากถึง 16 EB
แมคอินทอช (Mac)
  • HFS Plus (HFS+) รองรับไฟล์สูงสุด 8 EB บน Mac OS X 10.2+ และ iOS HFS + เป็นระบบไฟล์โดยปริยายสำหรับคอมพิวเตอร์ OS X
ลีนุกซ์
  • ext2 และ ext3 รองรับไฟล์สูงสุด 16 GB แต่สูงได้ถึง 2 TB พร้อมถ้ามีขนาดบล็อกใหญ่กว่า ดูสารสนเทศเพิ่มเติมทาง http://www.suse.com/~aj/linux_lfs.html
  • ext4 รองรับไฟล์สูงสุด 16 TB โดยใช้ขนาดบล็อก 4 KB ( ลบขีด จำกัด ใน e2fsprogs-1.42 (2012) )
  • XFS รองรับไฟล์สูงสุด 8 EB
  • ReiserFS รองรับไฟล์มากถึง 1 EB, 8 TB บนระบบ 32 บิต
  • JFS รองรับไฟล์สูงสุด 4 PB
  • Btrfs รองรับไฟล์มากถึง 16 EB
  • NILFS รองรับไฟล์สูงสุด 8 EB
  • YAFFS 2 รองรับไฟล์สูงสุด 2 GB
FreeBSD
  • ZFS รองรับไฟล์ใหญ่ถึง 16 EB
FreeBSD และ BSD อื่น ๆ
  • Unix File System (UFS) รองรับไฟล์สูงสุด 8 ZiB

ขีดจำกัดของระบบปฏิบัติการ[แก้]

ระบบปฏิบัติการแต่ละระบบมีขีดจำกัดระบบไฟล์ภายในสำหรับขนาดไฟล์และขนาดไดรฟ์ ซึ่งเป็นอิสระจากระบบไฟล์หรือสื่อกายภาพ หากระบบปฏิบัติการมีขีดจำกัดต่ำกว่าระบบไฟล์หรือสื่อกายภาพแล้ว ขีดจำกัดของระบบปฏิบัติการจะเป็นขีดจำกัดแท้จริง

วินโดวส์
  • Windows 95, 98, ME มีขีดจำกัด 4 GB สำหรับไฟล์ทุกขนาด
  • Windows XP มีขีดจำกัด 16 TB สำหรับไฟล์ทุกขนาด
  • Windows 7 มีขีดจำกัด 16 TB สำหรับไฟล์ทุกขนาด
  • Windows 8, 10 และ Server 2012 มีขีดจำกัด 256 TB สำหรับไฟล์ทุกขนาด
ลีนุกซ์
  • ระบบ 2.4.x ใจกลาง 32 บิต มีขีดจำกัด 2 TB สำหรับทุกระบบไฟล์
  • ระบบ 2.4.x ใจกลาง 64 บิต มีขีดจำกัด 8 EB สำหรับทุกระบบไฟล์
  • ระบบ 2.6.x ใจกลาง 32 บิตโดยไม่มีตัวเลือก CONFIG_LBD มีข้อ จำกัด 2 TB สำหรับทุกระบบไฟล์
  • ระบบ 2.6.x ใจกลาง 32 บิตโดยมีตัวเลือก CONFIG_LBD มีข้อ จำกัด 2 TB สำหรับระบบทุกระบบไฟล์ และระบบ 2.6.x ใจกลาง 64 บิตทั้งหมดมีขีดจำกัด 8 ZB สำหรับทุกระบบไฟล์
กูเกิล แอนดรอยด์
  • Google Android ใช้ Linux ซึ่งกำหนดขีดจำกัดพื้นฐาน
    • หน่วยเก็บภายใน:
      • Android 2.3 และใหม่กว่าใช้ระบบไฟล์ ext4
      • Android 2.2 และรุ่นก่อนหน้านี้ใช้ระบบไฟล์ YAFFS 2
    • หน่วยเก็บภายนอก:
      • อุปกรณ์แอนดรอย์ทั้งหมดควรรองรับระบบไฟล์ FAT16, FAT32, ext2
      • Android 2.3 และใหม่กว่ารองรับระบบไฟล์ ext4
Apple iOS
  • อุปกรณ์ทั้งหมดรองรับ HFS Plus (HFS +) สำหรับหน่วยเก็บภายใน ไม่มีอุปกรณ์ใดมีช่องหน่วยเก็บภายนอก อุปกรณ์ที่ใช้ 10.3 หรือใหม่กว่าดำเนินการ Apple File System ซึ่งรองรับขนาดไฟล์สูงสุด 8 EB

ทำไมไม่ดึงข้อมูลจาก wikipedia.org ที่รันไทม์ทีเดียวเลย[แก้]

สมมติว่าคุณกำลังสร้างส่วนหนึ่งของซอฟต์แวร์ที่บางจุดแสดงสารสนเทศที่มาจากวิกิพีเดีย หากคุณต้องการให้โปรแกรมของคุณแสดงสารสนเทศในแบบที่ต่างออกไปจากที่เห็นในรุ่นสด คุณอาจต้องการรหัสวิกิที่ใช้ป้อนเข้า แทนเอชทีเอ็มแอลของรุ่นเสร็จสิ้นแล้ว

นอกจากนี้ หากคุณต้องการข้อมูลทั้งหมด คุณอาจต้องการถ่ายโอนข้อมูลด้วยวิธีที่มีประสิทธิภาพที่สุดเท่าที่เป็นไปได้ เซิร์ฟเวอร์ wikipedia.org จำเป็นต้องทำงานหนักเพื่อแปลงรหัสวิกิเป็นเอชทีเอ็มแอล มันกินเวลาของทั้งคุณและเซิร์ฟเวอร์ wikipedia.org ดังนั้นการ spidering ทุกหน้าไม่ใช่วิธีการที่เหมาะสม

ในการเข้าถึงบทความใด ๆ ใน XML ทีละบทความ ให้เข้าถึง พิเศษ:ส่งออก/ชื่อบทความ

อ่านเพิ่มเติมได้ที่ พิเศษ:ส่งออก

พึงทราบว่าห้ามมิร์เรอร์สดจากวิกิพีเดียที่มีการโหลดแบบพลวัตจากเซิร์ฟเวอร์วิกิมีเดีย

กรุณาอย่าใช้เว็บครอว์เลอร์[แก้]

กรุณาอย่าใช้เว็บครอว์เลอร์เพื่อดาวน์โหลดบทความจำนวนมาก การ crawling เซิร์ฟเวอร์อย่างดุเดือดทำให้วิกิพีเดียช้าลงมาก

การทำข้อคำถาม SQL บนการเทฐานข้อมูลปัจจุบัน[แก้]

คุณสามารถทำข้อคำถาม SQL บนการเทฐานข้อมูลปัจจุบันโดยใช้ Quarry

เค้าร่างฐานข้อมูล[แก้]

เค้าร่าง SQL[แก้]

ดูเพิ่ม: mw:Manual:Database layout

ไฟล์ sql ที่ใช้ในการเริ่มต้นฐานข้อมูลมีเดียวกิ สามารถพบได้ ที่นี่

เค้าร่าง XML[แก้]

เค้าร่าง XML สำหรับแต่ละการเทข้อมูลมีนิยามที่ด้านบนของไฟล์ และอธิบายไว้ใน หน้าคำอธิบายการส่งออกของมีเดียวิกิ

คำอธิบายการแจงส่วนการเทข้อมูลสำหรับใช้ในสคริปต์[แก้]

  • Wikipedia preprocessor (wikiprep.pl) เป็นสคริปต์ Perl ที่ประมวลผลการเทข้อมูล XML ดิบและสร้างตารางลิงก์ ลำดับชั้นของหมวดหมู่ รวบรวมข้อความหลักยึดสำหรับแต่ละบทความ เป็นต้น
  • Wikipedia SQL dump parser เป็นไลบรารี NET เพื่ออ่านการเทข้อมูล MySQL โดยไม่ต้องใช้ฐานข้อมูล MySQL
  • Dictionary Builder เป็นโปรแกรมจาวาที่สามารถแจกส่วนการเทข้อมูล XML และแยกหน่วยข้อมูลในไฟล์
  • Scripts for parsing Wikipedia dumps สคริปต์ที่ใช้ Python สำหรับการแจกส่วนไฟล์ sql.gz จากการเทข้อมูลวิกิพีเดีย

การทำ Hadoop MapReduce บนการเทฐานข้อมูลวิกิพีเดียปัจจุบัน[แก้]

คุณสามารถทำข้อสอบถาม Hadoop MapReduce ในการเทฐานข้อมูลปัจจุบัน แต่คุณต้องมีส่วนขยายไปยัง InputRecordFormat เพื่อให้แต่ละ <page></page> เป็น mapper รับเข้าเดียว ชุดทำงานของวิธีการจาวา (jobControl, mapper, reducer และ XmlInputRecordFormat) มีอยู่ที่ Hadoop บนวิกิพีเดีย

คำอธิบายการนำเข้าการเทข้อมูลลง MySQL[แก้]

ดู:

การเทข้อมูลต้นไม้ HTML แบบสถิตสำหรับมิร์เรอร์หรือการจำหน่ายซีดี[แก้]

มีเดียวิกิ 1.5 มีรูทีนเพื่อเทข้อมูลวิกิไปยังเอชทีเอ็มแอล เรนเดอร์เอชทีเอ็มแอลด้วยตัวแจงส่วนตัวเดียวกับที่ใช้กับวิกิสด ตามที่หน้าต่อไปนี้ระบุ การนำการเทข้อมูลเหล่านี้บนเว็บโดยไม่ดัดแปรจะเป็นการละเมิดเครื่องหมายการค้า หมายความว่า การเทข้อมูลเหล่านี้ตั้งใจให้ชมเป็นส่วนตัวในอินทราเน็ตหรือติดตั้งบนเดสก์ท็อป

ดูเพิ่มที่ mw:Alternative parsers แสดงรายการตัวเลือกอื่น ๆ ที่ใช้การไม่ได้สำหรับการเทข้อมูล HTML แบบสถิต

กีวิกซ์[แก้]

กีวิกซ์เป็นผู้จัดจำหน่ายวิกิพีเดียแบบออฟไลน์รายใหญ่สุดในปัจจุบัน กีวิกซ์เป็นโปรแกรมอ่านออฟไลน์ ทำงานกับไลบรารีเนื้อหาที่เป็นไฟล์ zim: คุณสามารถเลือกเนื้อหาวิกิมีเดียใดก็ได้ (วิกิพีเดียทุกภาษา โครงการพี่น้อง ฯลฯ) ตลอดจน TED talk, PhET maths&physics simulations เป็นต้น

เป็นโปรแกรมไม่เสียค่าใช้จ่ายและโอเพนซอร์สและสามารถดาวน์โหลดได้บน

... เช่นเดียวกับส่วนขยายสำหรับ Chrome และเบราว์เซอร์ Firefox การแก้ปัญหาเซิร์ฟเวอร์ ฯลฯ ดู ที่นี่ สำหรับพอร์ตโฟลิโอซอฟต์แวร์ Kiwix สมบูรณ์

Aard Dictionary[แก้]

Aard Dictionary เป็นโปรแกรมอ่านวิกิพีเดียออฟไลน์ ไม่มีภาพ ข้ามแพลตฟอร์มสำหรับ Windows, Mac, Linux, Android, Maemo ทำงานบนเครื่องอ่าน eBooks ของ Nook รูทและ Sony PRS-T1 https://github.com/aarddict

อีบุ๊ก[แก้]

ร้าน wiki-as-ebook ให้บริการ ebooks ที่สร้างขึ้นจากบทความวิกิพีเดียขนาดใหญ่พร้อมภาพขาวดำสำหรับผู้อ่าน e-book (2013)

Wikiviewer สำหรับ Rockbox[แก้]

ปลั๊กอิน wikiviewer สำหรับ rockbox อนุญาตให้ดูการเทข้อมูลวิกิพีเดียที่แปลงแ้วบนอุปกรณ์ Rockbox จำนวนมาก มันจำเป็นต้องการ build และการแปลงเองจากการเทข้อมูลวิกิโดยใช้คำชี้แจงที่มีให้ใน http://www.rockbox.org/tracker/4755 การแปลงจะบีบอัดไฟล์ใหม่และแยกไฟล์เป็นไฟล์ละ 1 GB และไฟล์ดัชนีซึ่งทุกไฟล์ต้องอยู่ในโฟลเดอร์เดียวกันบนอุปกรณ์หรือการ์ด micro sd

การสร้าง HTML แบบพลวัตจากการเทฐานข้อมูล XML ท้องถิ่น[แก้]

แทนการแปลงไฟล์การเทฐานข้อมูลเป็นเอชทีเอ็มแอลสถิตหลายชิ้น ยังสามารถใช้โปรแกรมสร้างเอชทีเอ็มแอลแบบพลวัตได้ การค้นดูหน้าวิกิเหมือนกับการค้นดูเว็บไซต์วิกิ แต่มีการเลือกเนื้อหาและแปลงจากไฟล์การเทข้อมูลท้องถิ่นตามที่เบราว์เซอร์ร้องขอ

XOMA[แก้]

XOWA เป็นแอปพลิเคชันโอเพนซอร์ซฟรีที่ช่วยดาวน์โหลดวิกิพีเดียไปยังคอมพิวเตอร์ เข้าถึงวิกิพีเดียทั้งหมดออฟไลน์ โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต! ขณะนี้อยู่ในขั้นตอนของการพัฒนาระยะทดสอบ (beta) แต่ใช้การได้ สามารถดาวน์โหลดได้ที่นี่

คุณลักษณะ[แก้]

  • แสดงบทความทั้งหมดจากวิกิพีเดีย โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต
  • ดาวน์โหลดสำเนาล่าสุดแบบสมบูรณ์ของวิกิพีเดีย
  • แสดงบทความในรูปแบบ HTML เต็มรูปแบบ
  • แสดงภาพภายในบทความ เข้าถึงภาพโดยใช้ฐานข้อมูลภาพออฟไลน์
  • ใช้การได้กับทุกวิกิของวิกิมีเดีย รวมทั้งวิกิพีเดีย วิกิพจนานุกรม วิกิซอร์ซ วิกิคำคม วิกิท่องเที่ยว (รวมถึงการเทข้อมูลที่มิใช่ของ wmf บางส่วนด้วย)
  • ใช้ได้กับวิกิภาษาอื่นด้วย
  • ใช้การได้กับวิกิชำนัญพิเศษ อย่างวิกิสนเทศ วิกิมีเีดยคอมมอนส์, วิกิสปีชีส์ หรือการเทข้อมูลจากมีเดียวิกิใด ๆ
  • ตั้งค่าวิกิอื่นมากกว่า 660+ รายการ
  • อัปเดตวิกิของคุณทุกครั้งตามต้องการ โดยใช้สำรองฐานข้อมูลของวิกิมีเดีย
  • นำทางระหว่างวิกิออฟไลน์ คลิกที่ "ค้นหาคำนี้ในวิกิพจนานุกรม" และดูหน้าในวิกิพจนานุกรมทันที
  • แก้ไขบทความเพื่อลบการก่อกวนหรือข้อผิดพลาด
  • ติดตั้งลงในการ์ดหน่วยความจำแฟลชสำหรับพกพาไปยังเครื่องอื่น
  • ทำงานบน Windows, Linux และ Mac OS X
  • ดู HTML สำหรับทุกหน้าวิกิ
  • ค้นหาหน้าใด ๆ ตามชื่อเรื่องโดยใช้ช่องค้นหาคล้ายวิกิพีเดีย
  • ค้นดูหน้าตามลำดับอักษรโดยใช้ พิเศษ:AllPages
  • ค้นหาคำบนหน้า
  • เข้าถึงประวัติของหน้าที่ดู
  • คั่นหน้าโปรดของคุณ
  • ดาวน์โหลดรูปภาพและไฟล์อื่น ๆ ตามต้องการ (เมื่อเชื่อมต่อกับอินเทอร์เน็ต)
  • ตั้งค่าวิกิพีเดียอย่างง่ายในเวลาไม่ถึง 5 นาที
  • สามารถปรับแต่งได้หลายระดับ: ตั้งแต่คีย์ลัดไปจนถึงผัง HTML จนถึงตัวเลือกภายใน

คุณลักษณะหลัก[แก้]

  1. การค้นหาที่รวดเร็วมาก
  2. การค้นหาที่อาศัยคำสำคัญ (หรือคำชื่อเรื่อง)
  3. การค้นหาสร้างบทความที่เป็นไปได้จำนวนมาก: คุณสามารถเลือกได้
  4. การเรนเดอร์แบบ LaTeX สำหรับสูตรทางคณิตศาสตร์
  5. ความต้องการพื้นที่ขั้นต่ำ: ไฟล์. bz2 ดั้งเดิมบวกกับดัชนี
  6. การติดตั้งที่รวดเร็วมาก (ไม่กี่ชั่วโมง) เทียบกับการโหลดการเทข้อมูลลง MySQL

WikiFilter[แก้]

WikiFilter เป็นโปรแกรมที่ให้คุณสามารถต้นดูไฟล์การเทข้อมูลมากกว่า 100 ไฟล์โดยไม่ต้องไปเว็บไซจ์วิกิ

ข้อกำหนดของระบบ WikiFilter[แก้]

  • วินโดวส์รุ่นล่าสุด (WinXP ใช้ได้ แต่ Win98 และ WinME จะไม่ทำงานเพราะไม่มีการสนับสนุน NTFS)
  • พื้นที่ว่างในฮาร์ดไดรฟพอสมควร (ในการติดตั้งคุณจะต้องใช้ประมาณ 12-15 กิกะไบต์ จากนั้นคุณต้องใช้ประมาณ 10 กิกะไบต์เท่านั้น)\

วิธีการตั้งค่า WikiFilter[แก้]

เริ่มดาวน์โหลดไฟล์การเทฐานข้อมูลวิกิพีเดีย เช่นการเทข้อมูลวิกิพีเดียภาษาไทย หากใช้โปรแกรมจัดการการดาวน์โหลดอย่าง GetRight จะดีที่สุด เพื่อให้คุณสามารถดาวน์โหลดไฟล์ต่อได้แม้ว่าคอมพิวเตอร์ของคุณจะหยุดทำงานหรือปิดระหว่างดาวน์โหลด

  1. ดาวน์โหลด XAMPPLITE จาก [2] (คุณต้องรับเวอร์ชัน 1.5.0 เพื่อให้ทำงานได้) ให้แน่ใจว่าเลือกไฟล์ที่มีนามสกุลไฟล์ .exe
  2. ติดตั้ง/แตกไฟล์ไปที่ C:\XAMPPLITE
  3. ดาวน์โหลด WikiFilter 2.3 จากเว็บไซต์นี้: http://sourceforge.net/projects/wikifilter คุณจะมีไฟล์ให้เลือกดาวน์โหลด ดังนั้นตรวจสอบให้แน่ใจว่าคุณเลือกเวอร์ชั่น 2.3 แตกไปที่ C:\WIKIFILTER
  4. คัดลอก WikiFilter.so ลงในโฟลเดอร์ C:\XAMPPLITE\apache\modules ของคุณ
  5. แก้ไขไฟล์ C:\xampplite\apache\conf\httpd.conf และเพิ่มบรรทัดต่อไปนี้:
    • LoadModule WikiFilter_module "C:/XAMPPLITE/apache/modules/WikiFilter.so"
  6. เมื่อไฟล์ Wikipedia ของคุณดาวน์โหลดเสร็จแล้วให้คลายการบีบอัดลงในโฟลเดอร์ C:\WIKIFILTER ของคุณ (ฉันใช้ WinRAR http://www.rarlab.com/ รุ่นสาธิต – BitZipper http://www.bitzipper.com/winrar.html ทำงานได้ดีเช่นกัน)
  7. เรียกใช้ WikiFilter (WikiIndex.exe) และไปที่โฟลเดอร์ C:\WIKIFILTER ของคุณแล้วลากและวางไฟล์ XML ลงในหน้าต่างคลิกโหลดแล้วเริ่ม
  8. หลังจากเสร็จสิ้นให้ออกจากหน้าต่างแล้วไปที่โฟลเดอร์ C:\XAMPPLITE รันไฟล์ setup_xampp.bat เพื่อกำหนดค่า xampp
  9. เมื่อเสร็จแล้วให้เรียกใช้ไฟล์ Xampp-Control.exe และเริ่ม Apache
  10. เรียกดู http://localhost/wiki และดูว่าใช้งานได้หรือไม่

WikiTaxi (สำหรับวินโดวส์)[แก้]

WikiTaxi เป็นโปรแกรมอ่านออฟไลน์สำหรับวิกิในรูปแบบมีเดียวิกิ ทำให้ผู้ใช้ค้นหาและค้นดูวิกิยอดนิยมอย่างวิกิพีเดีย หรือโครงการพี่น้องอื่นของวิกิมีเดียได้ โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต WikiTaxi ใช้การได้ดีกับภาษาต่าง ๆ เช่น อังกฤษ เยอรมัน ตุรกี ฯลฯ แต่มีปัญหากับภาษาที่อ่านจากขวามาซ้าย WikiTaxi ไม่แสดงผลภาพ

ข้อกำหนดระบบของ WikiTaxi[แก้]

  • รุ่นวินโดวส์ทุกรุ่นเริ่มตั้งแต่วินโดวส์ 95 เป็นต้นไป การสนับสนุนไฟล์ขนาดใหญ่ (มากกว่า 4GB ซึ่งต้องการระบบไฟล์ exFAT) สำหรับวิกิขนาดใหญ่
  • ยังใช้การได้กับลีนุกซ์ที่มี Wine
  • แรมขั้นต่ำ 16 MB สำหรับโปรแกรมอ่าน WikiTaxi และแนะนำ 128 MB สำหรับโปรแกรมนำเข้า (ทำให้เร็วขึ้น)
  • พื้นที่เก็บสำหรับฐานข้อมูล WikiTaxi

การใช้ WikiTax[แก้]

  1. ดาวน์โหลด WikiTaxi และแตกเข้าโฟลเดอร์ว่าง ไม่ต้องการติดตั้งใด ๆ
  2. ดาวน์โหลดการเทข้อมูลฐานข้อมูล XML (*.xml.bz2) ของวิกิที่คุณต้องการ
  3. ดำเนินการ WikiTaxi_Importer.exe เพื่อนำเข้าการเทข้อมูลฐานข้อมูลเข้าฐานข้อมูล WikiTaxi โปรแกรมนำเข้าต้องใช้ความระมัดระวังเพื่อคลายการเทข้อมูลเมื่อนำเข้า ดังนั้นให้แน่ใจว่าคุณมีที่ว่างในไดรฟ์ และไม่คลายก่อนหน้านั้น
  4. เมื่อนำเข้าเสร็จสิ้นแล้ว เปิด WikiTaxi.exe และไฟล์ฐานข้อมูลที่ได้ สามารถเริ่มค้นหา ค้นดูและอ่านได้ทันที
  5. หลังนำเข้าเสร็จแล้ว ไฟล์การเทข้อมูล XML จะไม่จำเป็นอีกต่อไป และสามารถลบเพื่อกู้ช่องว่างดิสก์คืน
  6. หากต้องการอัปเดตวิกิออฟไลน์สำหรับ WikiTaxi ให้ดาวน์โหลดและนำเข้าการเทข้อมูลฐานข้อมูลที่ใหม่กว่า

สำหรับการอ่าน WikiTaxi ต้องการเพียงสองไฟล์ คือ WikiTaxi.exe และฐานข้อมูล .taxi คัดลอกไฟ์ทั้งสองไปยังอุปกรณ์จัดเก็บใด ๆ (การ์ดความจำ) หรือ burn เข้าซีดีหรือดีวีดี แล้วพกพาวิกิพีเดียติดตัวคุณไปได้ทุกที่

อ้างอิง[แก้]

  1. "Benchmarked: What's the Best File Compression Format?". How To Geek. How-To Geek, LLC. สืบค้นเมื่อ 18 January 2017.
  2. "Zip and unzip files". Microsoft. Microsoft. สืบค้นเมื่อ 18 January 2017.